PostgreSQL
 sql >> डेटाबेस >  >> RDS >> PostgreSQL

pyspark शेल में jdbc का उपयोग करके पोस्टग्रेज से कनेक्ट करने में सक्षम नहीं है

हो सकता है यह मददगार हो।

मेरे परिवेश में SPARK_CLASSPATH में पोस्टग्रेस्क्ल कनेक्टर का पथ शामिल है

from pyspark import SparkContext, SparkConf
from pyspark.sql import DataFrameReader, SQLContext
import os

sparkClassPath = os.getenv('SPARK_CLASSPATH', '/path/to/connector/postgresql-42.1.4.jar')

# Populate configuration
conf = SparkConf()
conf.setAppName('application')
conf.set('spark.jars', 'file:%s' % sparkClassPath)
conf.set('spark.executor.extraClassPath', sparkClassPath)
conf.set('spark.driver.extraClassPath', sparkClassPath)
# Uncomment line below and modify ip address if you need to use cluster on different IP address
#conf.set('spark.master', 'spark://127.0.0.1:7077')

sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)

url = 'postgresql://127.0.0.1:5432/postgresql'
properties = {'user':'username', 'password':'password'}

df = DataFrameReader(sqlContext).jdbc(url='jdbc:%s' % url, table='tablename', properties=properties)

df.printSchema()
df.show()

कोड का यह टुकड़ा आपको जहां जरूरत है वहां pyspark का उपयोग करने की अनुमति देता है। उदाहरण के लिए, मैंने इसे Django प्रोजेक्ट में इस्तेमाल किया है।



  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. कैसे psql के भीतर से एक postgresql डेटाबेस का बैकअप लेने के लिए?

  2. लंबी बाइनरी (कच्चे डेटा) तारों को संग्रहित करना

  3. JSON सरणी में एक तत्व खोजने के लिए सूचकांक

  4. Node Sequelize में उत्सुक-लोडेड नेस्टेड मॉडल के परिणाम का आदेश देना

  5. पोस्टग्रेज - लापता डेटा के लिए 0 गिनती के साथ पंक्तियों को कैसे वापस करें?