PostgreSQL
 sql >> डेटाबेस >  >> RDS >> PostgreSQL

EMR पर अपाचे स्पार्क के साथ Postgresql JDBC स्रोत का उपयोग करना

मुझे लगता है कि आपको दासों में पोस्टग्रेज जार को कॉपी करने की आवश्यकता नहीं है क्योंकि ड्राइवर प्रोग्राम और क्लस्टर मैनेजर सब कुछ ध्यान रखते हैं। मैंने निम्नलिखित तरीके से Postgres बाहरी स्रोत से डेटाफ़्रेम बनाया है:

पोस्टग्रेज ड्राइवर जार डाउनलोड करें :

cd $HOME && wget https://jdbc.postgresql.org/download/postgresql-42.2.5.jar

डेटाफ़्रेम बनाएं :

atrribute = {'url' : 'jdbc:postgresql://{host}:{port}/{db}?user={user}&password={password}' \
        .format(host=<host>, port=<port>, db=<db>, user=<user>, password=<password>),
                 'database' : <db>,
                 'dbtable' : <select * from table>}
 df=spark.read.format('jdbc').options(**attribute).load()

स्पार्क जॉब के लिए सबमिट करें: स्पार्क जॉब सबमिट करते समय डाउनलोड किए गए जार को ड्राइवर क्लास पाथ में जोड़ें।

--properties spark.driver.extraClassPath=$HOME/postgresql-42.2.5.jar,spark.jars.packages=org.postgresql:postgresql:42.2.5 


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. पोस्टग्रेज़ में उपयोगकर्ता परिभाषित तालिकाओं की जांच कैसे करें?

  2. SQL कथन का उपयोग करके तालिका में कॉलम मौजूद होने पर मैं कैसे परीक्षण कर सकता हूं?

  3. कैसे Heroku पर एक .sql स्क्रिप्ट निष्पादित करने के लिए?

  4. क्या कोई समझा सकता है कि पोस्टग्रेस्क्ल-क्लाइंट क्या है और यह पोस्टग्रेस्क्ल कोर पैकेज के साथ कैसे इंटरैक्ट करता है?

  5. क्या मैं PostgreSQL में एक बाइटा फ़ील्ड पर एक आकार सीमा (dbase के भीतर) सेट कर सकता हूं?