Oracle
 sql >> डेटाबेस >  >> RDS >> Oracle

डेटा को ऑरैकल से एचडीएफएस में ले जाएं, प्रोसेस करें और एचडीएफएस से टेराडेटा पर जाएं

ऐसा लगता है कि आपके कई प्रश्न हैं, तो चलिए इसे समझने का प्रयास करते हैं।

HDFS में आयात करना

ऐसा लगता है कि आप Sqoop ढूंढ रहे हैं . Sqoop एक ऐसा टूल है जो आपको आसानी से HDFS में/बाहर डेटा ट्रांसफर करने देता है, और Oracle सहित विभिन्न डेटाबेस से मूल रूप से कनेक्ट हो सकता है। Sqoop Oracle JDBC पतले ड्राइवर के साथ संगत है। यहां बताया गया है कि आप Oracle से HDFS में कैसे ट्रांसफर करेंगे:

sqoop import --connect jdbc:oracle:[email protected]:1521/db --username xxx --password yyy --table tbl --target-dir /path/to/dir

अधिक जानकारी के लिए:यहां और यहां . ध्यान दें कि आप सीधे Sqoop के साथ एक हाइव तालिका में आयात कर सकते हैं जो आपके विश्लेषण के लिए सुविधाजनक हो सकता है।

प्रसंस्करण

जैसा कि आपने नोट किया, चूंकि आपका डेटा शुरू में संबंधपरक है, इसलिए अपने विश्लेषण के लिए हाइव का उपयोग करना एक अच्छा विचार है क्योंकि आप SQL-जैसे सिंटैक्स से अधिक परिचित हो सकते हैं। सुअर अधिक शुद्ध संबंधपरक बीजगणित है और वाक्यविन्यास SQL- जैसा नहीं है, यह अधिक वरीयता का मामला है लेकिन दोनों दृष्टिकोणों को ठीक काम करना चाहिए।

चूंकि आप Sqoop के साथ सीधे हाइव में डेटा आयात कर सकते हैं, इसलिए आपका डेटा आयात होने के बाद संसाधित होने के लिए सीधे तैयार होना चाहिए।

हाइव में आप अपनी क्वेरी चला सकते हैं और उसे एचडीएफएस में परिणाम लिखने के लिए कह सकते हैं:

hive -e "insert overwrite directory '/path/to/output' select * from mytable ..."

TeraData में निर्यात करना

Cloudera ने पिछले साल Sqoop के लिए टेराडेटा के लिए एक कनेक्टर जारी किया, जैसा कि बताया गया है यहां , इसलिए आपको एक बार देखना चाहिए क्योंकि यह बिल्कुल वैसा ही दिखता है जैसा आप चाहते हैं। यहां बताया गया है कि आप इसे कैसे करेंगे:

sqoop export --connect jdbc:teradata://localhost/DATABASE=MY_BASE --username sqooptest --password xxxxx --table MY_DATA --export-dir /path/to/hive/output

आप जो भी समय अवधि चाहते हैं, उसमें पूरी बात निश्चित रूप से करने योग्य है, अंत में जो मायने रखता है वह है आपके क्लस्टर का आकार, यदि आप इसे जल्दी चाहते हैं तो अपने क्लस्टर को आवश्यकतानुसार बढ़ाएँ। हाइव और स्कूप के साथ अच्छी बात यह है कि प्रसंस्करण आपके क्लस्टर में वितरित किया जाएगा, इसलिए शेड्यूल पर आपका पूरा नियंत्रण है।



  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Amazon Python 2.7 लैम्ब्डा:DPI-1047:64-बिट Oracle क्लाइंट लाइब्रेरी लोड नहीं की जा सकती:libclntsh.so

  2. SQL FOR-IN (SELECT) लूप में एक स्ट्रिंग वेरिएबल के मान का उपयोग करें

  3. 12.2 आरएसी/जीआई नई विशेषताएं

  4. Oracle JDBC ojdbc6 जार एक मावेन निर्भरता के रूप में

  5. Phpinfo में कोई oci8 मॉड्यूल नहीं ()