हम वर्तमान में एक Apache Spark ODBC ड्राइवर विकसित कर रहे हैं, जो आपको Perl, PHP, Excel और Oracle जैसे अनुप्रयोगों में स्पार्क डेटा के साथ काम करने देता है।
ODBC डेटा स्रोत को कॉन्फ़िगर करना
Apache Spark ODBC ड्राइवर का उपयोग Apache Spark से किसी एप्लिकेशन को जोड़ने के लिए करने से पहले, ODBC डेटा स्रोत को कॉन्फ़िगर करना आवश्यक है। एक ODBC डेटा स्रोत लक्ष्य डेटाबेस (जैसे Apache Spark) और उससे कनेक्ट करने के लिए आवश्यक ODBC ड्राइवर (जैसे Apache Spark ODBC ड्राइवर) के लिए कनेक्शन विवरण संग्रहीत करता है।
Apache Spark ODBC ड्राइवर का उपयोग करने के लिए, आपको Apache Spark डेवलपर खाता बनाना होगा। Apache Spark डेवलपर डैशबोर्ड में लॉग इन करें, और एक REST API ऐप बनाएं। Apache Spark ODBC ड्राइवर के लिए डेटा स्रोत बनाने के लिए आपको ऐप के क्लाइंट आईडी और सीक्रेट की आवश्यकता होगी।
ODBC डेटा स्रोत ODBC व्यवस्थापक में कॉन्फ़िगर किए गए हैं, जो Windows के साथ शामिल है।
ODBC व्यवस्थापक में:
- सिस्टम डीएसएन टैब चुनें, और फिर जोड़ें चुनें।
- नया डेटा स्रोत बनाएं संवाद बॉक्स में, Easysoft ODBC-Apache Spark Driver चुनें और फिर समाप्त करें चुनें।
- ईज़ीसॉफ्ट ओडीबीसी-अपाचे स्पार्क ड्राइवर डीएसएन सेटअप डायलॉग बॉक्स में फ़ील्ड को पूरा करें।
- अपने एप्लिकेशन में, अपने नए कॉन्फ़िगर किए गए डेटा स्रोत से कनेक्ट करें और एक नमूना क्वेरी चलाएँ। उदाहरण के लिए:
MyTable से *चुनें
पर्ल में Apache Spark डेटा के साथ काम करें
स्ट्रॉबेरी पर्ल विंडोज के लिए एक पर्ल वितरण है जिसमें अपाचे स्पार्क ओडीबीसी ड्राइवर को अपाचे स्पार्क से आपके पर्ल अनुप्रयोगों को जोड़ने के लिए सक्षम करने के लिए आवश्यक मिडलवेयर परतें (पर्ल डीबीआई और पर्ल डीबीडी ::ओडीबीसी) शामिल हैं।
- यहां एक पर्ल स्क्रिप्ट है जो कुछ अपाचे स्पार्क डेटा पुनर्प्राप्त करती है:my $sql ="MyTable LIMIT 10 से MyCol चुनें";# स्टेटमेंट तैयार करें। my $sth =$dbh->prepare($sql) या डाई "कथन तैयार नहीं कर सकता:$DBI::errstr";# निष्पादित करें स्टेटमेंट.$sth->execute();my($SparkCol);# परिणाम सेट वैल्यू प्राप्त करें और प्रदर्शित करें। जबकि(($SparkCol) =$sth->fetchrow()){ print("$SparkCol\n"); }$dbh->डिस्कनेक्ट अगर ($dbh);
PHP में Apache Spark डेटा के साथ काम करें
- यहां एक PHP स्क्रिप्ट है जो कुछ अपाचे स्पार्क डेटा पुनर्प्राप्त करती है:
0) {echo odbc_errormsg (); } और {$rs2 =odbc_exec($con, "MyTable से MyCol चुनें"); odbc_result_all($rs2); odbc_close($con); }?>
एक्सेल को अपाचे स्पार्क से कनेक्ट करना
Microsoft Query का उपयोग करके Apache Spark से Microsoft Excel में डेटा वापस करने के लिए इन चरणों का पालन करें:
- डेटा पर टैब में, नई क्वेरी> अन्य स्रोत से> ODBC से choose चुनें ।
- संकेत दिए जाने पर Apache Spark ODBC डेटा स्रोत चुनें।
- उपलब्ध डेटा सेट में से एक तालिका चुनें।
- अपाचे स्पार्क डेटा वापस करने के लिए लोड चुनें कार्यपत्रक को।
ध्यान दें कि बड़े परिणाम सेट के लिए, डेटा को वर्कशीट में वापस करने से पहले आपको एक्सेल का उपयोग करके डेटा को फ़िल्टर करना पड़ सकता है।
Oracle से Apache Spark से कनेक्ट करें
- अपनी Oracle मशीन पर DG4ODBC init फ़ाइल बनाएँ। ऐसा करने के लिए,
%ORACLE_HOME%\hs\admin
. में बदलें निर्देशिका। फ़ाइल की एक प्रति बनाएँinitdg4odbc.ora
. नई फ़ाइल को नाम देंinitspark.ora
.नोट इन निर्देशों में, %ORACLE_HOME% को अपनी Oracle होम निर्देशिका के स्थान से बदलें। उदाहरण के लिए,
C:\oraclexe\app\oracle\product\11.2.0\server
। - सुनिश्चित करें कि ये पैरामीटर और मान आपकी init फ़ाइल में मौजूद हैं:
HS_FDS_CONNECT_INFO =MyApacheSparkDataSource
- टिप्पणी करें कि DG4ODBC ट्रेसिंग सक्षम है। उदाहरण के लिए:
#HS_FDS_TRACE_LEVEL =
%ORACLE_HOME%\network\admin\listener.ora
में एक प्रविष्टि जोड़ें जो DG4ODBC के लिए एक SID_NAME बनाता है। उदाहरण के लिए:SID_LIST_LISTENER =(SID_LIST =(SID_DESC=(SID_NAME=spark) (ORACLE_HOME=%ORACLE_HOME%) (PROGRAM=dg4odbc))
- एक DG4ODBC प्रविष्टि को
%ORACLE_HOME%\network\admin\tnsnames.ora
में जोड़ें जो पिछले चरण में बनाए गए SID_NAME को निर्दिष्ट करता है। उदाहरण के लिए:स्पार्क =(विवरण =(पता =(प्रोटोकॉल =टीसीपी) (होस्ट =oracle_host )(पोर्ट =1521)) (CONNECT_DATA =(SID =चिंगारी)) (HS =OK) )
बदलें oracle_host अपने Oracle मशीन के होस्ट नाम के साथ।
- ओरेकल श्रोता को प्रारंभ करें (या पुनरारंभ करें):
cd %ORACLE_HOME%\binlsnrctl stoplsnrctl start
- SQL*Plus में अपने Oracle डेटाबेस से कनेक्ट करें।
- एसक्यूएल*प्लस में, लक्ष्य अपाचे स्पार्क इंस्टेंस के लिए एक डेटाबेस लिंक बनाएं। उदाहरण के लिए:
सार्वजनिक डेटाबेस लिंक स्पार्कलिंक बनाएं "mydummyuser" से कनेक्ट करें "mydummypassword" द्वारा 'स्पार्क' का उपयोग करके पहचाना गया;
- अपना Apache Spark डेटा क्वेरी करने का प्रयास करें। उदाहरण के लिए:
चुनें * "MyTable"@SPARKLINK से;
नोट
- यदि आपको Oracle से Apache Spark से कनेक्ट करने में समस्या हो रही है, तो DG4ODBC ट्रेसिंग सक्षम करें और
%ORACLE_HOME%\hs\trace
पर लिखी गई ट्रेस फ़ाइलों की जांच करें। निर्देशिका। DG4ODBC ट्रेसिंग को सक्षम करने के लिए, लाइन जोड़ेंHS_FDS_TRACE_LEVEL = DEBUG
करने के लिएinitspark.ora
और फिर Oracle श्रोता को प्रारंभ/पुनरारंभ करें। अगरtrace
निर्देशिका मौजूद नहीं है, इसे बनाएं। - यदि आप ODBC ड्राइवर प्रबंधक ट्रेसिंग को सक्षम करते हैं, लेकिन ट्रेस फ़ाइल प्राप्त नहीं करते हैं या एक खाली ट्रेस फ़ाइल प्राप्त नहीं करते हैं (C:\SQL.log के लिए जाँचें), तो ट्रेस फ़ाइल स्थान को Windows TEMP निर्देशिका में बदलें। उदाहरण के लिए,
C:\Windows\Temp\SQL.log
।