यदि आप Amazon EMR 3.x या EMR 4.x पर कोई Spark Job चलाना चाहते हैं, तो आपको निम्नलिखित कार्य करने होंगे:
1) आप spark-defaults.conf . का उल्लेख कर सकते हैं बूटस्ट्रैपिंग के दौरान गुण यानी आप ड्राइवर क्लासपाथ . के कॉन्फ़िगरेशन को बदल सकते हैं और निष्पादक क्लासपाथ संपत्ति और साथ ही ResourceAllocation को अधिकतम करें (यदि आपको आवश्यकता हो तो टिप्पणियों में अधिक जानकारी के लिए पूछें।) दस्तावेज़
2) आपको अपने मामले में सभी आवश्यक जार यानी (mysql-connector.jar और mariadb-connector.jar) को मारियाडीबी और माईएसक्यूएल कनेक्टर जेडीबीसी जार को सभी नोड्स पर स्पार्क, यार्न और हडोप जैसे सभी क्लासपाथ स्थानों पर डाउनलोड करने की आवश्यकता है। मास्टर, कोर या टास्क है (स्पार्क ऑन यार्न परिदृश्य में सबसे अधिक शामिल हैं) बूटस्ट्रैप स्क्रिप्ट दस्तावेज़
3) और यदि आपका स्पार्क जॉब केवल ड्राइवर नोड से आपके डेटाबेस तक संचार कर रहा है तो आपको केवल --jars का उपयोग करने की आवश्यकता हो सकती है और आपको अपवाद नहीं देगा और ठीक काम करेगा।
4) आपको यह भी सलाह दी जाती है कि आप मास्टर को यार्न-क्लस्टर . के रूप में आजमाएं स्थानीय . के बजाय या यार्न-क्लाइंट
आपके मामले में, यदि आप मारियाडीबी या माईएसक्यूएल का उपयोग करते हैं तो या तो अपने जार को $SPARK_HOME/lib पर कॉपी करें , $HADOOP_HOME/lib आदि अपने क्लस्टर के प्रत्येक नोड पर और फिर इसे आज़माएं।
बाद में आप बूटस्ट्रैप क्रियाओं का उपयोग कर सकते हैं क्लस्टर निर्माण के समय अपने जार को सभी नोड्स पर कॉपी करने के लिए।
अधिक जानकारी के लिए कृपया नीचे टिप्पणी करें।