Database
 sql >> डेटाबेस >  >> RDS >> Database

अपाचे स्पार्क द्वारा प्रज्वलित हो जाओ - भाग 2

आपके समय के लिए धन्यवाद; मैं निश्चित रूप से आपका महत्व देने की कोशिश करता हूं। भाग 1 में - हमने अपाचे स्पार्क लाइब्रेरी, स्पार्क घटकों जैसे ड्राइवर, डीएजी शेड्यूलर, टास्क शेड्यूलर और वर्कर के बारे में चर्चा की। अब भाग 2 में - हम स्पार्क कॉन्सेप्ट की मूल बातें जैसे रेजिलिएंट डिस्ट्रिब्यूटेड डेटासेट, शेयर्ड वेरिएबल्स, स्पार्ककॉन्टेक्स्ट, ट्रांसफ़ॉर्मेशन, एक्शन और स्पार्क का उपयोग करने के लाभों के साथ उदाहरणों और स्पार्क का उपयोग करने के बारे में चर्चा करेंगे।

RDD - लचीला वितरित डेटासेट

वे क्रमबद्ध तत्वों के संग्रह हैं और इस तरह के संग्रह को विभाजित किया जा सकता है जिस स्थिति में इसे कई नोड्स में संग्रहीत किया जाता है।

यह मेमोरी में या डिस्क पर रह सकता है।

स्पार्क I/O को कम करने और संसाधित डेटा को मेमोरी में बनाए रखने के लिए RDD का उपयोग करता है

RDD नोड विफलताओं को सहन करने में मदद करता है और पूरी प्रक्रिया या कंप्यूटिंग को पुनरारंभ करने की आवश्यकता नहीं है

आम तौर पर इसे हडूप इनपुट प्रारूप से या मौजूदा आरडीडी पर लागू परिवर्तन से बनाया जाता है।

RDD अपने डेटा वंश को संग्रहीत करता है; यदि डेटा खो जाता है तो स्पार्क खोए हुए RDD को फिर से बनाने के लिए वंश को फिर से चलाएगा।

RDD अपरिवर्तनीय हैं।

साझा चर

स्पार्क में दो प्रकार के चर होते हैं जो निष्पादन नोड्स के बीच जानकारी साझा करने की अनुमति देते हैं।

दो चर प्रसारण और संचायक चर हैं।

प्रसारण चर सभी दूरस्थ निष्पादन नोड्स को भेजे जाते हैं, जो MapReduce कॉन्फ़िगरेशन ऑब्जेक्ट के समान होते हैं।

संचयकों को दूरस्थ निष्पादन नोड्स में भी भेजा जाता है, इस सीमा के साथ कि हम MapReduce काउंटरों के समान केवल संचायक चर में जोड़ सकते हैं।

स्पार्क प्रसंग

यह एक ऐसी वस्तु है जो स्पार्क क्लस्टर के कनेक्शन का प्रतिनिधित्व करती है।

इसका उपयोग आरडीडी बनाने, डेटा प्रसारित करने और संचयकों को प्रारंभ करने के लिए किया जाता है।

रूपांतरण

यह ऐसे कार्य हैं जो एक RDD लेते हैं और दूसरे को वापस करते हैं।

रूपांतरण कभी भी अपने इनपुट को संशोधित नहीं करेंगे, केवल संशोधित RDD लौटाएंगे।

यह हमेशा आलसी होता है, इसलिए वे अपने परिणामों की गणना नहीं करते हैं। ट्रांसफ़ॉर्मेशन फ़ंक्शन को कॉल करने के बजाय केवल एक नया RDD बनाता है।

जब किसी क्रिया को कॉल किया जाता है, तो उपर्युक्त परिवर्तनों का पूरा सेट निष्पादित किया जाता है।

स्पार्क में कई परिवर्तन हैं - मैप (), फ़िल्टर (), कीबी (), जॉइन (), ग्रुपबायके (), सॉर्ट ()।

 कार्रवाई

क्रियाएँ ऐसी विधियाँ हैं जो RDD लेती हैं और गणना करती हैं और परिणाम को ड्राइवर एप्लिकेशन को लौटाती हैं।

क्रिया परिवर्तनों की गणना को ट्रिगर करती है, और परिणाम एक संग्रह, स्क्रीन पर मान, फ़ाइल में सहेजे गए मान हो सकते हैं।

कार्रवाई कभी भी RDD नहीं लौटाएगी।

लाभ

  • सादगी
  • बहुमुखी प्रतिभा
  • कम डिस्क I/O
  • भंडारण
  • बहुभाषा
  • संसाधन प्रबंधक स्वतंत्रता
  • इंटरैक्टिव शेल (आरईपीएल)

स्पार्क, अन्य बड़े डेटा टूल की तरह, यह कई तरह के एनालिटिक्स और बड़ी डेटा चुनौतियों से निपटने के लिए शक्तिशाली, सक्षम और अच्छी तरह से अनुकूल है।

यह लेख मूल रूप से यहां प्रकाशित हुआ था। अनुमति के साथ पुनर्प्रकाशित। अपनी कॉपीराइट शिकायतें यहां सबमिट करें।


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. प्रदर्शन मिथक:ट्रंकेट कैन्ट बी रोल्ड बैक

  2. नमूना आकार और अद्यतन सांख्यिकी की अवधि:क्या इससे कोई फर्क पड़ता है?

  3. डेटा गवर्नेंस में डेटा आर्किटेक्ट की भूमिका को समझें

  4. SQL डेटा प्रकारों को समझना - आप सभी को SQL डेटा प्रकारों के बारे में जानना आवश्यक है

  5. Azure SQL डेटाबेस में स्वचालित अनुक्रमणिका प्रबंधन