Database
 sql >> डेटाबेस >  >> RDS >> Database

अपाचे स्पार्क जॉब रन की रूपरेखा!

अब हमारे बड़े डेटा एनालिटिक्स समुदाय ने बड़े डेटा प्रोसेसिंग के लिए अपाचे स्पार्क का पूरे जोरों पर उपयोग करना शुरू कर दिया है। प्रसंस्करण तदर्थ प्रश्नों, पूर्वनिर्मित प्रश्नों, ग्राफ प्रसंस्करण, मशीन सीखने और यहां तक ​​कि डेटा स्ट्रीमिंग के लिए भी हो सकता है।

इसलिए समुदाय के लिए स्पार्क जॉब सबमिशन की समझ बहुत महत्वपूर्ण है। अपाचे स्पार्क जॉब सबमिशन में शामिल चरणों की सीख को आपके साथ साझा करने के लिए खुश रहें।

मूल रूप से इसके दो चरण हैं,

नौकरी जमा करना

जब RDD पर गिनती () जैसी क्रियाएं की जाती हैं, तो स्पार्क जॉब अपने आप सबमिट हो जाती है। /> अनुसूचक 2 भागों से बना है - DAG अनुसूचक और कार्य अनुसूचक।

DAG निर्माण

DAG निर्माण दो प्रकार के होते हैं,

  • सरल स्पार्क कार्य वह है जिसमें फेरबदल की आवश्यकता नहीं होती है और इसके लिए परिणाम कार्यों से बना केवल एक एकल चरण होता है, जैसे MapReduce में मानचित्र-केवल कार्य
  • कॉम्प्लेक्स स्पार्क जॉब में ग्रुपिंग ऑपरेशंस शामिल हैं और एक या अधिक फेरबदल चरणों की आवश्यकता होती है।
  • स्पार्क का DAG अनुसूचक कार्य को दो चरणों में बदल देता है।
  • DAG अनुसूचक कार्य अनुसूचक को प्रस्तुत करने के लिए एक चरण को कार्यों में विभाजित करने के लिए जिम्मेदार है।
  • प्रत्येक कार्य को DAG अनुसूचक द्वारा स्थान वरीयता दी जाती है ताकि कार्य अनुसूचक को डेटा स्थान का लाभ उठाने की अनुमति मिल सके।
  • बाल चरण तभी सबमिट किए जाते हैं जब उनके माता-पिता सफलतापूर्वक पूरा कर लेते हैं।

कार्य निर्धारण

  • कार्य अनुसूचक कार्यों का एक सेट भेजेगा; यह एक्ज़ीक्यूटर्स की अपनी सूची का उपयोग करता है जो एप्लिकेशन के लिए चल रहे हैं और एक्ज़ीक्यूटर्स के लिए कार्यों की मैपिंग का निर्माण करता है जो प्लेसमेंट प्राथमिकताओं को ध्यान में रखता है।
  • कार्य अनुसूचक उन निष्पादकों को असाइन करता है जिनके पास मुक्त कोर हैं, प्रत्येक कार्य को डिफ़ॉल्ट रूप से एक कोर आवंटित किया जाता है। इसे Spark.task.cpu पैरामीटर द्वारा बदला जा सकता है।
  • स्पार्क अक्का का उपयोग करता है, जो अत्यधिक स्केलेबल इवेंट-संचालित वितरित अनुप्रयोगों के निर्माण के लिए अभिनेता आधारित मंच है।
  • स्पार्क दूरस्थ कॉल के लिए Hadoop RPC का उपयोग नहीं करता है।

कार्य निष्पादन

एक निष्पादक एक कार्य को निम्नानुसार चलाता है,

  • यह सुनिश्चित करता है कि कार्य के लिए JAR और फ़ाइल निर्भरता अद्यतित हैं।
  • कार्य कोड को डी-क्रमबद्ध करता है।
  • कार्य कोड निष्पादित किया गया है।
  • कार्य ड्राइवर को परिणाम लौटाता है, जो उपयोगकर्ता के पास लौटने के लिए अंतिम परिणाम में एकत्रित होता है।

संदर्भ

  •  द हडूप डेफिनिटिव गाइड
  • एनालिटिक्स और बिग डेटा ओपन सोर्स कम्युनिटी

यह लेख मूल रूप से यहां प्रकाशित हुआ था। अनुमति के साथ पुनर्प्रकाशित। अपनी कॉपीराइट शिकायतें यहां सबमिट करें।


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. टी-एसक्यूएल में एक तिथि से वर्ष कैसे प्राप्त करें

  2. एकाधिक व्यवहार के साथ एक प्रश्न कैसे लिखें

  3. क्या इंटेल सर्वर सीपीयू स्पेस में बर्बाद हो गया है?

  4. डेटाबेस सारांश रिपोर्ट भेजने के लिए ऑटो-ईमेल सिस्टम

  5. Ubuntu 16.04 पर लिब्रेऑफ़िस कैसे स्थापित करें?