HBase
 sql >> डेटाबेस >  >> NoSQL >> HBase

Hadoop MapReduce में सट्टा निष्पादन

इस MapReduce सट्टा निष्पादन लेख में, आप Hadoop सट्टा निष्पादन के बारे में विस्तार से जानेंगे। आप सीखेंगे कि सट्टा निष्पादन क्या है, इसकी क्या आवश्यकता है, हम इसे कैसे सक्षम और अक्षम कर सकते हैं।

लेख यह भी बताता है कि यह फायदेमंद है या नहीं और यह कैसे काम करता है।

Hadoop में सट्टा निष्पादन क्या है?

Hadoop ढांचे में MapReduce मॉडल नौकरियों को स्वतंत्र कार्यों में विभाजित करता है और समग्र कार्य निष्पादन समय को कम करने के लिए इन कार्यों को समानांतर में चलाता है।

यह धीमी गति से चलने वाले कार्यों के लिए कार्य निष्पादन को समय-संवेदी बनाता है क्योंकि केवल एक धीमा कार्य पूरे कार्य निष्पादन समय को अपेक्षा से अधिक लंबा बना सकता है। जब किसी भी नौकरी में हजारों या सैकड़ों कार्य होते हैं तो कुछ संघर्षपूर्ण कार्यों की संभावना बहुत वास्तविक होती है।

विभिन्न कारणों से कार्य धीमा हो सकता है, जैसे सॉफ़्टवेयर गलत कॉन्फ़िगरेशन या हार्डवेयर गिरावट। लेकिन कार्य को धीमा करने वाले कारणों का पता लगाना कठिन है क्योंकि कार्य अभी भी सफलतापूर्वक पूर्ण होते हैं, हालांकि इसमें अपेक्षा से अधिक समय लगता है।

Hadoop ढांचा धीमी गति से चलने वाले कार्यों का निदान या उन्हें ठीक करने का प्रयास नहीं करता है। फ्रेमवर्क उस कार्य का पता लगाने की कोशिश करता है जो अपेक्षित गति से धीमी गति से चल रहा है और दूसरा कार्य शुरू करता है, जो बैकअप के समान कार्य है।

बैकअप कार्य को सट्टा कार्य के रूप में जाना जाता है, और इस प्रक्रिया को Hadoop में सट्टा निष्पादन के रूप में जाना जाता है।

Hadoop में सट्टा निष्पादन की क्या आवश्यकता है?

Hadoop ढांचे में, इनपुट फ़ाइल को कई ब्लॉकों में विभाजित किया जाता है, और उन ब्लॉकों को Hadoop क्लस्टर में विभिन्न नोड्स पर संग्रहीत किया जाता है।

जब MapReduce जॉब क्लाइंट द्वारा सबमिट की जाती है तो यह InputSplits की संख्या की गणना करता है और InputSplit की संख्या के रूप में कई मैपर चलाता है। ये मैपर (मानचित्र कार्य) DataNodes पर समानांतर में चलते हैं, जहां विभाजित डेटा रहता है।

अब, क्या होगा यदि Hadoop क्लस्टर में कुछ DataNodes हार्डवेयर विफलता या नेटवर्क समस्याओं के कारण अन्य DataNodes के रूप में कार्यों को तेजी से निष्पादित नहीं कर रहे हैं।

तो उन डेटा नोड्स पर चल रहे मानचित्र कार्य अन्य डेटा नोड्स पर चल रहे मानचित्र कार्यों की तुलना में धीमे होंगे। रेड्यूसर अपना निष्पादन तभी शुरू कर सकता है जब सभी मैपर के इंटरमीडिएट आउटपुट उपलब्ध हों।

इस प्रकार कम धीमी गति से चलने वाले मानचित्र कार्य रेड्यूसर के निष्पादन में देरी करेंगे।

यदि रेड्यूसर धीमे नोड पर चल रहा है, तो इससे समग्र कार्य के अंतिम आउटपुट में भी देरी होगी।

तो ऐसे धीमी गति से चलने वाले कार्यों से बचाव के लिए, Hadoop ढांचा दूसरे नोड पर समान कार्य शुरू करता है। Hadoop ढांचे द्वारा इस अनुकूलन को कार्य का सट्टा निष्पादन कहा जाता है।

सट्टा निष्पादन Hadoop में कैसे काम करता है?

सट्टा निष्पादन नौकरी के प्रत्येक स्वतंत्र कार्य के दो डुप्लिकेट कार्यों को एक ही समय में लॉन्च नहीं करता है ताकि वे एक-दूसरे की दौड़ लगा सकें। यदि ढांचा ऐसा करता है, तो इससे क्लस्टर संसाधनों की बर्बादी होगी।

इसके बजाय, शेड्यूलर एक ही प्रकार के सभी कार्यों की प्रगति को ट्रैक करता है (जैसे नक्शा और कम करना) नौकरी में, और केवल छोटे अनुपात के लिए सट्टा डुप्लीकेट लॉन्च करता है जो औसत से धीमी गति से चल रहे थे।

जब कार्य सफलतापूर्वक पूरा हो जाता है, तो चल रहे किसी भी डुप्लिकेट कार्य को मार दिया जाता है क्योंकि अब उनकी आवश्यकता नहीं थी।

इसलिए, यदि मूल कार्य सट्टा कार्य से पहले पूरा हो जाता है, तो सट्टा कार्य समाप्त हो जाता है। यदि सट्टा कार्य मूल कार्य से पहले समाप्त हो जाता है, तो मूल कार्य समाप्त हो जाता है।

ध्यान दें कि सट्टा निष्पादन एक अनुकूलन है। MapReduce नौकरियों को अधिक मज़बूती से चलाने के लिए यह एक विशेषता नहीं है।

Hadoop में सट्टा निष्पादन को कैसे कॉन्फ़िगर करें?

डिफ़ॉल्ट रूप से, मानचित्र कार्य के साथ-साथ कम करने वाले कार्यों के लिए सट्टा निष्पादन सक्षम है। इसके गुण mapred-site.xml . में सेट हैं कॉन्फ़िगरेशन फ़ाइल।

  • mapreduce.map.speculative :यदि यह गुण सत्य पर सेट है, तो मानचित्र कार्य का सट्टा निष्पादन सक्षम है। डिफ़ॉल्ट रूप से, यह सच है।
  • mapreduce.reduce.speculative :यदि यह गुण सत्य पर सेट है, तो कम कार्य का सट्टा निष्पादन सक्षम है। डिफ़ॉल्ट रूप से, यह सच है।

आप कभी भी सट्टा निष्पादन को बंद क्यों करना चाहेंगे?

सट्टा निष्पादन का मुख्य लक्ष्य कार्य निष्पादन समय को कम करना है। लेकिन यह Hadoop क्लस्टर दक्षता की कीमत पर आएगा।

एक व्यस्त Hadoop क्लस्टर पर, यह समग्र थ्रूपुट को कम कर सकता है क्योंकि एकल कार्य के निष्पादन समय को कम करने के लिए निरर्थक कार्यों को निष्पादित किया जा रहा है।

इस कारण से, कुछ क्लस्टर व्यवस्थापक Hadoop क्लस्टर पर सट्टा निष्पादन को बंद कर देते हैं और उपयोगकर्ताओं को अलग-अलग कार्यों के लिए इसे स्पष्ट रूप से चालू कर देते हैं।

हम कार्यों को कम करने के लिए इसे बंद कर सकते हैं क्योंकि किसी भी डुप्लिकेट कम करने वाले कार्यों को मूल कार्य के समान मैपर आउटपुट लाने की आवश्यकता होती है, जो क्लस्टर पर नेटवर्क ट्रैफ़िक में उल्लेखनीय वृद्धि करेगा।

क्या सट्टा निष्पादन फायदेमंद है?

Hadoop में सट्टा निष्पादन कुछ मामलों में फायदेमंद होता है क्योंकि Hadoop क्लस्टर में सैकड़ों या हजारों नोड होते हैं, नेटवर्क की भीड़ या हार्डवेयर विफलता जैसी समस्याएं आम हैं।

इसलिए समानांतर या डुप्लीकेट कार्यों को चलाना बेहतर होगा। लेकिन यदि किसी कार्य के प्रत्येक स्वतंत्र कार्य के दो डुप्लीकेट कार्यों को लगभग एक ही समय में लॉन्च किया जाता है, तो यह क्लस्टर संसाधनों का अपव्यय होगा।

सारांश

मुझे उम्मीद है कि इस लेख को पढ़ने के बाद आप स्पष्ट रूप से समझ गए होंगे कि Hadoop में सट्टा निष्पादन क्या है और इसकी आवश्यकता क्यों है। आपने यह भी देखा है कि कैसे हम इसे मानचित्र कार्यों के लिए अक्षम कर सकते हैं और व्यक्तिगत रूप से कार्यों को कम कर सकते हैं।


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Hadoop HDFS में NameNode स्वचालित विफलता क्या है?

  2. स्पार्क HBase कनेक्टर - समीक्षा में एक वर्ष

  3. MapReduce में Hadoop InputFormat और InputFormat के प्रकार

  4. स्पार्क शेल के साथ HBase पर स्पार्क

  5. बिग डेटा Hadoop में HDFS इरेज़र कोडिंग