HBase
 sql >> डेटाबेस >  >> NoSQL >> HBase

Hadoop MapReduce में डेटा लोकैलिटी का परिचय

इस Hadoop ट्यूटोरियल में, हम आपको Hadoop में डेटा इलाके की अवधारणा की व्याख्या करने जा रहे हैं।

सबसे पहले हम Hadoop में MapReduce Data Locality का परिचय देखेंगे, फिर हम MapReduce, Data Locality Optimization में Data Locality की श्रेणियों के साथ Hadoop Data Locality की आवश्यकता पर चर्चा करेंगे।

अंत में, हम इस MapReduce ट्यूटोरियल में Hadoop डेटा लोकैलिटी सिद्धांत के फायदे देखेंगे।

Hadoop MapReduce में डेटा लोकैलिटी क्या है?

Hadoop में डेटा लोकैलिटी, गणना को उस स्थान के करीब ले जाने की प्रक्रिया है जहां वास्तविक डेटा रहता है बजाय बड़े डेटा को कंप्यूटेशन में ले जाने के। यह समग्र नेटवर्क भीड़ को कम करता है। यह सिस्टम के समग्र थ्रूपुट को भी बढ़ाता है।

मुख्य Hadoop की कमियां बड़ी मात्रा में डेटा के कारण क्रॉस-स्विच नेटवर्क ट्रैफ़िक था। इस कमी को दूर करने के लिए डेटा लोकैलिटी अस्तित्व में आई।

Hadoop में, HDFS डेटासेट स्टोर करता है। फ्रेमवर्क डेटासेट को ब्लॉक में विभाजित करता है और डेटानोड्स में स्टोर करता है। जब कोई क्लाइंट MapReduce जॉब चलाता है, तो NameNode ने MapReduce कोड को डेटानोड्स को भेजा, जिस पर MapReduce जॉब के अनुसार डेटा उपलब्ध है।

Hadoop डेटा इलाके के लिए आवश्यकता

डेटा इलाके के सभी लाभों का लाभ प्राप्त करने के लिए Hadoop आर्किटेक्चर को नीचे दी गई शर्तों को पूरा करने की आवश्यकता है:

  • सबसे पहले, Hadoop क्लस्टर में उपयुक्त टोपोलॉजी होनी चाहिए। Hadoop कोड में डेटा इलाके को पढ़ने की क्षमता होनी चाहिए।
  • दूसरा, Apache Hadoop को उन नोड्स की टोपोलॉजी के बारे में पता होना चाहिए जहां कार्य निष्पादित किए जाते हैं। साथ ही Hadoop को पता होना चाहिए कि डेटा कहाँ स्थित है।

Hadoop में डेटा इलाके की श्रेणियां

Hadoop डेटा लोकेलिटी में विभिन्न श्रेणियां इस प्रकार हैं:

<एच4>1. Hadoop में डेटा स्थानीय डेटा स्थान

इसमें डेटा उसी नोड पर स्थित होता है जिस पर मैपर . होता है डेटा पर काम कर रहे हैं। इसमें डेटा की निकटता गणना के बहुत करीब है। डेटा लोकल डेटा लोकैलिटी सबसे पसंदीदा परिदृश्य है।

<एच4>2. Hadoop में इंट्रा-रैक डेटा इलाका

जैसा कि हम जानते हैं कि संसाधनों की कमी के कारण एक ही डेटानोड पर मैपर को निष्पादित करना हमेशा संभव नहीं होता है। इस मामले में, मैपर को अलग नोड पर लेकिन एक ही रैक पर चलाना पसंद किया जाता है।

3. Hadoop में इंटर-रैक डेटा स्थान

कभी-कभी एक ही रैक में एक अलग नोड पर मैपर को निष्पादित करना भी संभव नहीं होता है। ऐसी स्थिति में, हम अलग-अलग रैक पर नोड्स पर मैपर को निष्पादित करेंगे। इंटर-रैक डेटा लोकैलिटी सबसे कम पसंदीदा परिदृश्य है।

Hadoop डेटा स्थानीयता अनुकूलन

चूंकि डेटा स्थान मुख्य Hadoop का लाभ . है मानचित्र छोटा करना। लेकिन विभिन्न कारणों जैसे कि विषम क्लस्टर, सट्टा निष्पादन, डेटा वितरण और प्लेसमेंट, और डेटा लेआउट के कारण यह व्यवहार में हमेशा फायदेमंद नहीं होता है।

बड़े समूहों में चुनौतियां अधिक प्रचलित हो जाती हैं। जैसा कि बड़े क्लस्टर में डेटा नोड्स और डेटा की संख्या जितनी अधिक होती है, स्थान उतना ही कम होता है।

बड़े समूहों में, कुछ नोड दूसरे की तुलना में नए और तेज़ होते हैं, जिससे डेटा संतुलन से बाहर अनुपात की गणना करने के लिए तैयार होता है। इस प्रकार, बड़े समूह पूरी तरह से समरूप नहीं होते हैं।

Hadoop सट्टा निष्पादन में चूंकि डेटा स्थानीय नहीं हो सकता है, लेकिन यह गणना शक्ति का उपयोग करता है। मुख्य कारण डेटा लेआउट/प्लेसमेंट में भी निहित है। साथ ही गैर-स्थानीय डेटा प्रोसेसिंग नेटवर्क पर दबाव डालता है, जिससे स्केलेबिलिटी में समस्या पैदा होती है। इसलिए नेटवर्क अड़चन बन जाता है।

हम पहले यह पता लगाकर डेटा स्थान में सुधार कर सकते हैं कि कौन-सी नौकरियां समय के साथ खराब हुई हैं या डेटा स्थान की समस्या है। समस्या-समाधान अधिक जटिल है और इसमें एक अलग शेड्यूलर का उपयोग करके डेटा प्लेसमेंट और डेटा लेआउट को बदलना शामिल है।

उसके बाद हमें यह सत्यापित करना होगा कि क्या उसी कार्यभार के नए निष्पादन में बेहतर डेटा स्थानीयता अनुपात है।

Hadoop में डेटा स्थान के लाभ

  • उच्च थ्रूपुट –  Hadoop में डेटा लोकैलिटी सिस्टम के समग्र थ्रूपुट को बढ़ाता है।
  • तेज़ निष्पादन –  डेटा इलाके में, फ्रेमवर्क कोड को उस नोड पर ले जाता है जहां डेटा रहता है, न कि बड़े डेटा को नोड में ले जाने के। इस प्रकार, यह Hadoop को तेज बनाता है। क्योंकि प्रोग्राम का आकार हमेशा डेटा के आकार से छोटा होता है, इसलिए डेटा को स्थानांतरित करना नेटवर्क स्थानांतरण की एक अड़चन है।

निष्कर्ष

अंत में, Hadoop में डेटा स्थानीयता सिस्टम के समग्र निष्पादन में सुधार करती है और Hadoop को तेज़ बनाती है। इसलिए, यह नेटवर्क की भीड़ को कम करता है।

यदि आपको यह ब्लॉग मददगार लगता है, या आपके पास कोई प्रश्न है, तो नीचे टिप्पणी अनुभाग में एक टिप्पणी छोड़ दें। हमें उन्हें हल करने में खुशी होगी।


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. MapReduce में Hadoop OutputFormat क्या है?

  2. जन्मदिन मुबारक हो अपाचे HBase! लचीलापन, स्थिरता और प्रदर्शन के 10 साल

  3. सीडीएच के लिए अपाचे फीनिक्स

  4. Apache HBase स्नैपशॉट का परिचय

  5. HBase znodes क्या हैं?