हमारे पिछले Hadoop . में ब्लॉग हमने आपको Hadoop InputFormat . का विस्तृत विवरण प्रदान किया है और आउटपुटफ़ॉर्मैट . अब हम Hadoop काउंटर को विस्तार से कवर करने जा रहे हैं। इस Hadoop ट्यूटोरियल में हम चर्चा करेंगे कि MapReduce काउंटर क्या है, उनकी भूमिकाएँ क्या हैं।
अंत में हम Hadoop MapReduce में काउंटरों के प्रकारों को भी कवर करेंगे। जैसे MapReduce टास्क काउंटर, फ़ाइल सिस्टम काउंटर, FileInputFormat काउंटर, FileOutputFormat काउंटर, MapReduce में जॉब काउंटर, Hadoop में डायनेमिक काउंटर।
Hadoop MapReduce
Hadoop काउंटर्स के साथ शुरू करने से पहले, आइए पहले जानें कि Hadoop MapReduce क्या है?
MapReduce Hadoop की डेटा प्रोसेसिंग परत है। यह HDFS. . में संग्रहीत बड़े संरचित और असंरचित डेटा को संसाधित करता है MapReduce समानांतर में बड़ी मात्रा में डेटा को भी संसाधित करता है। यह कार्य (सबमिट की गई नौकरी) को स्वतंत्र कार्यों (उप-कार्य) के एक सेट में विभाजित करके करता है। Hadoop में, MapReduce प्रसंस्करण को चरणों में विभाजित करके काम करता है: मानचित्र और कम करें ।
- मानचित्र चरण- यह डेटा प्रक्रिया का पहला चरण है। इस चरण में, हम सभी जटिल तर्क/व्यावसायिक नियम/महंगे कोड निर्दिष्ट करते हैं।
- चरण कम करें- यह प्रसंस्करण का दूसरा चरण है। इस चरण में, हम एकत्रीकरण/समीकरण जैसे हल्के प्रसंस्करण को निर्दिष्ट करते हैं।
Hadoop काउंटर क्या है?
काउंटर Hadoop में MapReduce जॉब के बारे में आंकड़े इकट्ठा करने के लिए एक उपयोगी चैनल है। जैसे गुणवत्ता नियंत्रण के लिए या अनुप्रयोग-स्तर के लिए। समस्या निदान के लिए काउंटर भी उपयोगी होते हैं।
एक काउंटर Apache Hadoop वैश्विक काउंटर का प्रतिनिधित्व करता है, जिसे MapReduce ढांचे द्वारा परिभाषित किया गया है। MapReduce में प्रत्येक काउंटर को "एनम" नाम दिया गया है। इसका मूल्य भी लंबा है।
Hadoop काउंटर इसकी पुष्टि करते हैं:
- यह बाइट्स की सही संख्या पढ़ता और लिखता है।
- इसने लॉन्च किया है और सही संख्या में कार्यों को सफलतापूर्वक चलाया है या नहीं।
- काउंटर यह भी पुष्टि करते हैं कि सीपीयू और मेमोरी की खपत हमारे काम और क्लस्टर नोड्स के लिए उपयुक्त है या नहीं।
MapReduce में काउंटरों के प्रकार
MapReduce काउंटर दो प्रकार के होते हैं:
- अंतर्निहित काउंटर
- उपयोगकर्ता-निर्धारित काउंटर/कस्टम काउंटर
अपाचे हडूप प्रत्येक कार्य के लिए कुछ अंतर्निर्मित काउंटर रखता है। ये काउंटर विभिन्न मेट्रिक्स की रिपोर्ट करते हैं। बाइट्स और रिकॉर्ड की संख्या के लिए काउंटर हैं। जो हमें यह पुष्टि करने की अनुमति देता है कि इनपुट की अपेक्षित मात्रा का उपभोग किया जाता है और आउटपुट की अपेक्षित मात्रा का उत्पादन होता है।
हडूप काउंटरों को भी समूहों में बांटा गया है। अंतर्निर्मित काउंटरों के कई समूह हैं। प्रत्येक समूह में या तो कार्य काउंटर होते हैं या नौकरी काउंटर होते हैं।
Hadoop में बिल्ट-इन काउंटरों के कई समूह इस प्रकार हैं:
a) MapReduce टास्क काउंटर
टास्क काउंटर अपने निष्पादन समय के दौरान कार्यों के बारे में विशिष्ट जानकारी एकत्र करता है। जिसमें पढ़े और लिखे गए रिकॉर्ड की संख्या शामिल है।
उदाहरण के लिए MAP_INPUT_RECORDS काउंटर टास्क काउंटर है। यह प्रत्येक मानचित्र कार्य द्वारा पढ़े गए इनपुट रिकॉर्ड को भी गिनता है।
b) फाइल सिस्टम काउंटर्स
यह काउंटर फाइल सिस्टम द्वारा पढ़े और लिखे गए कई बाइट्स जैसी जानकारी एकत्र करता है। फ़ाइल सिस्टम काउंटर का नाम और विवरण इस प्रकार है:
- फाइलसिस्टम बाइट्स पढ़ें - फाइल सिस्टम द्वारा पढ़े गए बाइट्स की संख्या।
- फाइलसिस्टम बाइट लिखा हुआ - फाइल सिस्टम को लिखे गए बाइट्स की संख्या।
c) FileInputFormat काउंटर्स
ये काउंटर FileInputFormat के माध्यम से मानचित्र कार्यों द्वारा पढ़े गए कई बाइट्स की जानकारी भी एकत्र करते हैं।
d) FileOutputFormat काउंटर्स
ये काउंटर मानचित्र कार्यों (केवल मानचित्र कार्यों के लिए) द्वारा लिखे गए कई बाइट्स की जानकारी एकत्र करते हैं या FileOutputFormat के माध्यम से कार्यों को कम करते हैं।
e) MapReduce में जॉब काउंटर
जॉब काउंटर जॉब-स्तर के आंकड़ों को मापता है। यह उन मानों को नहीं मापता है जो किसी कार्य के चलने के दौरान बदलते हैं।
उदाहरण के लिए TOTAL_LAUNCHED_MAPS, किसी कार्य के दौरान लॉन्च किए गए मानचित्र कार्यों की संख्या की गणना करें। एप्लिकेशन मास्टर जॉब काउंटरों को भी मापता है।
इसलिए उन्हें अन्य सभी काउंटरों के विपरीत, पूरे नेटवर्क में भेजने की आवश्यकता नहीं है, जिसमें उपयोगकर्ता-परिभाषित काउंटर भी शामिल हैं।
<एच4>2. Hadoop MapReduce में उपयोगकर्ता-निर्धारित काउंटर या कस्टम काउंटरअंतर्निहित काउंटरों के अलावा, Hadoop MapReduce उपयोगकर्ता कोड को काउंटरों के एक सेट को परिभाषित करने की अनुमति देता है। फिर यह उन्हें मैपर . में इच्छानुसार बढ़ा देता है या reducer . जैसे जावा में काउंटरों को परिभाषित करने के लिए इसका उपयोग किया जाता है, 'enum '।
एक नौकरी 'एनम' की मनमानी संख्या को परिभाषित कर सकती है। प्रत्येक फ़ील्ड की मनमानी संख्या के साथ। Enum का नाम समूह का नाम है। Enum के क्षेत्र काउंटर नाम हैं।
a) Hadoop में डायनामिक काउंटर
जावा एनम के क्षेत्रों को संकलन समय पर परिभाषित किया गया है। इसलिए हम एनम का उपयोग करके रन टाइम पर नए काउंटर नहीं बना सकते। इसलिए, हम रन टाइम पर नए काउंटर बनाने के लिए डायनेमिक काउंटर का उपयोग करते हैं। लेकिन गतिशील काउंटर को संकलन समय पर परिभाषित नहीं किया गया है।
निष्कर्ष
इसलिए, काउंटर यह जांचते हैं कि क्या उसने बाइट्स की सही संख्या पढ़ी और लिखी है। काउंटर MapReduce जॉब में होने वाली प्रगति या संचालन की संख्या को भी मापता है।
Hadoop MapReduce जॉब में होने वाली प्रगति को मापने के लिए बिल्ट-इन काउंटर और यूजर-डिफ़ाइंड काउंटर्स को भी बनाए रखता है।
आशा है कि इस ब्लॉग ने आपकी मदद की है, यदि आपके पास हडूप काउंटर से संबंधित कोई प्रश्न है, तो नीचे एक अनुभाग में एक टिप्पणी छोड़ दें।