HBase
 sql >> डेटाबेस >  >> NoSQL >> HBase

ऑपरेशनल डेटाबेस एडमिनिस्ट्रेशन

संपादक का नोट, अगस्त 2020:सीडीपी डेटा सेंटर को अब सीडीपी प्राइवेट क्लाउड बेस कहा जाता है। आप इसके बारे में यहां और जान सकते हैं।

परिचय

यह ब्लॉग पोस्ट CDP में Cloudera के ऑपरेशनल डेटाबेस (OpDB) पर एक श्रृंखला का हिस्सा है। प्रत्येक पोस्ट नई सुविधाओं और क्षमताओं के बारे में अधिक विवरण में जाती है। सीडीपी में ऑपरेशनल डेटाबेस के साथ श्रृंखला की शुरुआत से शुरू करें।

यह ब्लॉग पोस्ट आपको क्लौडेरा डेटा प्लेटफ़ॉर्म में परिचालन डेटाबेस (OpDB) प्रशासन उपकरण और सुविधाओं का अवलोकन देता है। यह आज दो रूपों में उपलब्ध है:सीडीपी पब्लिक क्लाउड में पूरी तरह से सुरक्षित, अर्ध-प्रबंधित पेशकश के रूप में - डेटा हब और सीडीपी डेटा सेंटर में पूरी तरह से अनुकूलन योग्य पेशकश के रूप में (सीडीएच और एचडीपी में उपलब्ध के समान)। डेटा हब के बारे में अधिक जानकारी के लिए, क्लौडेरा डेटा हब देखें।

चित्र 1:ओपीडीबी डेटा हब क्लस्टर।

इन सुविधाओं का उपयोग करने के लिए अधिक जानकारी और निर्देश प्राप्त करने के लिए आप इस आलेख में लिंक का उपयोग कर सकते हैं।

डेटाबेस निर्माण और नियंत्रण

Apache HBase नेमस्पेस टेबल के तार्किक समूह हैं जो पारंपरिक रिलेशनल डेटाबेस सिस्टम में डेटाबेस के समान हैं। Apache HBase Shell के माध्यम से नेमस्पेस बनाया या प्रबंधित किया जा सकता है। Apache HBase शेल के उपयोग के बारे में अधिक जानकारी के लिए, Apache HBase शेल ओवरव्यू देखें।

सीडीपी के साथ चित्र में प्रतिकृति प्रबंधक और रेंजर के साथ, आप केवल नाम स्थान बना सकते हैं और इसे HBase शेल में प्रबंधित कर सकते हैं। लेकिन अनुमतियाँ रेंजर के माध्यम से हैं और प्रतिकृति प्रतिकृति प्रबंधक के माध्यम से है।

एक रिलेशनल डेटाबेस की तरह, नेमस्पेस में टेबल और अनुमतियों का संग्रह, प्रतिकृति सेटिंग्स और संसाधन अलगाव होता है। आप इन कॉन्फ़िगरेशन को नेमस्पेस स्तर पर सेट कर सकते हैं। CDP में, आप एक नाम स्थान बना सकते हैं और HBase शेल का उपयोग करके इसे प्रबंधित कर सकते हैं। आप परिष्कृत प्राधिकरण नीतियों और ऑडिटिंग के लिए अपाचे रेंजर का उपयोग कर सकते हैं। सीडीपी में सुरक्षा कैसे सेट करें, इसके बारे में अधिक जानकारी के लिए देखें रेंजर का उपयोग कर सुरक्षा।

प्रतिकृति प्रबंधक आपको HBase प्रतिकृति नीतियां बनाने में मदद करता है। आप प्रतिकृति प्रबंधक का उपयोग CDH/HDP या Apache HBase से CDP डेटा केंद्र के बीच प्रतिकृति सेट करने के लिए कर सकते हैं।

चित्र 2:प्रतिकृति नीति उपयोगकर्ता इंटरफ़ेस बनाना

ग्राफ़िकल DDL और DCL कार्यक्षमता

इसके लिए प्लगइन्स सहित कई टूल उपलब्ध कराए गए हैं:

  • क्लौडेरा मशीन लर्निंग (CML):CML आपको HBase क्लाइंट और फीनिक्स का उपयोग करके डेटा को क्वेरी करने में मदद करता है, और इंटरेक्टिव डेटा एक्सप्लोरेशन, विज़ुअलाइज़ेशन, शेयरिंग और सहयोग में आपकी मदद करता है। OpDB का उपयोग सत्र/नौकरी/मॉडल पूर्वानुमान परिणामों को बाद में कई अलग-अलग उपयोगकर्ताओं द्वारा क्वेरी करने के लिए संग्रहीत करने के लिए किया जा सकता है।

चित्र 3:क्लौडेरा मशीन लर्निंग यूजर इंटरफेस

  • ह्यू:ह्यू एक वेब-आधारित इंटरैक्टिव क्वेरी संपादक है जो आपको डेटा वेयरहाउस के साथ इंटरैक्ट करने में सक्षम बनाता है। आप HBase तालिकाओं को बनाने और ब्राउज़ करने के लिए Hue में HBase ब्राउज़र एप्लिकेशन का उपयोग कर सकते हैं।

चित्र 4:ह्यू इंटरफ़ेस एचबीएएस के लिए खोज, सम्मिलित, अद्यतन, हटाने, डीडीएल का समर्थन करता है

आप ह्यू में क्वेरी प्रोसेसिंग के लिए इम्पाला या हाइव का उपयोग करके SQL इंटरफ़ेस का उपयोग कर सकते हैं।

चित्र 5:इम्पाला का उपयोग करते हुए SQL इंटरफ़ेस

ह्यू का उपयोग करके HBase में उदाहरण तालिकाएँ बनाने के लिए यहाँ एक ट्यूटोरियल है:https://gethue.com/hadoop-tutorial-how-to-create-example-tables-in-hbase/  

  • Eclipse:एक्लिप्स में HBase कोड को एडिट करते समय एक्लिप्स के लिए HBase कोड फॉर्मेटिंग उपयोगी होता है। अधिक जानकारी के लिए, Apache HBase का निर्माण और विकास देखें।

Zeppelin और Hue जैसे टूल उनके प्लगइन्स के साथ बॉक्स से बाहर दिए गए हैं। लेकिन, आप टॉड जैसी तृतीय-पक्ष SQL उपयोगिताओं का भी उपयोग कर सकते हैं।

ऑपरेशनल डेटाबेस रिलीज़ अपग्रेड के लिए टूल

आप अपने Cloudera डेटा प्लेटफ़ॉर्म-डेटा केंद्र (CDP-DC) में परिचालन डेटाबेस को अपग्रेड करने की प्रक्रिया को स्वचालित करने के लिए Cloudera प्रबंधक का उपयोग कर सकते हैं। उन्नयन रिलीज या रखरखाव पैच के माध्यम से प्रदान किए जाते हैं। Cloudera Manager रिलीज़ और/या पैच इंस्टॉल करता है और कॉन्फ़िगरेशन के साथ-साथ पुनरारंभ प्रक्रिया का प्रबंधन करता है।

यदि आप Amazon AWS जैसे सार्वजनिक क्लाउड पर CDP का उपयोग कर रहे हैं, तो आपको विभिन्न घटकों के नए संस्करणों में अपग्रेड करने के लिए एक नया डेटा हब क्लस्टर बनाना होगा। एक नया ऑपरेशनल डेटाबेस डेटा हब क्लस्टर बनाने के बारे में अधिक जानकारी के लिए, CDP पर ऑपरेशनल डेटाबेस के साथ शुरुआत करना देखें।

क्लौडेरा की पेशकश एक क्लस्टर-आधारित पेशकश है; अपग्रेड और पैच सभी कई नोड्स (सर्वर) तक फैले हुए हैं और इंस्टॉलेशन, कॉन्फ़िगरेशन, रीबूट सभी स्वचालित हैं, जिसमें लागू होने पर रोलिंग रीबूट भी शामिल है।

एकाधिक सर्वर पर प्रबंधन टूल को पैच करें

CDP डेटा सेंटर में, Cloudera Manager रिलीज़ को स्थापित करता है और कॉन्फ़िगरेशन का प्रबंधन करता है। Cloudera Manager प्रभावित घटकों में से प्रत्येक के लिए पुनरारंभ प्रक्रिया भी करता है।

शून्य डाउनटाइम पैच एप्लिकेशन

CDP डेटा सेंटर में, Cloudera Manager आपको शून्य-डाउनटाइम के साथ पैच लागू करने देता है।

कई सर्वरों में परिवर्तन-प्रबंधन

आप कई उदाहरणों में डेटाबेस स्कीमा पर परिवर्तन प्रबंधन कर सकते हैं। उदाहरण के लिए, आप इसे अपने परीक्षण/देव, स्टेजिंग या उत्पादन परिवेश पर कर सकते हैं।

आप HBase शेल का उपयोग करके आवश्यक परिवर्तनों को स्क्रिप्ट कर सकते हैं, और फिर इसे अन्य उदाहरणों में प्रचारित कर सकते हैं।

HBase शेल का उपयोग करने के बारे में अधिक जानकारी के लिए, Apache HBase शेल देखें।

कार्यभार विभाजन

आप वर्कलोड के सेट की प्रकृति और उनकी डेटा जरूरतों के आधार पर कई टूल का उपयोग करके ओपीडीबी के भीतर वर्कलोड/एप्लिकेशन विभाजन कर सकते हैं।

यदि एप्लिकेशन सभी अलग-अलग तालिकाओं तक पहुंचते हैं, तो क्षेत्र सर्वर समूहों का उपयोग हार्डवेयर विभाजन दृष्टिकोण बनाने वाली तालिकाओं या नामस्थानों के परिभाषित सेट के लिए नोड्स के एक सेट को समर्पित करने के लिए किया जा सकता है। रीजन सर्वर ग्रुप के बारे में अधिक जानकारी के लिए, रीजनसर्वर ग्रुपिंग का उपयोग करना देखें।

उन अनुप्रयोगों के लिए जो तालिकाओं के समान सेट का उपयोग करते हैं, आप शोर पड़ोसी समस्या को प्रबंधित करने के लिए RPC थ्रॉटलिंग, उपयोगकर्ता कोटा और स्थान कोटा का उपयोग कर सकते हैं। अधिक तकनीकी विवरण के लिए HBase कोट प्रबंधन देखें।

अधिक परिष्कृत विभाजन योजना के लिए आप विकल्पों के इन दो सेटों को भी जोड़ सकते हैं। यह सुनिश्चित करने के लिए Cloudera Manager का उपयोग करें कि विशिष्ट सेवाओं को क्लस्टर के विभिन्न नोड्स के बीच उचित रूप से विभाजित किया गया है; उदाहरण के लिए, आप तय कर सकते हैं कि SOLR खोज आदि के लिए किन नोड्स का उपयोग किया जाना चाहिए  

हार्डवेयर विभाजन

Cloudera Manager और YARN दोनों हार्डवेयर संसाधनों के स्थिर और गतिशील विभाजन दोनों के लिए Linux cgroups और सक्रिय मेमोरी प्रबंधन का लाभ उठाते हैं।

सबसे पहले, सभी मेजबानों पर चलने वाली सभी प्रक्रियाओं को क्लाउडरा प्रबंधक द्वारा निर्धारित cgroups के साथ कठिन विभाजन किया जा सकता है। दूसरा, एक विज़ार्ड उपयोगकर्ताओं को प्रतिशत सेट करके सेवाओं के लिए स्थिर विभाजन के लेआउट को परिभाषित करने देता है, स्वचालित रूप से cgroup- आधारित CPU और I/O अलगाव का अनुवाद करता है, और स्वयं सेवाओं को कॉन्फ़िगर करके स्मृति सीमा निर्धारित करता है।

अंत में, मूल संसाधन प्रबंधक कार्यभार के लिए एक कंटेनर मॉडल प्रदान करता है जो अनुप्रयोग अलगाव के लिए cgroups और सक्रिय मेमोरी प्रबंधन (सेट, मॉनिटर और किल) का उपयोग करके काम की प्रत्येक असतत इकाई को एक कंटेनर में रखता है।

सॉफ़्टवेयर हाइपरवाइज़र

निम्नलिखित सॉफ्टवेयर हाइपरवाइजर समर्थित हैं

  • VMware ऑन-प्रिमाइसेस परिवेशों के लिए समर्थित है
  • Microsoft का Azure का आभासी वातावरण (Azure स्टैक)
  • Amazon Web Services, Google Compute Platform का वर्चुअलाइजेशन, और Microsoft Azure क्लाउड पर समर्थित हैं।

कंटेनर और ऑर्केस्ट्रेशन सपोर्ट

Cloudera एक Docker छवि प्रदान करता है जिसमें Apache HBase, Apache ZooKeeper और Cloudera Manager स्थापित है। आप अपने डॉकटर कंटेनरों को प्रबंधित करने के लिए YARN को कॉन्फ़िगर कर सकते हैं, और उसी कंटेनर पर YARN को Apache HBase जॉब सबमिट कर सकते हैं या किसी अन्य कंटेनर से YARN को जॉब सबमिट कर सकते हैं।

अधिक जानकारी के लिए, YARN पर डॉकर कंटेनर प्रबंधित करें देखें।

पैच या रिलीज़ अपग्रेड का रोलबैक

Cloudera Manager कुछ रोलबैक प्रक्रियाओं के लिए स्वचालन प्रदान करता है। अपग्रेड में कभी-कभी डेटा स्वरूपों में परिवर्तन शामिल हो सकते हैं। प्रारूप परिवर्तनों को पूर्ववत करने के लिए टूलिंग समर्थित नहीं हैं, और आपको बैकअप से डेटा की बहाली को ट्रिगर करना होगा ताकि रोलबैक पुराने डेटा का उपयोग कर सके।

क्रॉस-ओएस-प्लेटफ़ॉर्म माइग्रेशन

क्लौडेरा के मानक बैकअप/पुनर्स्थापना/डेटा पुनर्प्राप्ति उपकरण विभिन्न ऑपरेटिंग सिस्टमों के बीच ओपीडीबी के प्रवास का समर्थन करने के लिए उपलब्ध हैं।

HBase बैकअप और डिजास्टर रिकवरी रणनीतियाँ सुनिश्चित करती हैं कि डेटा के नुकसान से आपकी रक्षा करने के लिए आपके डेटा का बैकअप लिया जाता है। HBase स्नैपशॉट आपको रीजनसर्वर पर अधिक प्रभाव डाले बिना तालिका का स्नैपशॉट लेने में सक्षम बनाता है। इसके अलावा क्योंकि स्नैपशॉट, क्लोन और पुनर्स्थापना संचालन में डेटा कॉपी करना शामिल नहीं है।

HBase बैकअप और डिजास्टर के बारे में अधिक जानकारी के लिए, HBase बैकअप और डिजास्टर रिकवरी रणनीतियाँ देखें।

डेटाबेस व्यवस्थापक (डीबीए) उपकरण

डेटाबेस को प्रबंधित करने में सहायता के लिए कई टूल शामिल हैं, जिनमें शामिल हैं:

  • Cloudera Manager
  • HBase shell
  • रंग
  • HBCK2 
  • hbtop
  • रेंजर 
  • एटलस
  • FreeIPA 
  • navencrypt 
  • HDFS टूल
  • YARN

ये उपकरण मेट्रिक्स और निगरानी, ​​क्लस्टर पुनरारंभ, निगलना, जीवनचक्र-प्रबंधन, उन्नयन, सुरक्षा, केर्बरोस सेटअप और अन्य सुविधाएँ प्रदान करते हैं।

चित्र 6:Cloudera प्रबंधक HBase इंटरफ़ेस

चित्र 7:क्लाउडेरा प्रबंधक में मेट्रिक्स और निगरानी:

चित्र 8:Cloudera Manager में क्लस्टर पुनरारंभ करें

इन टूल के अलावा, आप निम्न तृतीय-पक्ष और ओपन सोर्स व्यवस्थापन टूल का भी उपयोग कर सकते हैं:

  • hrider
  • HADMIN

तृतीय-पक्ष प्रबंधन टूल के लिए दस्तावेज़ित इंटरफ़ेस खोलें

हम ओपीडीबी को प्रबंधित करने के लिए उपयोग किए जाने वाले अन्य उपकरणों को सक्षम करने के लिए ओपन एपीआई भी प्रदान करते हैं। उदाहरण के लिए, JMX इंटरफ़ेस का उपयोग Grafana जैसे तृतीय-पक्ष निगरानी टूल के साथ एकीकृत करने के लिए किया जा सकता है।

निष्कर्ष

इस ब्लॉग पोस्ट में, हमने देखा कि आप सीडीपी में ओपीडीबी द्वारा प्रदान किए गए विभिन्न प्रशासनिक उपकरणों और क्षमताओं का उपयोग कैसे कर सकते हैं। अगले लेख में, हम कवर करेंगे कि आप ओपीडीबी में प्रबंधन क्षमताओं का उपयोग कैसे कर सकते हैं, इसे यहां देखें।


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. HBase और Hive - एक साथ बेहतर

  2. MapReduce में Hadoop मैपर क्लास क्या है?

  3. छोटी फ़ाइलें समस्या

  4. एचडीएफएस डिस्क बैलेंसर परिचय, संचालन और विशेषताएं

  5. Cloudera ऑपरेशनल डेटाबेस में लेन-देन समर्थन लाना