HBase
 sql >> डेटाबेस >  >> NoSQL >> HBase

HBase और Hive - एक साथ बेहतर

यह ब्लॉग पोस्ट Cloudera के साथ विलय से पहले Hortonworks.com पर प्रकाशित हुआ था। कुछ लिंक, संसाधन या संदर्भ अब सटीक नहीं हो सकते हैं।

कंप्यूटर स्मार्ट हो रहे हैं और हम नहीं।

-टिम बर्नर्स ली, वेब डेवलपर

Google, Amazon और Netflix ने हमें कंडीशन किया है। उपभोक्ताओं के रूप में, हम बुद्धिमान अनुप्रयोगों की अपेक्षा करते हैं जो हमारे हर कदम की भविष्यवाणी, सुझाव और अनुमान लगाते हैं। हम चाहते हैं कि वे लाखों संभावनाओं से बाहर निकलें और कुछ ही सुझाव दें जो हमारी आवश्यकताओं के अनुरूप हों। हम ऐसे एप्लिकेशन चाहते हैं जो हमें अनंत संभावनाओं की दुनिया के माध्यम से एक व्यक्तिगत यात्रा पर ले जाएं।

इन व्यक्तिगत यात्राओं के लिए स्वीकार्य समय में बड़ी मात्रा में डेटा को संग्रहीत करने और समझने के लिए सिस्टम की आवश्यकता होती है। यह पहले दिन से ही Hadoop का मजबूत पक्ष रहा है।

यात्रा को वितरित करने के लिए अनुप्रयोगों को सीधे गहन विश्लेषण के साथ एकीकृत करने की भी आवश्यकता होती है। यह एक चुनौती बनी हुई है क्योंकि अधिकांश परिचालन प्रणालियाँ Hadoop के बाहर चलती हैं, परिचालन डेटा और विश्लेषण को अलग-अलग साइलो में रखती हैं।

Apache Hadoop YARN और Apache Slider जैसी तकनीकें इन साइलो को तोड़ने लगी हैं। YARN Hadoop संसाधन अलगाव नियंत्रण देता है जो स्वीकार्य समय सीमा में उत्तर प्रदान करते हुए एप्लिकेशन डेटा का गहराई से विश्लेषण करना संभव बनाता है। और अपाचे स्लाइडर हडूप में लंबे समय से चल रहे परिचालन प्रणालियों को तैनात करना आसान बनाता है।

YARN Hadoop का आर्किटेक्चरल सेंटर है जो कई डेटा प्रोसेसिंग इंजन जैसे इंटरेक्टिव SQL, रियल-टाइम स्ट्रीमिंग, डेटा साइंस और बैच प्रोसेसिंग को एक ही प्लेटफॉर्म में संग्रहीत डेटा को संभालने की अनुमति देता है, एनालिटिक्स के लिए एक पूरी तरह से नए दृष्टिकोण को अनलॉक करता है। यह परिचालन और विश्लेषणात्मक प्रणालियों का एक सहज एकीकरण और एक नींव प्रदान करता है जिस पर उद्यम एक आधुनिक डेटा आर्किटेक्चर (एमडीए) का निर्माण कर सकता है।

द स्टेट ऑफ़ द आर्ट इन Hadoop

आज Hadoop में परिचालन और विश्लेषण को एक साथ मिलाना संभव है, और वास्तव में हम अपने कई ग्राहकों को ऐसा करते हुए देखते हैं।

आपके लिए आवश्यक टुकड़े पहले से ही Hadoop में हैं:

  • अपाचे HBase, Hadoop के लिए NoSQL डेटाबेस है और तेज़ अपडेट और कम विलंबता डेटा एक्सेस में बहुत अच्छा है।
  • अपाचे फीनिक्स (सेल्सफोर्स द्वारा अग्रणी) HBase में डेटा के लिए एक SQL स्किन है। फीनिक्स पहले से ही टेफ्रा (कास्क से) जैसे लेनदेन प्रबंधकों के साथ एकीकरण की जांच कर रहा है।
  • अपाचे हाइव, Hadoop के लिए वास्तविक SQL इंजन है जो गहनतम SQL विश्लेषण प्रदान करता है और बैच और इंटरेक्टिव क्वेरी पैटर्न दोनों का समर्थन करता है। हाइव एलएलएपी जैसे अग्रिमों के लिए हमारी हालिया स्टिंगर.अगली पोस्ट देखें।

हम देखते हैं कि हमारे ग्राहक आज इन भागों का उपयोग गहन विश्लेषण के साथ एप्लिकेशन बनाने के लिए करते हैं, उदाहरण के लिए एक बहुत ही सामान्य पैटर्न जो हम देखते हैं उनमें शामिल हैं:

  • हॉट डेटा जैसे घंटे, दिन आदि के लिए वर्तमान विभाजन पर तेज़ अपडेट के लिए ऑनलाइन परिचालन डेटा स्टोर के रूप में HBase का उपयोग करना।
  • अपाचे फीनिक्स का उपयोग करके सीधे एचबीएएस के खिलाफ परिचालन प्रश्नों को निष्पादित करना।
  • मानक ETL पैटर्न का उपयोग करके HBase से Hive तालिकाओं में उम्र बढ़ने का डेटा।
  • Hive का उपयोग करके गहन SQL विश्लेषण करना

यह काम करता है लेकिन यह डेवलपर्स के लिए कई जटिलताएं पैदा करता है। उदाहरण के लिए:

  • मैं किस SQL ​​​​इंटरफ़ेस का उपयोग करूँ और कब? क्या मैं हाइव का उपयोग करता हूं जो डीप एसक्यूएल लेकिन कम टीपीएस प्रदान करता है? या क्या मैं उच्च टीपीएस और बुनियादी एसक्यूएल के साथ फीनिक्स का उपयोग करता हूं? या मैं दोनों का उपयोग करता हूँ?
  • यदि मैं दोनों का उपयोग करता हूं, तो मैं हाइव और HBase के बीच डेटा कैसे साझा करूं?
  • मैं अपने क्लस्टर को कैसे ट्यून करूं ताकि मैं अपने SLAs को पूरा करते हुए HBase और Hive का सफलतापूर्वक पता लगा सकूं?

ये प्रश्न सुझाव देते हैं कि Hadoop पर गहन विश्लेषण के साथ अनुप्रयोगों के निर्माण को आसान बनाने के लिए गहन एकीकरण की आवश्यकता है।

HBase और Hive:बेटर टुगेदर

गहन एकीकरण के लिए क्या अवसर मौजूद हैं? वर्तमान में, ग्राहक पहले से निर्धारित क्लोज्ड-लूप सिस्टम बनाने के लिए HBase, फीनिक्स, हाइव आदि का लाभ उठाते हुए समाधान एक साथ रख रहे हैं। परिचालन डेटा और SQL विश्लेषण के लिए। हमें लगता है कि उपयोग में आसानी और अतिरिक्त क्षमताओं जैसे लेनदेन, क्रॉस डेटासेंटर फेलओवर आदि के साथ आउट-ऑफ-द-बॉक्स एकीकरण प्रदान करने का एक अवसर है।

हाइव, HBase और फीनिक्स सभी में डेवलपर्स का बहुत सक्रिय समुदाय है और अनगिनत संगठनों में उत्पादन में उपयोग किया जाता है। ये ठोस, प्रमाणित परिचालन क्षमताएं हैं जो Hadoop पर लेनदेन प्रसंस्करण की नींव और भविष्य हो सकती हैं।

इसलिए, सफल स्टिंगर पहल के समान दृष्टिकोण का उपयोग करते हुए, हॉर्टनवर्क्स इन मुख्य परियोजनाओं में और निवेश करना चाहता है और उन्हें छोड़ने और शुरू करने के विरोध में गति का निर्माण करना चाहता है। हम उन सुधारों में निवेश करने की योजना बना रहे हैं जो एक मजबूत एकीकृत हाइव और एचबीएएस के माध्यम से एक एकीकृत परिचालन और विश्लेषणात्मक अनुभव को आगे बढ़ाते हैं। यह वास्तविक और दिलचस्प उपयोग के मामलों को इस तरह से संबोधित करता है जो निवेश को संरक्षित करता है और ग्राहकों के लिए वास्तविक मूल्य बढ़ाता है।

बुद्धिमान अनुप्रयोगों के दृष्टिकोण को साकार करने में सहायता के लिए हम चार प्रमुख विकास क्षेत्रों को देखते हैं:

<एच3>1. हाइव के साथ एक एकीकृत SQL परत

SQL एप्लिकेशन बनाने वाले डेवलपर्स को अलग-अलग SQL समाधानों के बीच चयन नहीं करना चाहिए, प्रत्येक की अपनी ताकत और कमजोरी है। हम SQL:2011 के लिए हाइव के समर्थन द्वारा सक्षम एक एकीकृत SQL परत की कल्पना करते हैं, जो पारदर्शी रूप से क्वेरी एक्सेस पैटर्न के आधार पर उपयुक्त इंजन का उपयोग करती है।

यह संयोजन एकल SQL बोली और एकल कनेक्टर प्रदान करता है। डेटा आर्किटेक्ट और डीबीए यह निर्धारित कर सकते हैं कि उपयोग के पैटर्न के आधार पर डेटा कहाँ संग्रहीत किया जाना चाहिए, बिना उपयोगकर्ता अनुप्रयोगों पर कई प्रणालियों से कनेक्ट होने की आवश्यकता के बोझ के बिना।

<एच3>2. HBase को एक परिचालन स्टोर के रूप में सुधारना

HBase एक परिचालन स्टोर के रूप में तेजी से परिपक्व हो रहा है और अधिक से अधिक मांग वाले कार्यभार को लेने में सक्षम होगा। पिछले वर्ष में, HBase ने एक SQL इंटरफ़ेस, द्वितीयक अनुक्रमण और उच्च उपलब्धता को जोड़ा है। ये सुविधाएँ परिपक्व होती रहेंगी, और इसके अलावा, HBase अतिरिक्त एंटरप्राइज़-ग्रेड सुविधाएँ जैसे मल्टी-टेबल, क्रॉस-डेटासेंटर लेनदेन और बहुत कुछ जोड़ देगा।

ओमिड (याहू), टेफ्रा (कास्क), ट्रैफोडियन (एचपी) आदि जैसी परियोजनाएं एचबीएएस में लेनदेन लाने पर अलग-अलग पेशकश करती हैं। फेसबुक ने हाइड्राबेस विकसित किया है, जो क्रॉस-डेटासेंटर लेनदेन की अनुमति देता है। फेसबुक ने हाइड्राबेस का बड़े पैमाने पर परीक्षण किया है और इसे ओपन सोर्स एचबीएएस में उपलब्ध कराने के लिए आगे बढ़ रहा है (देखें एचबीएएसई-12259)। जैसे-जैसे ये सिस्टम परिपक्व होते जाएंगे, HBase सबसे अधिक मांग वाले कार्यभार के लिए सक्षम होगा।

<एच3>3. साझा मेटाडेटा कैटलॉग और लेन-देन प्रबंधक

HBase में बनाया गया डेटा स्वचालित रूप से Hive और इसके विपरीत में दिखाई देना चाहिए। यह क्षमता ऑनलाइन और विश्लेषणात्मक के बीच डेटा साझाकरण को पूरी तरह से तुच्छ बनाती है। एक साझा लेनदेन प्रबंधक हाइव की नई एसीआईडी ​​सुविधा और बहु-तालिका एचबीएएस लेनदेन को एक साथ निर्बाध रूप से काम करने की अनुमति देता है।

<एच3>4. यार्न-सक्षम मिश्रित कार्यभार समर्थन

आज, ग्राहक आमतौर पर HBase और Hive को अलग-अलग समूहों में तैनात करते हैं। क्लोज-लूप एनालिटिक्स सिस्टम विकसित करने के लिए बहु-किरायेदार तरीके से परिचालन और विश्लेषणात्मक कार्यभार के प्रभावी संयोजन की आवश्यकता होती है। YARN के साथ हम डेटा तक पहुंच के विभिन्न रूपों का समर्थन करने के लिए YARN में संसाधन अलगाव और कार्यभार प्रबंधन आदिम का लाभ उठाकर प्रभावी रूप से एकल-प्रणाली बना सकते हैं। स्लाइडर इनका उपयोग तब करता है जब यह HBase को YARN में तैनात करता है, जबकि Hive LLAP और Tez देशी YARN अनुप्रयोग हैं, जिससे एक अनुमानित SLA के अनुसार एक क्लोज्ड-लूप विश्लेषणात्मक प्रणाली को चलाने की प्रक्रिया को सरल बनाया जाता है।

निष्कर्ष

एंटरप्राइजेज एचडीपी में पहले से मौजूद मौजूदा तकनीकों जैसे अपाचे एचबेस, अपाचे हाइव, अपाचे फीनिक्स आदि का उपयोग कर रहे हैं ताकि डेटा-सेट के विशाल सरणी पर वर्तमान डेटा और एनालिटिक्स के तेजी से अपडेट से निपटने के लिए, सभी एचडीएफएस में एक क्लोज-लूप एनालिटिक्स सिस्टम को प्रभावित करने के लिए संग्रहीत किया जा सके। . हम उपयोगकर्ताओं को समझने और उपभोग करने के लिए शुद्ध नई तकनीकों के बजाय, Apache HBase और Apache Hive को एक साथ बेहतर बनाकर ग्राहकों के लिए एक सहज अनुभव प्रदान करने के लिए समान एकीकरण पैटर्न का लाभ उठाने की उम्मीद करते हैं।


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Hadoop कैसे काम करता है - Hadoop की कार्यप्रणाली को समझें

  2. MapReduce में Hadoop काउंटर और काउंटर के प्रकार

  3. Apache HBase में वास्तव में स्केलिंग कैसे काम करती है

  4. सीडीपी परिचालन डेटाबेस (सीओडी) पर अनुप्रयोगों को तैनात करना

  5. Cloudera प्रतिकृति प्लगइन Apache HBase के लिए x-प्लेटफ़ॉर्म प्रतिकृति को सक्षम करता है