HBase
 sql >> डेटाबेस >  >> NoSQL >> HBase

बिग डेटा प्रोसेसिंग इंजन – मैं किसका उपयोग करूँ?:भाग 1

यह ब्लॉग पोस्ट Cloudera के साथ विलय से पहले Hortonworks.com पर प्रकाशित हुआ था। कुछ लिंक, संसाधन या संदर्भ अब सटीक नहीं हो सकते हैं।

बिल प्रीचुक और ब्रैंडन विल्सन को उनकी विशेषज्ञता की समीक्षा करने और प्रदान करने के लिए विशेष धन्यवाद

परिचय

आज के बड़े डेटा प्रोसेसिंग और स्टोरेज की दुनिया में कॉलमनर स्टोरेज अक्सर चर्चा का विषय है - सैकड़ों प्रारूप, संरचनाएं और अनुकूलन हैं जिनमें आप अपना डेटा स्टोर कर सकते हैं और आप जो करने की योजना बना रहे हैं उसके आधार पर इसे पुनर्प्राप्त करने के और भी तरीके हैं। इसके साथ। यह ढेर सारे विकल्प न केवल ऑन-लाइन ट्रांजेक्शनल प्रोसेसिंग (ओएलटीपी) टूल का उपयोग करके डेटा को जल्दी से निगलने की आवश्यकता के कारण आया, बल्कि ऑन-लाइन एनालिटिकल प्रोसेसिंग (ओएलएपी) का उपयोग करके अधिक दक्षता के साथ डेटा का उपभोग और विश्लेषण करने की आवश्यकता के कारण भी हुआ। औजार। हजारों अलग-अलग उपयोग के मामलों में से प्रत्येक की अपनी विशिष्ट ज़रूरतें हैं और इस प्रकार, कई विकल्प सामने आए हैं। उदाहरण के लिए, स्टॉक मार्केट टिकर डेटा को पढ़ने के लिए एक निर्माण लाइन में गुणवत्ता मेट्रिक्स का विश्लेषण करने की तुलना में पूरी तरह से अलग मानसिकता की आवश्यकता होती है। इन सभी विकल्पों के साथ, अपने अंतिम लक्ष्य पर नेविगेट करते समय खो जाना आसान है:आपके लिए काम करने वाला टूल चुनना।

एचडीपी में कई भंडारण समाधान शामिल हैं, जिनमें से प्रत्येक विशिष्ट उपयोग के मामलों के लिए तैयार किए गए हैं। हम इस ब्लॉग शृंखला को निम्नलिखित तीन टूल/इंजनों और उनके संबद्ध भंडारण प्रारूपों के बारे में बात करके शुरू करना चाहते हैं:

  • Apache Hive Apache ORC को एक कुशल कॉलमर स्टोरेज फॉर्मेट के रूप में उपयोग करता है जो OLAP और डीप SQL क्वेरी प्रोसेसिंग दोनों के लिए प्रदर्शन को सक्षम बनाता है
  • Apache फीनिक्स/अपाचे HBase मिलकर एक OLTP डेटाबेस बनाते हैं जो अरबों रिकॉर्ड्स पर रीयल-टाइम क्वेरीज़ को सक्षम बनाता है और तेज़ रैंडम की-आधारित लुकअप के साथ-साथ अपडेट भी प्रदान करता है
  • अपाचे ड्र्यूड एक उच्च प्रदर्शन डेटा स्टोर है जो बेहद कम विलंबता वाले ऐतिहासिक डेटा पर इवेंट स्ट्रीम और OLAP एनालिटिक्स पर रीयल-टाइम टाइम-सीरीज़ विश्लेषण को सक्षम बनाता है

इस लेख में, हम यह स्पष्ट करना चाहते हैं कि किसी दिए गए उपयोग के मामले के लिए कौन सा उपकरण उपयुक्त है, विभिन्न उपकरणों की तुलना और इसके विपरीत, और आपके उपयोग के मामले को संबोधित करने के लिए उपयुक्त टूल या टूल के सेट को चुनने के लिए एक बुनियादी दिशानिर्देश प्रदान करें।

यह बहुत कुछ टेट्रिस खेलने जैसा है - प्रत्येक टुकड़े में एक अलग जगह होती है लेकिन वे प्रत्येक बड़ी संरचना में अद्वितीय मूल्य जोड़ते हैं

बिग डेटा प्रोसेसिंग और इसकी समानताएं

डेटा को भंडारण में कॉलम द्वारा समूहीकृत किया जाता है क्योंकि हम अक्सर किसी विशिष्ट कॉलम पर रकम, औसत या अन्य गणनाओं को कम करने का प्रयास करते हैं। कल्पना कीजिए कि आप एक एयरलाइन हैं जो यह समझने की कोशिश कर रहे हैं कि डॉक होने पर एक विमान को कितना ईंधन देना है - आप उड़ान-यात्रा डेटा की तालिका से प्रत्येक उड़ान द्वारा उड़ाए गए औसत मील की गणना करना चाह सकते हैं। इसके लिए एकल कॉलम पर औसत कार्य करने की आवश्यकता होगी। हम इस डेटा को कॉलमर फॉर्मेट में स्टोर करेंगे क्योंकि डिस्क पर अनुक्रमिक रीड्स तेज होते हैं, और इस मामले में हम जो करना चाहते हैं वह क्रमिक रूप से टेबल से एक पूरा कॉलम पढ़ा जाता है (और फिर एक औसत गणना करता है)।

इन इंजनों के बीच कई अंतर हैं लेकिन आप चाहे जो भी डेटा प्रोसेसिंग इंजन चुनें, आपको कुछ समानताओं से लाभ होगा। उनमें से एक कैशिंग की साझा विशेषता है। इन तीनों इंजनों में से प्रत्येक बैकएंड स्टोरेज प्रारूप को बदले बिना, उप-सेकंड प्रतिक्रिया समय प्राप्त किए बिना इसके प्रसंस्करण के प्रदर्शन को बढ़ाने के लिए इन-मेमोरी कैशिंग के साथ हाथ से काम करता है। HBase में BlockCache है, Hive में LLAP IO लेयर है, और Druid में कई इन-मेमोरी कैशिंग विकल्प हैं। अक्सर, किसी क्वेरी की सर्विसिंग के महंगे हिस्से में अनुरोध को पार्स करना और उपयोगकर्ता की रुचि के डेटा के सबसेट को पुनः प्राप्त करने के लिए लगातार स्टोर पर जाना शामिल होता है। इन-मेमोरी कैशिंग तंत्र का उपयोग करते समय कई कॉलमर स्टोरेज प्रारूपों का उपयोग करते समय उस पूरे चरण से बचा जा सकता है। उपयोग, प्रक्रिया को एक सेकंड के अंशों में पहले से पूछे गए डेटा के लिए स्मृति तक पहुंचने की इजाजत देता है। आइए अपने ईंधन गणना उदाहरण पर वापस जाएं:मान लीजिए कि मैंने अपनी कंपनी में सभी उड़ानों के लिए औसत मील की दूरी के लिए कहा है, लेकिन यह महसूस करें कि घरेलू उड़ानों में ईंधन की आवश्यकताएं होंगी जो अंतरराष्ट्रीय उड़ानों की तुलना में बहुत अलग हैं। फिर मैं अपनी पिछली क्वेरी को WHERE country='US' (या समकक्ष देश कोड) क्लॉज के साथ फ़िल्टर करना चाहूंगा। डेटा एक्सप्लोरेशन के लिए यह क्वेरी पैटर्न बहुत आम है। चूंकि हमारे पास पहले से ही पिछली क्वेरी का डेटा मेमोरी में है, इसलिए इस क्वेरी के परिणाम महंगे डिस्क रीड किए बिना वापस किए जा सकते हैं।

हाइव की एलएलएपी परत की संरचना - इसकी मेमोरी स्पेस का हिस्सा कैशिंग के लिए उपयोग किया जाता है, जबकि एचडीएफएस पर दीर्घकालिक भंडारण होता है। HBase और Druid में भी कैशे और स्टोरेज की समान अवधारणा है।

एक और समानता शॉर्टकट में मौजूद है, इनमें से प्रत्येक इंजन क्वेरी किए जा रहे विशिष्ट डेटा पर शून्य का उपयोग करता है। HBase में हैश मैप-आधारित O(1) रैंडम एक्सेस है, ड्र्यूड इनवर्टेड बिटमैप इंडेक्स का उपयोग यह पता लगाने के लिए करता है कि कौन से कॉलम मान किन पंक्तियों में हैं, और हाइव टेबल में शॉर्टकट डेटा एक्सेस के लिए आँकड़े, इंडेक्स और विभाजन हैं। ये सुविधाएं इंजन को डेटा को एक्सेस करने के तरीके के साथ संग्रहीत करने के तरीके को संयोजित करने में सक्षम बनाती हैं, हार्डवेयर की दक्षता को अनुकूलित करते हुए तेज़ विश्लेषण को सक्षम करती हैं और CPU और RAM का अधिकतम लाभ उठाती हैं।

अंतिम समानता इनमें से प्रत्येक इंजन की उद्यम-तैयारी है। डेटा अतिरेक पक्ष पर, ये तीनों इंजन अपने गहरे भंडारण तंत्र के रूप में एचडीएफएस का उपयोग करते हैं; 3x का एचडीएफएस प्रतिकृति कारक यह सुनिश्चित करता है कि डेटा की प्रतियां कहीं और मौजूद हों, भले ही दो नोड एक साथ विफल हो जाएं। अतिरेक को बनाए रखने के लिए डेटा को तुरंत स्वस्थ नोड्स में एक बार फिर से दोहराया जा सकता है। क्लस्टर के भीतर दोष सहिष्णुता के विषय पर, प्रत्येक उपकरण किसी न किसी तरह से अंतर को भरता है। HBase क्षेत्र प्रतिकृति प्रदान करता है, ड्र्यूड में मास्टर और कार्यकर्ता घटकों के दोहराव के साथ-साथ HDFS पर प्रतिकृति कारक में वृद्धि होती है, और हाइव में YARN ढांचे के दोष-सहिष्णु तर्क के साथ HDFS होता है। उद्यम की तैयारी सुनिश्चित करती है कि ये इंजन विफलता के प्रति लचीला हैं और पहले दिन से ही उत्पादन में प्रदर्शन के लिए तैयार हैं।

हमारे बिग डेटा प्रोसेसिंग इंजन के बीच अंतर

डेटा अंतर्ग्रहण करने का सबसे अच्छा तरीका क्या है? एक बार जब आप अपना डेटा अंतर्ग्रहण कर लेते हैं, तो आप उसमें से अंतर्दृष्टि कैसे जल्दी से निकालते हैं? आइए जानें कि कैसे ये तीन बड़े डेटा प्रोसेसिंग इंजन डेटा प्रोसेसिंग कार्यों के इस सेट का समर्थन करते हैं

इन इंजनों को कभी-कभी मानसिक रूप से एक साथ बंडल किया जाता है और बिग डेटा को स्टोर करने और संसाधित करने की उनकी क्षमता के कारण समान रूप से सोचा जाता है, लेकिन जैसा कि हम पाएंगे कि उन्हें उपयोग के मामलों और उद्देश्यों के लिए चुना जाता है जो विशेष रूप से उनकी ताकत के अनुकूल होते हैं। आप देखेंगे कि हॉर्टनवर्क्स डेटा प्लेटफ़ॉर्म में शामिल टूल का संग्रह किसी भी बड़े डेटा वर्कलोड के लिए अच्छी तरह से अनुकूल है जिसे आप उस पर फेंक सकते हैं, विशेष रूप से एचडीपी 3.0 और हमारे द्वारा पेश की गई रीयल-टाइम डेटाबेस क्षमताओं के साथ।

हाइव OLAP इंजन है जो उपयोग के मामलों की सबसे बड़ी चौड़ाई का प्रतिनिधि है, जो आमतौर पर Hadoop डिस्ट्रीब्यूटेड फाइल सिस्टम (HDFS) को किसी भी प्रकार के डेटा के भंडारण की अनुमति देने के लिए स्टोरेज लेयर के रूप में नियोजित करता है। यह असंरचित पाठ डेटा, सीएसवी फाइलों, एक्सएमएल, अर्ध-संरचित JSON, स्तंभ लकड़ी की छत, और कई अन्य स्वरूपों को क्वेरी, संसाधित और विश्लेषण कर सकता है। हाइव वैकल्पिक भंडारण माध्यमों जैसे क्लाउड स्टोरेज, इसिलॉन और अन्य का भी समर्थन करता है। हाइव के लिए वास्तविक भंडारण मानक ओआरसी है, जो सबसे कुशलता से अनुकूलित करता है और स्तंभ भंडारण के लाभों को पुनः प्राप्त करता है। एक बार ORC में परिवर्तित हो जाने पर आपका डेटा संपीड़ित हो जाता है और आपकी तालिका के कॉलम डिस्क पर क्रमिक रूप से संग्रहीत हो जाते हैं, जिससे हाइव की इन-मेमोरी कैशिंग लेयर LLAP को डिस्क से डेटा को एक बार खींचने और इसे कई बार मेमोरी से परोसने की अनुमति मिलती है। हाइव + एलएलएपी के संयोजन का उपयोग तदर्थ विश्लेषण, बड़े समुच्चय की गणना और कम विलंबता रिपोर्टिंग के लिए किया जाता है। हाइव के लिए एक बढ़िया उपयोग मामला उपयोगकर्ताओं के लिए दैनिक डैशबोर्ड रिपोर्ट का एक सेट चला रहा है; दोहराए जाने वाले प्रश्न न केवल एलएलएपी कैश का लाभ उठाते हैं, बल्कि 'क्वेरी परिणाम कैश' सुविधा का भी लाभ उठाते हैं - जो डेटा नहीं बदले जाने पर निकट-तत्काल परिणाम देता है (इसके अलावा:क्वेरी परिणाम कैश हाइव 3.0 में उपलब्ध एक सुविधा है - में जारी एचडीपी 3.0)। इसके साथ ही, हाइव डेटा वेयरहाउस एड-हॉक एनालिटिक्स का एक बड़ा उपयोग है जो हाइव सक्षम है; उपयोगकर्ता डेटा को एक साथ जोड़ सकते हैं, समवर्ती क्वेरी चला सकते हैं और ACID लेनदेन चला सकते हैं। हाइव को इस संबंध में सभी ट्रेडों का SQL जैक माना जाता है, जबकि अन्य दो इंजन विशिष्ट आला उपयोग मामलों के लिए अत्यंत तेज़ प्रदर्शन प्रदान करते हैं।

हमारा दूसरा इंजन, HBase, एक वितरित की-वैल्यू स्टोर है जिसमें रैंडम रीड, राइट, अपडेट और डिलीट क्षमताएं हैं। HBase (एक NoSQL संस्करण) को एक OLTP इंजन के रूप में डिज़ाइन किया गया है, जो उच्च-मात्रा वाले लेन-देन के संचालन की एक वास्तुकला की अनुमति देता है - उपयोगकर्ताओं के बीच निरंतर संदेशों के आदान-प्रदान या वित्तीय प्रणाली में उत्पन्न होने वाले लेनदेन के साथ मैसेजिंग प्लेटफॉर्म पर विचार करें। HBase डेटा को जल्दी से लाने, उसे संग्रहीत करने और उसे वापस परोसने में अत्यंत कुशल है - अल्ट्रा-लो लेटेंसी रैंडम इंसर्ट / अपडेट / डिलीट। यह डेटा एकत्र करने और जुड़ने के लिए डिज़ाइन नहीं किया गया है - यह कार्यक्षमता फीनिक्स, एक SQL परत और HBase के शीर्ष पर इंजन के माध्यम से पूरी की जाती है, लेकिन बड़ी मात्रा में डेटा के लिए अनुशंसित नहीं है क्योंकि डेटा को इष्टतम प्राप्त करने के लिए संरचित नहीं किया गया है प्रदर्शन (इसके बजाय हाइव का उपयोग करें)। संक्षेप में, HBase बड़ी मात्रा में क्रिएट-अपडेट-डिलीट ऑपरेशंस को प्रोसेस करने में बहुत अच्छा है, लेकिन जब उस डेटा को उपयोगकर्ताओं के लिए एक उपभोज्य प्रारूप में प्रस्तुत करने का समय आता है तो कम पड़ जाता है।

अंत में, ड्र्यूड तीसरा इंजन है और कम-विलंबता OLAP समय-श्रृंखला वर्कलोड के साथ-साथ स्ट्रीमिंग डेटा के रीयल-टाइम इंडेक्सिंग के लिए उपयुक्त है। ड्र्यूड आपके क्लस्टर के लिए क्यूब-स्पीड OLAP क्वेरी प्रदान करता है। ड्र्यूड की समय-श्रृंखला प्रकृति इंजन की आधारशिला है; इसे इस तरह से डिज़ाइन किया गया है क्योंकि समय-आधारित डेटा का विश्लेषण करते समय समय एक प्राथमिक फ़िल्टर होता है। इस बारे में सोचें कि आप यात्रा बुक करने के लिए उड़ान के समय का विश्लेषण कब कर रहे हैं - मैं इस विशेष 2-सप्ताह की समय सीमा के भीतर इटली के लिए सबसे कम लागत वाली उड़ान जानना चाहता हूं। ड्र्यूड डेटा को निगलने के साथ-साथ अनुरोध किए जाने पर इसे खोजने के लिए बहुत तेज़ होने के स्थान पर फिट बैठता है। दूसरी ओर, यह व्यावसायिक उपयोगकर्ताओं और विश्लेषकों को डेटा को क्वेरी करने और सुपरसेट के माध्यम से इसे समझने की अनुमति देता है, एक विज़ुअलाइज़ेशन परत जो ड्र्यूड के साथ निकटता से जुड़ी हुई है। ड्र्यूड एक सेकंड के भीतर सैकड़ों मिलियन या अरबों के बीच डेटा की मुट्ठी भर पंक्तियों को इंगित करने में उत्कृष्टता प्राप्त करता है, और यह डेटा की समान मात्रा पर कुल मूल्यों की गणना करने में भी बहुत तेज़ी से उत्कृष्टता प्राप्त करता है। हालाँकि यह जुड़ता नहीं है और इसलिए विश्लेषण के लिए डेटासेट को एक साथ जोड़ने के लिए उपयोग नहीं किया जा सकता है। यदि आप ड्र्यूड में डेटासेट के संयोजन का विश्लेषण करने की योजना बना रहे हैं, तो आपको ड्र्यूड में डालने से पहले डेटा को पूर्व-जुड़ना या जॉइन करने के लिए हाइव (और ड्र्यूड-समर्थित हाइव टेबल) का उपयोग करना बुद्धिमानी होगी। दूसरे शब्दों में कहें तो, ड्र्यूड आपके डेटा के संसाधित होने और आपके व्यावसायिक उपयोगकर्ताओं द्वारा इसे एक्सेस करने के तरीके में परिवर्तित होने के बाद आपके डेटा के लिए अंतिम पड़ाव होने की भूमिका में अच्छी तरह से फिट बैठता है। ड्र्यूड व्यापार विश्लेषकों के लिए बहुत अच्छा है क्योंकि वे सुपरसेट में लॉग इन कर सकते हैं और बिना कोई प्रश्न लिखे डैशबोर्ड के रूप में मेट्रिक्स की कल्पना कर सकते हैं; वे क्वेरी डेटा स्रोत और फ़िल्टर का चयन करने के लिए बस GUI का उपयोग करते हैं। यह सिस्टम डैशबोर्ड के लिए बैकिंग डेटा स्रोत के रूप में भी बहुत अच्छा है, चाहे वह परिचालन हो या विश्लेषणात्मक, इसके त्वरित क्वेरी समय के कारण।

अपने कार्यभार के लिए किस टूल का उपयोग करना है, इस पर निर्णय लेने का एक तरीका यहां दिया गया है:

HBase हाइव ड्र्यूड
अल्ट्रा-लो लेटेंसी रैंडम एक्सेस (की-बेस्ड लुकअप) ACID, रीयल-टाइम डेटाबेस, EDW कम विलंबता OLAP, समवर्ती क्वेरी
बड़ी मात्रा में OLTP एकीकृत SQL इंटरफ़ेस, JDBC एकत्रीकरण, अभ्यास
अपडेट रिपोर्टिंग, बैच समय-श्रृंखला
हटाता है जुड़ता है, बड़े समुच्चय, तदर्थ रीयल-टाइम अंतर्ग्रहण

एकीकृत SQL

हमने अब तक कई प्रणालियों पर चर्चा की है और उनमें से प्रत्येक के पास अपने डेटा तक पहुंचने के अपने तरीके हैं। यह बहुत अच्छा है जब आपके उपयोगकर्ता जानते हैं कि ये सभी उपकरण कैसे काम करते हैं, लेकिन यदि वे SQL, SQL और अधिक SQL की दुनिया से आ रहे हैं, तो वे पूर्ण उत्पादकता तक पहुंचने से पहले सीखने की अवस्था में हो सकते हैं, जैसा कि अधिकांश विश्लेषक करते हैं। यही कारण है कि हमने इस बातचीत को यथासंभव सरल बनाने की कोशिश की है; एचडीपी 3.0 में हाइव 3.0 के साथ, आप इस स्पेस में कई अलग-अलग डेटा स्टोर के साथ बातचीत करने के लिए हाइव के एसक्यूएल-जैसे एचक्यूएल सिंटैक्स का उपयोग कर सकते हैं। हाइव को पोर्टल के रूप में इस्तेमाल किया जा सकता है ताकि ड्र्यूड, एचबीएएस, और जेडीबीसी इंटरफेस और ड्राइवर प्रदान करने वाली किसी भी चीज को एक्सेस और संशोधित किया जा सके। हाइव का उपयोग ड्र्यूड अंतर्ग्रहण कार्य को प्रशासित करने के लिए किया जा सकता है जो काफ्का को सुनता है, वास्तविक समय में अंतर्ग्रहण का एक सरल तरीका प्रदान करता है। और अंत में, हाइव का उपयोग यह सब एक साथ लाने के लिए किया जा सकता है - अपने डेटा को स्टोर करें जहां यह सबसे अधिक समझ में आता है और इसे एक ही स्थान से एक्सेस करता है। इसे एक साथ शामिल करें, शायद उस नए परिणाम को किसी अन्य स्थान पर संग्रहीत भी करें। संभावनाएं बहुत हैं, लेकिन इंटरफ़ेस को बहुत सरल बना दिया गया है ताकि आपका उपयोगकर्ता आधार किसी अन्य टूल को सीखने में कम समय और व्यवसाय के लिए मूल्य लाने में अधिक समय व्यतीत कर सके।

निष्कर्ष

जैसा कि हमने पिछले विश्लेषण से देखा है, हाइव, ड्र्यूड और HBase सभी के डेटा आर्किटेक्चर में अलग-अलग स्थान हैं। हालांकि वे पूरक उपकरण हैं; आप HBase के साथ उसके तेज़ लुकअप के साथ लेन-देन संबंधी डेटा को अंतर्ग्रहण कर सकते हैं, उस डेटा को तेज़ ड्रिल-डाउन/एग्रीगेशन के लिए ड्र्यूड में ले जा सकते हैं, और हाइव को अपने हाइव-प्रबंधित डेटा के साथ दोनों को एक साथ एकीकृत कर सकते हैं ताकि उपयोगकर्ताओं को डेटा को संयोजित करने की अनुमति मिल सके, जहाँ भी वह रह सकता है। एक ही दृश्य और अंतर्दृष्टि का खजाना। इस दृष्टिकोण के साथ, ड्र्यूड डेटा संग्रहीत करता है जिसे स्वयं एक्सेस किया जा सकता है लेकिन उस कार्यक्षमता को हाइव द्वारा बढ़ाया जाता है, जो ड्र्यूड डेटा को खींच सकता है और अतिरिक्त डेटा के साथ जुड़ सकता है। इसमें प्रमुख संवर्द्धन जोड़ें जो हाइव 3.0 के साथ खेल में आए हैं, जिनमें से कम से कम भौतिक विचार नहीं हैं, ड्र्यूड के साथ-साथ कई अन्य इंजनों के साथ बेहतर एकीकरण, और डेटा वेयरहाउस जैसी कार्यक्षमता में वृद्धि हुई है, और आपके पास एक समूह है ऐसे टूल जो किसी भी उपयोग के मामले को हल कर सकते हैं।

पूर्वोक्त जैसे आर्किटेक्चर आपके वर्कफ़्लो को अनुकूलित करने के लिए प्रत्येक टूल में सर्वश्रेष्ठ लाते हैं और साथ ही उन उपयोगकर्ताओं के लिए विवरणों को दूर करते हैं जो केवल डेटा से संबंधित हैं। आर्किटेक्ट्स ने पाइपलाइनों की स्थापना की, जहां डेटा को उपयोग के मामले के आधार पर रखा गया है। इसके बाद डेटा विश्लेषकों की ओर जाता है, जो ज्ञान और अंतर्दृष्टि प्राप्त करने के लिए अपने एकल इंटरफ़ेस के रूप में हाइव का उपयोग करते हैं। वे डेटा को संग्रहीत करने या इसे एक्सेस करने के लिए एक नया सिंटैक्स सीखने के बारे में चिंता करने के बजाय डेटा में दिलचस्प पैटर्न खोजने में सक्षम हैं - आपको यह जानकर आश्चर्य होगा कि हम इसे दुनिया में कितनी बार देखते हैं।

इस बिंदु पर हमने प्रत्येक उपकरण की ताकत, कमजोरियों और सर्वोत्तम प्रथाओं का प्रदर्शन किया है; हम आशा करते हैं कि आप इस बात की बेहतर समझ के साथ दूर चले जाएंगे कि सबसे अच्छा परिणाम प्राप्त करने के लिए तीनों के संयोजन की बड़ी तस्वीर के साथ-साथ क्या फिट बैठता है।


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. HBase के लिए जावा कचरा संग्रह ट्यूनिंग

  2. एमओबी के लिए अपाचे एचबेस के नए समर्थन के अंदर

  3. कैसे करें:Apache HBase REST इंटरफ़ेस का उपयोग करें, भाग 1

  4. सैंटेंडर के पास रीयल-टाइम डेटा इंजेस्ट आर्किटेक्चर के अंदर (भाग 2)

  5. अपाचे काफ्का में मजबूत संदेश क्रमांकन अपाचे एवरो का उपयोग, भाग 1