HBase
 sql >> डेटाबेस >  >> NoSQL >> HBase

रिलीज 1.1 के बाद इम्पाला के लिए आगे क्या है?

दिसंबर 2012 में, जब क्लौडेरा इम्पाला अभी भी अपने बीटा चरण में था, हमने प्रोडक्शन रिलीज़ में नियोजित कार्यक्षमता के लिए एक रोडमैप प्रदान किया। इम्पाला उपयोगकर्ताओं, ग्राहकों और उत्साही लोगों को अच्छी तरह से सूचित रखने की इसी भावना में, यह पोस्ट इस साल के अंत में और 2014 की शुरुआत में आगामी रिलीज के लिए एक अद्यतन रोडमैप प्रदान करता है।

लेकिन सबसे पहले, एक धन्यवाद:प्रारंभिक बीटा रिलीज़ के बाद से, हमें इम्पाला के बारे में बहुत अधिक प्रतिक्रिया और सत्यापन प्राप्त हुआ है - इसकी गुणवत्ता और मात्रा में प्रचुर मात्रा में। दुनिया भर में लगभग 4,500 अद्वितीय संगठनों में से कम से कम एक व्यक्ति ने इम्पाला बाइनरी को आज तक डाउनलोड किया है। और GA के कुछ ही महीनों के बाद भी, हमने कई उद्योगों के Cloudera Enterprise ग्राहकों को देखा है जो एक Cloudera RTQ (रीयल-टाइम क्वेरी) सदस्यता के माध्यम से समर्थन के साथ व्यापार-महत्वपूर्ण वातावरण में Impala 1.x को तैनात करते हैं - जिसमें बीमा में अग्रणी संगठन शामिल हैं, बैंकिंग, खुदरा, स्वास्थ्य सेवा, गेमिंग, सरकार, दूरसंचार, और विज्ञापन।

इसके अलावा, डेटा प्रबंधन क्षेत्र में अन्य विक्रेताओं की प्रतिक्रिया के आधार पर, कुछ पर्यवेक्षक इस धारणा पर विवाद करेंगे कि इम्पाला ने Hadoop के लिए कम-विलंबता, इंटरैक्टिव SQL क्वेरी को उच्च-विलंबता, बैच-उन्मुख SQL क्वेरी के रूप में महत्वपूर्ण ग्राहक की आवश्यकता के रूप में बनाया है। अपाचे हाइव द्वारा सक्षम। यह हर जगह Hadoop उपयोगकर्ताओं के लिए एक बढ़िया विकास है!

इम्पाला 1.0/1.1 में क्या दिया गया था

आइए पहले प्रकाशित इम्पाला 1.0/1.1 रोडमैप पर एक रिपोर्ट कार्ड के साथ शुरुआत करें। वितरण स्थिति के आधार पर समूहीकृत सुविधाओं की सूची यहां दी गई है:

वितरित:

  • पार्क्वेट प्रारूप, अपाचे एवरो फ़ाइल प्रारूप, और एलजेडओ-संपीड़ित टेक्स्टफाइल के लिए समर्थन
  • सीडीएच के लिए समर्थित समान 64-बिट ओएस प्लेटफॉर्म के लिए समर्थन
  • JDBC ड्राइवर
  • डीडीएल समर्थन
  • तेज़, बड़ा, अधिक मेमोरी कुशल जुड़ता है
  • तेज़, बड़ा, अधिक मेमोरी कुशल एकत्रीकरण
  • अधिक SQL प्रदर्शन अनुकूलन

ग्राहकों की प्रतिक्रिया के आधार पर स्थगित:

  • स्ट्रगलर हैंडलिंग
  • स्वचालित मेटाडेटा रीफ़्रेश करें

इसके अलावा, अपाचे संतरी मॉड्यूल (इनक्यूबेटिंग), इम्पाला 1.1 को जोड़ने के लिए धन्यवाद और बाद में अब भी दानेदार, भूमिका-आधारित प्राधिकरण प्रदान करते हैं, यह सुनिश्चित करते हैं कि सही उपयोगकर्ताओं और एप्लिकेशन के पास सही डेटा तक पहुंच है। (अपाचे इन्क्यूबेटर में संतरी के हालिया योगदान के साथ और हाइवसेवर2 के हाइव बाय क्लाउडेरा, हाइव 0.11 और बाद में यह कार्यक्षमता भी है।)

बहुत काम किया गया था, लेकिन अभी भी बहुत काम करना बाकी है। अब इम्पाला 2.0 तरंग पर चलते हैं।

नियर-टर्म रोडमैप

निम्नलिखित नई इम्पाला कार्यक्षमता को निकट-अवधि के भविष्य के रिलीज में वृद्धिशील रूप से जारी किया जाएगा, 2013 के अंत में इम्पाला 1.2 से शुरू होकर 2014 के पहले तीसरे में इम्पाला 2.0 के साथ समाप्त होगा। इसके अलावा, आप अधिक प्रदर्शन लाभ और SQL कार्यक्षमता संवर्द्धन देखेंगे प्रत्येक रिलीज़ - लीगेसी रिलेशनल डेटाबेस विक्रेताओं के साथ-साथ Hadoop डिस्ट्रो विक्रेताओं के वैकल्पिक SQL-on-Hadoop दृष्टिकोण पर इम्पाला के प्रदर्शन नेतृत्व का विस्तार करने के लक्ष्य के साथ।

कृपया ध्यान दें, जैसा कि हमेशा रोडमैप के मामले में होता है, कि समय-सीमा और विशेषताएं हमेशा परिवर्तन के अधीन होती हैं। हालाँकि, आप नीचे जो देख रहे हैं, वह हमारी वर्तमान योजना-रिकॉर्ड को दर्शाता है।

इम्पाला 1.2

  • यूडीएफ और एक्स्टेंसिबिलिटी - उपयोगकर्ताओं को अपनी कस्टम कार्यक्षमता जोड़ने में सक्षम बनाता है; इम्पाला मौजूदा हाइव जावा यूडीएफ के साथ-साथ उच्च प्रदर्शन वाले देशी यूडीएफ और यूडीएफ़ का समर्थन करेगा
  • स्वचालित मेटाडेटा रीफ़्रेश - इम्पाला प्रश्नों के लिए नई तालिकाओं और डेटा को निर्बाध रूप से उपलब्ध होने में सक्षम बनाता है क्योंकि उन्हें प्रत्येक इम्पाला नोड पर मैन्युअल रीफ़्रेश जारी किए बिना जोड़ा जाता है
  • इन-मेमोरी एचडीएफएस कैशिंग - इन-मेमोरी स्पीड पर अक्सर एक्सेस किए गए Hadoop डेटा तक पहुंच की अनुमति देता है
  • लागत-आधारित जॉइन ऑर्डर ऑप्टिमाइज़ेशन - उपयोगकर्ता को सही जॉइन ऑर्डर का अनुमान लगाने से मुक्त करता है
  • यार्न-एकीकृत संसाधन प्रबंधक का पूर्वावलोकन - क्लाउडेरा प्रबंधक में वर्तमान में प्रदान किए गए सेवा-स्तर अलगाव की तुलना में बेहतर ग्रैन्युलैरिटी पर कार्यभार को प्राथमिकता देता है

इम्पाला 2.0

नीचे दी गई सूची केवल बड़ी, सबसे अधिक अनुरोधित सुविधाओं को कैप्चर करती है; यह किसी भी तरह से पूर्ण नहीं है।

  • SQL 2003-संगत विश्लेषणात्मक विंडो फ़ंक्शन (विभाजन पर एकत्रीकरण) - अधिक उन्नत SQL विश्लेषणात्मक क्षमताएं प्रदान करने के लिए
  • अतिरिक्त प्रमाणीकरण तंत्र - पहले से समर्थित Kerberos प्रमाणीकरण के अतिरिक्त उपयोगकर्ता नाम/पासवर्ड निर्दिष्ट करने की क्षमता सहित
  • यूडीटीएफ (उपयोगकर्ता-परिभाषित तालिका कार्य) - अधिक उन्नत उपयोगकर्ता कार्यों और एक्स्टेंसिबिलिटी के लिए
  • इंट्रा-नोड समानांतर एकत्रीकरण और जुड़ाव - इम्पाला के प्रदर्शन लाभ के शीर्ष पर और भी तेजी से जुड़ने और एकत्रीकरण प्रदान करने के लिए
  • नेस्टेड डेटा - मैप्स, स्ट्रक्चर्स और सरणियों सहित जटिल नेस्टेड संरचनाओं पर प्रश्नों को सक्षम बनाता है
  • उन्नत, उत्पादन के लिए तैयार, YARN-एकीकृत संसाधन प्रबंधक
  • लकड़ी की छत में वृद्धि - अनुक्रमणिका पृष्ठों सहित निरंतर प्रदर्शन लाभ
  • अतिरिक्त डेटा प्रकार - दिनांक और दशमलव प्रकार सहित
  • बिना LIMIT क्लॉज के ऑर्डर करें

इम्पाला 2.0 से परे

निम्नलिखित सुविधाओं की सूची वे हैं जिनका हम वर्तमान में अनुमान लगाते हैं कि वे 2.1 में मौजूद होंगी या उसके तुरंत बाद एक रिलीज होगी:

  • अतिरिक्त विश्लेषणात्मक SQL कार्यक्षमता - रोलअप, क्यूब और ग्रुपिंग सेट
  • अपाचे HBase CRUD - HBase में इंसर्ट और अपडेट के लिए इम्पाला के उपयोग की अनुमति देता है
  • डिस्क का उपयोग करके बाहरी जोड़ - तालिकाओं के बीच जुड़ने को डिस्क से डिस्क पर जोड़ने में सक्षम बनाता है जिसके लिए कुल मेमोरी आकार से बड़ी तालिकाओं की आवश्यकता होती है
  • WHERE क्लॉज के अंदर सबक्वेरी

जैसे-जैसे हम ग्राहक और साझेदार आवश्यकताओं के बारे में और जानेंगे, इस सूची का विस्तार होगा।

निष्कर्ष

जैसा कि आप देख सकते हैं, इम्पाला अपने बीटा रिलीज के बाद से काफी विकसित हुआ है, और यह विकसित होता रहेगा क्योंकि हम उपयोगकर्ताओं, ग्राहकों और भागीदारों से अधिक प्रतिक्रिया एकत्र करते हैं।

अंततः, हम मानते हैं कि इम्पाला ने उपयोगकर्ताओं को अपने सभी डेटा को मूल Hadoop फ़ाइल स्वरूपों में संग्रहीत करने की अनुमति देने के हमारे समग्र लक्ष्य को पहले ही सक्षम कर दिया है, और साथ ही साथ उस डेटा पर सभी बैच, मशीन लर्निंग, इंटरैक्टिव SQL/BI, गणित, खोज और अन्य कार्यभार चलाए हैं। जगह में। यहां से, समृद्ध कार्यक्षमता और बेहतर प्रदर्शन के साथ उस बहुत ही ठोस नींव पर निर्माण जारी रखने की बात है।

जस्टिन एरिकसन Cloudera में उत्पाद प्रबंधन के निदेशक हैं।


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Hadoop उच्च उपलब्धता सुविधा को समझना

  2. HBase प्रदर्शन CDH5 (HBase1) बनाम CDH6 (HBase2)

  3. Hadoop 2.x बनाम Hadoop 3.x . के बीच 20 उल्लेखनीय अंतर

  4. स्पार्क शेल के साथ HBase पर स्पार्क

  5. Apache HBase स्नैपशॉट का परिचय, भाग 2:गहरा गोता