HBase
 sql >> डेटाबेस >  >> NoSQL >> HBase

CDP प्राइवेट क्लाउड बेस 7 बनाम CDH5 में ऑपरेशनल डेटाबेस परफॉर्मेंस इम्प्रूवमेंट

क्लाउडेरा डेटा प्लेटफ़ॉर्म (सीडीपी) प्राइवेट क्लाउड एकीकृत विश्लेषण और डेटा प्रबंधन के लिए सबसे व्यापक ऑन-प्रिमाइसेस प्लेटफ़ॉर्म है। यह क्लौडेरा एंटरप्राइज डेटा हब और हॉर्टनवर्क्स डेटा प्लेटफ़ॉर्म एंटरप्राइज प्लस का सबसे अच्छा संयोजन करता है, और डेटा सेंटर में डेटा प्रबंधन और एनालिटिक्स के लिए नवीनतम और सबसे बड़ी ओपन सोर्स तकनीक लाता है।

सीडीपी प्राइवेट क्लाउड बेस के नवीनतम संस्करण (7) के साथ, हमने कई नई सुविधाएँ और संवर्द्धन पेश किए हैं। इस ब्लॉग पोस्ट में, हम Apache HBase में उपलब्ध प्रदर्शन सुधारों को साझा करना चाहेंगे।

उन लोगों के लिए जो HBase के लिए नए हैं या एक नई परियोजना के लिए इसका मूल्यांकन कर रहे हैं, HBase एक गैर-संबंधपरक वितरित डेटाबेस है जिस पर आर्किटेक्ट और डेवलपर्स द्वारा भरोसा किया जाता है जो समय पर और विश्वसनीय तरीके से बड़ी मात्रा में डेटा को संसाधित करना चाहते हैं।

इस प्रदर्शन की तुलना के लिए, हमने YCSB वर्कलोड का उपयोग करके CDP प्राइवेट क्लाउड बेस 7 में उपलब्ध HBase2 को CDH 5 में उपलब्ध Hbase1 से मापा। यह तुलना हमें अंतर्निहित हार्डवेयर में बिना किसी बदलाव के इन-प्लेस अपग्रेड करने वाले ग्राहकों के प्रदर्शन में सुधार और प्रभाव को समझने में मदद करती है।

नोट:जो ग्राहक CDH 5 से CDP 7 में अपग्रेड कर रहे हैं, उन्हें HBase1 से HBase2 में भी HBase अपग्रेड मिलेगा।

  • कस्टम YCSB अपडेट केवल कार्यभार
    • हमारा कस्टम YCSB अपडेट ओनली वर्कलोड करता है 
      • 100% अद्यतन संचालन
    • एक एप्लिकेशन उदाहरण एक मीट्रिक स्टोर होगा
    • कार्यभार प्रदर्शन: CDP 7 YCSB अपडेट ओनली वर्कलोड रन थ्रूपुट (ऑपरेशन प्रति सेकंड) CDH5 के साथ चलने की तुलना में 20% बेहतर था

  • YCSB वर्कलोडA 
    • YCSB कार्यभार A प्रदर्शन करता है 
      • 50% रीड ऑपरेशन
      • 50% अद्यतन संचालन
    • एक एप्लिकेशन उदाहरण एक सत्र स्टोर होगा जो उपयोगकर्ता सत्र में हाल की कार्रवाइयों को रिकॉर्ड करेगा 
    • कार्यभार प्रदर्शन:सीडीपी निजी क्लाउड बेस 7.1 HBase2 YCSB वर्कलोड एक थ्रूपुट (ऑपरेशन प्रति सेकंड) CDH5 HBase1 से 15% बेहतर था

  • YCSB कार्यभार C (केवल पढ़ने के लिए) 
    • YCSB वर्कलोड C एक रीड ओनली वर्कलोड है और 
        . करता है
      • 100% रीड ऑपरेशन
    • जब प्रोफ़ाइल कहीं और बनाई जाती है (जैसे Hadoop) या खाता विवरण देखने और देखने के लिए एक बैंकिंग सिस्टम, तो एक एप्लिकेशन उदाहरण उपयोगकर्ता प्रोफ़ाइल कैश पढ़ा जाएगा 
    • कार्यभार प्रदर्शन:CDP 7 YCSB कार्यभार C में CDH 5 के समान थ्रूपुट (ऑपरेशन प्रति सेकंड) था

फैसला - सीडीपी 7 वाईसीएसबी में सीडीएच 5 की तुलना में बेहतर प्रदर्शन प्रदान करता है  

कस्टम अपडेट केवल कार्यभार :CDP 7 YCSB अपडेट केवल कार्यभार 20% बेहतर performed प्रदर्शन किया C5 की तुलना में।

YCSB वर्कलोड A :सीडीपी 7 वाईसीएसबी वर्कलोड ए ने प्रदर्शन किया 15% बेहतर सीडीएच 5 की तुलना में।

YCSB कार्यभार C :CDP 7 YCSB रीड ओनली वर्कलोड C में समान ऑपरेशन/थ्रूपुट था सीडीएच 5 तक

हमारे परीक्षण के दौरान, हमने देखा कि JDK8 से JDK 11 में CDP 7 में अपग्रेड करने से प्रदर्शन में 10% और सुधार हो सकता है। यह CDH5 से CDP7 में अपग्रेड करके प्राप्त प्रदर्शन सुधारों के अतिरिक्त है।

CDP 7 डिफ़ॉल्ट रूप से JDK8 के साथ आता है, और JDK11 में अपग्रेड का समर्थन करता है। हमारे परीक्षण रन में, ऊपर दिखाए गए YCSB वर्कलोड रन के लिए JDK 11 का उपयोग करने के लिए CDP 7 को अपडेट किया गया था। हमने JDK8 के साथ भी समान कार्यभार चलाया, और परीक्षण के परिणामों से पता चला कि JDK11 का प्रदर्शन JDK8 की तुलना में 5-10% बेहतर है , जैसा कि नीचे दिए गए चार्ट में दिखाया गया है

सीडीपी 7 को जेडीके 8 से ओपनजेडीके 11 में अपग्रेड करने के लिए, कृपया नीचे दिए गए चरणों का पालन करें:

चरण 1:नीचे दिए गए सभी होस्ट पर OpenJDK11 इंस्टॉल करें

आरएचईएल 

sudo yum install java-11-openjdk

उबंटू

sudo apt install openjdk-11-jdk

चरण 2:केवल Cloudera प्रबंधक सर्वर होस्ट पर (अन्य होस्ट के लिए आवश्यक नहीं):

  1. फ़ाइल /etc/default/cloudera-scm-server को टेक्स्ट एडिटर में खोलें।
  2. एक्सपोर्ट से शुरू होने वाली लाइन को संपादित करें JAVA_HOME (यदि यह लाइन मौजूद नहीं है, तो इसे जोड़ें) और नए JDK के पथ में पथ बदलें (JDK आमतौर पर / में स्थापित होता है) usr/lib/jvm)(या /usr/lib64/jvm SLES 12 पर), लेकिन JDK कैसे स्थापित किया गया था, इसके आधार पर पथ भिन्न हो सकता है।

JDK को अपग्रेड करने के बारे में अधिक जानकारी के लिए कृपया अनुसरण करें JDK को अपग्रेड करना

परीक्षण पर्यावरण

परीक्षण पद्धति

CDH 5.16.3/HBase1 को क्लस्टर पर स्थापित किया गया था और 1 बिलियन पंक्तियों (डेटासेट आकार 1TB) के साथ कार्यभार डेटा उत्पन्न किया गया था और CDH 5.16.3 YCSB वर्कलोड चलाया गया था। लोड करने के बाद, हमने वर्कलोड टेस्ट शुरू करने से पहले सभी कॉम्पैक्शन ऑपरेशन खत्म होने का इंतजार किया।

एक बार CDH 5.16.3 रन पूरे हो जाने के बाद, CDP प्राइवेट क्लाउड बेस 7.1 HBase2 को क्लीन-इंस्टॉल किया गया और उसी क्लस्टर पर डेटा फिर से जेनरेट किया गया। सीडीपी प्राइवेट क्लाउड बेस 7.1 वाईसीएसबी वर्कलोड तब परीक्षण समय प्राप्त करने के लिए चलाए गए थे। प्रत्येक कार्यभार चलाने से पहले, हमने YCSB द्वारा उपयोग की जाने वाली HBase तालिका को प्रारंभ किया। प्रयोग करने योग्य utable_snap . का स्नैपशॉट प्रत्येक रन से पहले बनाए और लागू किए गए थे।

परीक्षण किए गए प्रत्येक कार्यभार को थ्रूपुट * मापने के लिए प्रत्येक 15 मिनट के लिए 3 बार चलाया गया था। दिखाए गए परिणाम 3 परीक्षणों से लिए गए औसत हैं।

*थ्रूपुट (ऑप्स/सेकंड) =संचालन की संख्या प्रति सेकंड

CDP प्राइवेट क्लाउड बेस 7.1 में HBase2 और CDH 5.16.3 में HBase1 शामिल है। CDP प्राइवेट क्लाउड बेस 7.1 और CDH5 दोनों में JDK 8 स्थापित है। CDP प्राइवेट क्लाउड बेस 7.1 JDK11 को सपोर्ट करता है और CDP प्राइवेट क्लाउड बेस 7.1 को YCSB टेस्टिंग के लिए JDK 11 का उपयोग करने के लिए अपडेट किया गया था, CDH 5.13.3 रन JDK 8 (1.8.0_141) के साथ चलाए गए थे

कॉन्फ़िगरेशन का परीक्षण करें

  • YCSB संस्करण 0.17.0
  • YCSB बाइंडिंग वर्शन hbase2(CDP-CD 7.1) और hbase1(CDH 5) 
  • YCSB क्लाइंट ने 2 का इस्तेमाल किया
  • YCSB थ्रेड प्रति ग्राहक 20
  • डेटा का आकार
    • YCSB तालिका @1TB स्केल
    • YCSB तालिका 1,000,000,000 (1TB) में रिकॉर्ड की कुल संख्या, प्रत्येक रिकॉर्ड 1KB है
    • YCSB तालिका 250 में क्षेत्रों की संख्या, 5+1 नोड क्लस्टर के साथ इसके लगभग 50 क्षेत्र प्रति क्षेत्र सर्वर
    • प्रति सर्वर आकार 290G उपयोग किया जाने वाला औसत क्षेत्र संग्रहण स्थान
  • HBase क्षेत्र के सर्वर 32GB हीप के साथ कॉन्फ़िगर किए गए थे 
  • LruBlockCache के साथ केवल L1 कैश का उपयोग 12.3 GB कैश आकार के साथ किया गया था
  • क्षेत्र सर्वर पर रन के दौरान देखा गया L1 कैश हिट प्रतिशत 85% था
  • L2 ऑफ हीप कैश क्लस्टर पर कॉन्फ़िगर नहीं किया गया था

क्लस्टर कॉन्फ़िगरेशन

  • इस्तेमाल किया गया क्लस्टर: 6 नोड क्लस्टर (1 मास्टर + 5 क्षेत्र सर्वर)
  • विवरण: Dell PowerEdge R430, 20c/40t Xenon e5-2630 v4 @ 2.2Ghz, 128GB Ram, 4-2TB डिस्क
  • सुरक्षा: कोई कॉन्फ़िगर नहीं किया गया (कोई केर्बरोस नहीं)

क्लाउडरा संस्करणों की तुलना

C7 संस्करण :सीडीपी प्राइवेट क्लाउड बेस 7.1.0

C5 संस्करण: CDH5.16.3

उपयोग किए गए JDK:JDK 8 ( 1.8.0_141) और JDK 11 (11.0.6)

हमारे परीक्षण (उपरोक्त परिणाम) के आधार पर, CDH 5 से CDP 7 में अपग्रेड करने के इच्छुक ग्राहकों को आज की तुलना में समान कार्यभार के लिए बेहतर प्रदर्शन की अपेक्षा करनी चाहिए।

क्लौडेरा ऑपरेशनल डीबी के बारे में अधिक जानें यहां


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. कैसे करें:Hue . के माध्यम से HBase डेटा प्रबंधित करें

  2. Hadoop में MapReduce की वैल्यू पेयर क्या है?

  3. Hadoop कैसे काम करता है - Hadoop की कार्यप्रणाली को समझें

  4. जल्दी से एक नमूना hbase तालिका बनाएं

  5. रिलीज 1.1 के बाद इम्पाला के लिए आगे क्या है?