HBase
 sql >> डेटाबेस >  >> NoSQL >> HBase

CDP पर NiFi, काफ्का और HBase का उपयोग करके एक स्केलेबल प्रक्रिया का निर्माण

नेविस्टार वाणिज्यिक ट्रकों का एक प्रमुख वैश्विक निर्माता है। 350,000 वाहनों के बेड़े के साथ, अनिर्धारित रखरखाव और वाहनों के टूटने से उनके व्यवसाय में निरंतर व्यवधान उत्पन्न हुआ। नेविस्टार को एक डायग्नोस्टिक प्लेटफॉर्म की आवश्यकता थी जो उन्हें यह अनुमान लगाने में मदद करे कि डाउनटाइम को कम करने के लिए वाहन को रखरखाव की आवश्यकता कब होती है। इस प्लेटफ़ॉर्म को अपने बेड़े में प्रत्येक वाहन से 70 से अधिक टेलीमैटिक्स और सेंसर डेटा फीड से डेटा एकत्र करने, विश्लेषण करने और सेवा करने में सक्षम होने की आवश्यकता है, जिसमें डेटा मापने वाले इंजन के प्रदर्शन, शीतलक तापमान, ट्रक की गति और ब्रेक पहनने शामिल हैं। अपने वाहनों के स्वास्थ्य की निगरानी और वाहन अपटाइम बढ़ाने के लिए, आईओटी-सक्षम रिमोट डायग्नोस्टिक्स प्लेटफॉर्म, जिसे ऑनकॉमैंड® कनेक्शन कहा जाता है, बनाने में मदद करने के लिए नेविस्टार ने क्लाउडेरा की ओर रुख किया।

यह ब्लॉग उन मुद्दों को हल करने के लिए समान तकनीकों के उपयोग को प्रदर्शित करता है जो बहुत छोटे दायरे में हैं, लेकिन उन नेविस्टार के समानांतर हैं जिनका सामना करना पड़ा। बाहरी स्रोत से डेटा लोड करने के चरणों को दिखाने के लिए डेटा को एक उच्च-संशोधित, उच्च-प्रदर्शन कार्वेट (चित्र 1 देखें) से खींचा गया था, इसे Apache NiFi का उपयोग करके स्वरूपित किया गया था, इसे Apache Kafka के माध्यम से एक स्ट्रीम स्रोत पर धकेल दिया गया था, और इसका उपयोग करके संग्रहीत किया गया था। अतिरिक्त विश्लेषण के लिए Apache HBase।

चित्र 1. 2008 संशोधित 6.8L इंजन के साथ कार्वेट

इस विशिष्ट उदाहरण के लिए, विचाराधीन कार्वेट में सभी मूल कारखाने इंजन घटकों को उच्च प्रदर्शन भागों के पक्ष में बदल दिया गया है। इंजन को खोल में तोड़ दिया गया, सिलेंडर ऊब गए, क्रैंकशाफ्ट और कैंषफ़्ट को बदल दिया गया, और ~ 600 हॉर्सपावर के लक्ष्य का पीछा करते हुए नए पिस्टन और कनेक्टिंग रॉड स्थापित किए गए (चित्र 2 देखें)। इस नए इंजन कॉन्फ़िगरेशन को ठीक से काम करने के लिए, इंजन के सॉफ़्टवेयर को पूरी तरह से बदल दिया गया है। जबकि थ्रॉटल को दबाना काफी अधिक नाटकीय हो गया, एक अनपेक्षित परिणाम यह था कि कार के मूल निदान और त्रुटि सिस्टम अब सटीक नहीं थे और इसलिए उन्हें अक्षम करना पड़ा।

चित्र 2. सभी नए चमकदार आंतरिक सज्जा के साथ इंजन बीच में फिर से बनाएं

कार्वेट के सेंसर डेटा को कैप्चर और विश्लेषण करने के लिए, डेटा को कार से वैकल्पिक एनालिटिक्स और डायग्नोस्टिक्स प्लेटफॉर्म में प्रवाहित करने के लिए एक पथ की आवश्यकता थी। क्लाउड-आधारित स्टोरेज लोकेशन पर सेंसर डेटा आयात करने के लिए पहला कदम लैपटॉप को कार्वेट के डायग्नोस्टिक्स पोर्ट (चित्र 3 देखें) से जोड़ना था। इस परियोजना के लिए S3 का उपयोग किया गया था।

चित्र 3. लैपटॉप यूएसबी के माध्यम से डायग्नोस्टिक्स पोर्ट से जुड़ा है

अगला कदम क्लाउडेरा डेटा प्लेटफॉर्म (सीडीपी), क्लाउडेरा के मल्टी-फंक्शन, मल्टी-एनालिटिक्स प्लेटफॉर्म का उपयोग करना था, ताकि अतिरिक्त विश्लेषण के लिए डेटा को उसके अंतिम स्टोरेज डेस्टिनेशन तक ले जाने के लिए आवश्यक सेवाओं तक पहुंच बनाई जा सके। CDP पब्लिक क्लाउड का उपयोग करते हुए, 3 डेटा हब स्थापित किए गए थे, जिनमें से प्रत्येक प्री-पैकेज्ड, ओपन सोर्स सेवाओं का एक सेट होस्ट कर रहा था (चित्र 4 देखें):

  • पहला सेटअप NiFi था, एक ऐसी सेवा जो डेटा के प्रवाह को स्वचालित और प्रबंधित करने के लिए बनाई गई है। NiFi का उपयोग कार्वेट के डेटा को स्रोत से उसके अंतिम संग्रहण बिंदु तक आयात करने, प्रारूपित करने और स्थानांतरित करने के लिए किया गया था।
  • अगला काफ्का की स्थापना कर रहा था, एक रीयल-टाइम स्ट्रीमिंग सेवा जो स्ट्रीम के रूप में बड़ी मात्रा में डेटा उपलब्ध कराती है। काफ्का डेटा की स्ट्रीम प्रोसेसिंग की क्षमता देता है, जबकि अन्य उपयोगकर्ताओं को डेटा स्ट्रीम की सदस्यता लेने का विकल्प भी देता है। इस उदाहरण में कोई ग्राहक नहीं है; हालांकि, यह एक महत्वपूर्ण अवधारणा है जो इसे स्थापित करने के तरीके के प्रदर्शन के योग्य है।
  • अंतिम सेटअप HBase था, जो एक उच्च-स्केलेबल, कॉलम-ओरिएंटेड ऑपरेशनल डेटाबेस है जो रीयल-टाइम रीड/राइट एक्सेस प्रदान करता है। एक बार डेटा HBase में आयात हो जाने के बाद, फीनिक्स का उपयोग डेटा को क्वेरी और पुनर्प्राप्त करने के लिए किया जाएगा।

चित्र 4. स्रोत से क्वेरी तक कार्वेट डेटा प्रवाह आरेख।

कार्वेट के स्वास्थ्य और प्रदर्शन की निगरानी के लिए सीडीपी का उपयोग करके डायग्नोस्टिक प्लेटफॉर्म का निर्माण एक सफल अभ्यास था। HBase में सेंसर डेटा को प्रारूपित और स्ट्रीम करने के लिए NiFi और Kafka का उपयोग करना अब उन्नत डेटा इंजीनियरिंग और प्रसंस्करण की अनुमति देता है, भले ही डेटा सेट कितना भी बड़ा क्यों न हो।

अगले चरण

यह सब क्रिया में देखने के लिए, कृपया कुछ अलग स्रोतों के लिंक नीचे देखें जो उस प्रक्रिया को प्रदर्शित करते हैं जो बनाई गई थी।

  • वीडियो - अगर आप देखना और सुनना चाहते हैं कि इसे कैसे बनाया गया है, तो 5 मिनट का एक त्वरित वीडियो देखें, जिसमें NiFi, काफ्का चलाने वाले CDP का रीयल-टाइम नेविगेशन दिखाया गया है। और HBase.
  • ट्यूटोरियल - अगर आप इसे अपनी गति से करना चाहते हैं, तो स्क्रीनशॉट के साथ एक विस्तृत वॉकथ्रू देखें और इसे कैसे सेट करें, इसके लिए लाइन दर लाइन निर्देश देखें।
  • MeetUps - अगर आप Cloudera के विशेषज्ञों और यहां तक ​​कि इस कार्वेट के मालिक के साथ सीधे बात करना चाहते हैं, तो कृपया उनकी लाइव प्रस्तुति देखने के लिए एक वर्चुअल मीटअप में शामिल हों। अंत में सीधे प्रश्नोत्तर के लिए समय होगा।
  • सीडीपी उपयोगकर्ता पृष्ठ - अतिरिक्त वीडियो, ट्यूटोरियल, ब्लॉग और घटनाओं सहित उपयोगकर्ताओं के लिए बनाए गए अन्य सीडीपी संसाधनों के बारे में जानने के लिए, लिंक पर क्लिक करें।

  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Cloudera खोज और HBase का उपयोग करके ईमेल अनुक्रमणिका

  2. Hadoop HDFS में NameNode स्वचालित विफलता क्या है?

  3. Hadoop और उसके लाभ में जागरूकता रैक

  4. अपाचे HBase क्या करें और क्या न करें

  5. Hadoop में इनपुटस्प्लिट बनाम ब्लॉक के बीच अंतर