HBase
 sql >> डेटाबेस >  >> NoSQL >> HBase

डिजिटल परिवर्तन एक डेटा यात्रा है जो एज से इनसाइट तक है

डिजिटल परिवर्तन सभी बाजारों और उद्योगों के लिए एक गर्म विषय है क्योंकि यह विस्फोटक विकास दर के साथ मूल्य प्रदान कर रहा है। गौर करें कि मैन्युफैक्चरिंग इंडस्ट्री इंटरनेट ऑफ थिंग्स (IIOT) का मूल्य $161b था, प्रभावशाली 25% विकास दर के साथ, कनेक्टेड कार बाज़ार का मूल्य 2027 तक $225b पर 17% की वृद्धि दर के साथ होगा, या कि पहले तीन महीनों में 2020 में, खुदरा विक्रेताओं को केवल तीन महीनों में दस साल की डिजिटल बिक्री का एहसास हुआ। हालांकि जो कुछ भी लिखा गया है, उसका संबंध सक्षम प्रौद्योगिकी प्लेटफॉर्म (क्लाउड या एज या पॉइंट सॉल्यूशंस जैसे डेटा वेयरहाउस) से है या ऐसे मामलों का उपयोग करना है जो इन लाभों को चला रहे हैं (पूर्वानुमानित रखरखाव, वित्तीय संस्थान की धोखाधड़ी का पता लगाने, या भविष्य कहनेवाला स्वास्थ्य निगरानी के लिए लागू पूर्वानुमानित विश्लेषण) उदाहरण के रूप में) अंतर्निहित डेटा नहीं। लापता अध्याय बिंदु समाधान या उपयोग के मामलों की परिपक्वता यात्रा के बारे में नहीं है। लापता अध्याय डेटा के बारे में है - यह हमेशा डेटा के बारे में है - और, सबसे महत्वपूर्ण बात यह है कि यात्रा डेटा किनारे से कृत्रिम बुद्धि अंतर्दृष्टि तक बुनाई करता है।

यह छह-भाग वाली ब्लॉग श्रृंखला में पहला है जो डेटा यात्रा को किनारे से एआई तक और यात्रा के साथ उत्पन्न होने वाले व्यावसायिक मूल्य डेटा की रूपरेखा तैयार करता है। डेटा यात्रा रैखिक नहीं है, लेकिन यह एक अनंत लूप डेटा जीवनचक्र है - किनारे पर शुरुआत करना, डेटा प्लेटफ़ॉर्म के माध्यम से बुनाई, और परिणामस्वरूप व्यापार अनिवार्य अंतर्दृष्टि वास्तविक व्यापार-महत्वपूर्ण समस्याओं पर लागू होती है जिसके परिणामस्वरूप नई डेटा-आधारित पहल होती है। हमने इस यात्रा को पांच अलग-अलग चरणों में सरल बनाया है, जिसमें डेटा सुरक्षा और शासन के लिए एक सामान्य छठे चरण की बात की गई है। छह चरण हैं:

  1. डेटा संग्रह - किनारे पर डेटा अंतर्ग्रहण और निगरानी (चाहे किनारे औद्योगिक सेंसर हों या ईंट और मोर्टार खुदरा स्टोर में लोग हों)
  2. डेटा संवर्धन - डेटा पाइपलाइन प्रसंस्करण, एकत्रीकरण और प्रबंधन आगे परिशोधन के लिए डेटा तैयार करने के लिए
  3. रिपोर्टिंग - व्यावसायिक उद्यम अंतर्दृष्टि प्रदान करना (बिक्री विश्लेषण और पूर्वानुमान, बाजार अनुसंधान, उदाहरण के रूप में बजट बनाना)
  4. सेवारत - आवश्यक व्यवसाय संचालन को नियंत्रित करना और चलाना (एटीएम लेनदेन, खुदरा चेकआउट, या उत्पादन निगरानी) 
  5. भविष्य कहनेवाला विश्लेषण - एआई और मशीन लर्निंग पर आधारित प्रेडिक्टिव एनालिटिक्स (धोखाधड़ी का पता लगाना, प्रेडिक्टिव मेंटेनेंस, डिमांड बेस्ड इन्वेंट्री ऑप्टिमाइजेशन उदाहरण के तौर पर)
  6. सुरक्षा और शासन - संपूर्ण डेटा जीवनचक्र में सुरक्षा, प्रबंधन और शासन तकनीकों का एक एकीकृत सेट

चित्र 1:एंटरप्राइज़ डेटा जीवनचक्र

डेटा यात्रा को स्पष्ट करने के लिए, हमने एक बहुत ही प्रासंगिक और स्थायी रूप से दिमाग वाले निर्माण विषय को चुना है - एक इलेक्ट्रिक कार का निर्माण, जिसे चुना गया है क्योंकि निर्माण कार्य आमतौर पर प्रकृति में क्रांतिकारी होते हैं (उच्च डिजिटल परिपक्वता सबसे अद्यतित डेटा टूल को तैनात करते हैं) , "पुराने-स्कूल विकासवादी" (कम परिपक्वता की) की तुलना में और इन कारों में से अधिकांश को कनेक्टेड मोबिलिटी प्लेटफॉर्म के रूप में बनाया गया है, जो कार को परिवहन से अधिक बनाता है, लेकिन डेटा-संचालित ज्ञान और अंतर्दृष्टि के लिए एक मंच है। यह कहानी दिखाएगी कि कैसे डेटा एकत्र किया जाता है, समृद्ध किया जाता है, संग्रहीत किया जाता है, परोसा जाता है, और फिर क्लौडेरा डेटा प्लेटफ़ॉर्म का उपयोग करके कार की निर्माण प्रक्रिया में घटनाओं की भविष्यवाणी करने के लिए उपयोग किया जाता है।

इस कहानी में इलेक्ट्रिक वाहनों की एक नकली कनेक्टेड वाहन निर्माण कंपनी दिखाई देगी (जिसका मूल नाम है) द इलेक्ट्रिक कार कंपनी (ईसीसी)। ECC दुनिया भर में स्थित कई विनिर्माण कारखानों का संचालन करती है, अपनी कारों के साथ-साथ इलेक्ट्रिक मोटर्स, बैटरी और सहायक भागों सहित कई महत्वपूर्ण घटकों का निर्माण करती है। प्रत्येक कारखाने पर अलग-अलग घटकों के निर्माण का आरोप लगाया जाता है, जिसमें अंतिम असेंबली कुछ चुनिंदा, रणनीतिक रूप से स्थित कारखानों में होती है।

डेटा संग्रहण चुनौती

निर्माण प्रक्रिया में सभी कारखानों से सभी डेटा के संग्रह का प्रबंधन करना एक महत्वपूर्ण उपक्रम है जो कुछ चुनौतियों को प्रस्तुत करता है:

  • आईओटी डेटा की मात्रा और विविधता का आकलन करने में कठिनाई: कई कारखाने विभिन्न प्रोटोकॉल और डेटा प्रारूपों के साथ कई विक्रेताओं से आधुनिक और विरासत निर्माण संपत्ति और उपकरणों दोनों का उपयोग करते हैं। यद्यपि नियंत्रकों और उपकरणों को ओटी प्रणाली से जोड़ा जा सकता है, वे आमतौर पर इस तरह से जुड़े नहीं होते हैं कि वे आसानी से आईटी सिस्टम के साथ भी डेटा साझा कर सकें। कनेक्टेड मैन्युफैक्चरिंग और उभरते हुए IoT उपयोग के मामलों को सक्षम करने के लिए, ECC को एक ऐसे समाधान की आवश्यकता होती है जो किनारे से सभी प्रकार की विविध डेटा संरचनाओं और स्कीमाओं को संभाल सके, डेटा को सामान्य कर सके, और फिर इसे बिग डेटा एप्लिकेशन सहित किसी भी प्रकार के डेटा उपभोक्ता के साथ साझा कर सके।
  • रीयल-टाइम डेटा की जटिलता को प्रबंधित करना: ECC के लिए भविष्य कहनेवाला विश्लेषण उपयोग के मामलों को चलाने के लिए, डेटा प्रबंधन प्लेटफ़ॉर्म को स्ट्रीमिंग डेटा पर रीयल-टाइम एनालिटिक्स को सक्षम करने की आवश्यकता होती है। प्लेटफ़ॉर्म को तुरंत अंतर्दृष्टि और कार्रवाई प्रदान करने के लिए वास्तविक समय या निकट-वास्तविक समय में स्ट्रीमिंग डेटा को प्रभावी ढंग से निगलना, संग्रहीत करना और संसाधित करना होगा।
  • स्वतंत्र साइलो से डेटा मुक्त करना: विनिर्माण मूल्य श्रृंखला इनाम के भीतर विशिष्ट प्रक्रियाएं (नवाचार प्लेटफॉर्म, क्यूएमएस, एमईएस, आदि) अद्वितीय मौन समाधानों के अनुरूप डेटा स्रोतों और डेटा प्रबंधन प्लेटफार्मों को अलग करती हैं। ये आला समाधान उद्यम मूल्य को सीमित करते हैं, व्यापार को विभाजित करते हुए और सहयोग के अवसरों को सीमित करते हुए, अंतर्दृष्टि क्रॉस-एंटरप्राइज़ डेटा के केवल एक अंश पर विचार कर सकते हैं। सही प्लेटफॉर्म में मूल्य श्रृंखला के सभी बिंदुओं से स्ट्रीमिंग डेटा को निगलना, स्टोर करना, प्रबंधित करना, विश्लेषण करना और संसाधित करने की क्षमता होनी चाहिए, इसे डेटा इतिहासकारों, ईआरपी, एमईएस और क्यूएमएस स्रोतों के साथ जोड़ना, और इसे कार्रवाई योग्य अंतर्दृष्टि में लाभ उठाना चाहिए। ये अंतर्दृष्टि डैशबोर्ड, रिपोर्ट और भविष्य कहनेवाला विश्लेषण प्रदान करेंगी जो उच्च मूल्य के विनिर्माण उपयोग के मामलों को संचालित करते हैं।
  • किनारे को संतुलित करना: किनारे पर और क्लाउड में डेटा प्रोसेसिंग के बीच सही संतुलन को समझना एक चुनौती है, और यही कारण है कि संपूर्ण डेटा जीवनचक्र पर विचार करने की आवश्यकता है। उद्योग में एक परेशान करने वाली प्रवृत्ति है क्योंकि कंपनियां यह महसूस किए बिना एक या दूसरे पर ध्यान केंद्रित करना चुनती हैं कि वे दोनों कर सकते हैं और करना चाहिए। लंबी अवधि के विश्लेषण और बड़े पैमाने पर परिनियोजन के लिए क्लाउड कंप्यूटिंग के अपने लाभ हैं, लेकिन यह बैंडविड्थ द्वारा सीमित है और अक्सर केवल एक छोटे से हिस्से का उपयोग करते हुए बड़ी मात्रा में डेटा एकत्र करता है। किनारे का मूल्य उस किनारे पर कार्य करने में निहित है जहां इसका शून्य विलंबता के साथ सबसे अधिक प्रभाव पड़ता है, इससे पहले कि यह उच्च-प्रदर्शन प्रसंस्करण के लिए क्लाउड को सबसे मूल्यवान डेटा भेजता है।

क्लौडेरा डेटा प्लेटफ़ॉर्म का उपयोग करके डेटा संग्रहण

चरण 1:अपरिष्कृत डेटा एकत्रित करना

ईसीसी के निर्माण कार्यों के डेटा में कई स्रोत शामिल हैं - औद्योगिक रोबोट, बॉडी-इन-व्हाइट फॉस्फेट कोटिंग प्रक्रिया टैंक (तापमान, एकाग्रता या पुनःपूर्ति), आपूर्ति श्रृंखला टेलीमैटिक्स, या मास्टर पार्ट जानकारी, आदि। इस विशिष्ट उदाहरण के लिए, कच्चा हिस्सा Apache NiFi को फीड करने की तैयारी में ECC के पांच कारखानों में से प्रत्येक के लिए मास्टर डेटा एकत्र किया गया है (चित्र 2 देखें)।

चरण 2:प्रत्येक फ़ैक्टरी के लिए डेटा स्रोत कॉन्फ़िगर करें

डेटा संग्रह को इस कच्चे डेटा को पुनः प्राप्त करने के लिए क्लाउडेरा के डेटा फ्लो अनुभव (अपाचे निफ़ी द्वारा संचालित) का उपयोग करके चित्रित किया जाएगा और इसे वास्तविक दुनिया के परिदृश्य के समान सटीक रूप से अलग-अलग फैक्ट्री स्ट्रीम (अपाचे काफ्का द्वारा प्रबंधित) में विभाजित किया जाएगा (चित्र 2 देखें)। उदाहरण को सरल रखने के लिए, फ़ैक्टरियों द्वारा उत्पन्न प्रत्येक भाग के लिए निम्न डेटा विशेषता टैग चुने गए: 

  • Factory ID
  • मशीन आईडी
  • निर्मित टाइमस्टैम्प
  • भाग संख्या
  • सीरियल नंबर

चित्र 2:डेटा संग्रह प्रवाह आरेख।

चरण 3:प्रत्येक कारखाने से डेटा प्रवाह की निगरानी करें

सभी डेटा अब अलग-अलग काफ्का धाराओं में प्रवाहित होने के साथ, एक डेटा आर्किटेक्ट प्रत्येक कारखाने से डेटा थ्रूपुट की निगरानी कर रहा है और साथ ही यह सुनिश्चित करने के लिए आवश्यक गणना और भंडारण संसाधनों को समायोजित कर रहा है कि प्रत्येक कारखाने के पास प्लेटफ़ॉर्म में डेटा भेजने के लिए आवश्यक थ्रूपुट है।

चरण 4:Apache Kafka स्ट्रीम से डेटा कैप्चर करें

काफ्का सभी फ़ैक्टरी डेटा स्ट्रीम को कैप्चर करता है और इसे प्रोसेसर में एकत्र करता है जो एक ऑपरेशनल डेटाबेस द्वारा संचालित आवश्यक व्यावसायिक संचालन को नियंत्रित करने और चलाने में उपयोग के लिए फ़िल्टर और समृद्ध करेगा, या एंटरप्राइज़ डेटा वेयरहाउस के माध्यम से व्यावसायिक उद्यम अंतर्दृष्टि प्रदान करेगा या उन्नत एनालिटिक्स में उपयोग किया जाएगा।

ECC ने हाल ही में अपनी इलेक्ट्रिक मोटर के एक उन्नत संस्करण का उत्पादन शुरू किया है जिसका उत्पादन केवल फ़ैक्टरी 5 में किया जा रहा है, इस डेटा का उपयोग डेटा जीवनचक्र में अगले चरणों के चित्रण के रूप में किया जाएगा

चरण 5:डेटा को संग्रहण समाधान में पुश करें

चूंकि ईसीसी निर्माण और गुणवत्ता इंजीनियर इस मोटर के परिनियोजन और क्षेत्र के उपयोग की बारीकी से निगरानी करना चाहते हैं, इसलिए विशिष्ट विनिर्माण ट्रैसेबिलिटी डेटा को एक अलग मार्ग में फ़िल्टर किया जाता है और अपाचे हाइव में अपनी तालिका में सहेजा जाता है। यह इंजीनियरों को बाद में डेटा के विरुद्ध क्लाउडेरा डेटा वेयरहाउस में तदर्थ प्रश्नों को चलाने के साथ-साथ एंटरप्राइज़ डेटा वेयरहाउस में अन्य प्रासंगिक डेटा से जुड़ने की अनुमति देगा, जैसे कि मरम्मत के आदेश या ग्राहक प्रतिक्रिया जैसे अग्रिम उपयोग के मामलों का उत्पादन करने के लिए वारंटी, भविष्य कहनेवाला रखरखाव दिनचर्या, या उत्पाद विकास इनपुट।

वैकल्पिक रूप से, यदि आवश्यक व्यावसायिक संचालन को नियंत्रित करना और चलाना वांछित है, तो संसाधित टाइमस्टैम्प के साथ संपूर्ण डेटासेट अपाचे HBase संचालित क्लौडेरा ऑपरेशनल डेटाबेस में भेजा जाएगा। यह डेटा ईसीसी के लिए उनके इन्वेंट्री प्लेटफॉर्म को चलाने के लिए नींव के रूप में काम करेगा, जिसके लिए निरंतर पढ़ने/लिखने के संचालन के उपयोग की आवश्यकता होगी क्योंकि इन्वेंट्री को प्रति दिन हजारों बार जोड़ा और हटाया जा सकता है। चूंकि HBase को इस प्रकार के डेटा लेनदेन को बड़े पैमाने पर संभालने के लिए डिज़ाइन किया गया है, यह इस अनूठी चुनौती के लिए सबसे अच्छा समाधान है।

निष्कर्ष

यह सरल चित्रण डेटा अंतर्ग्रहण को सही तरीके से प्राप्त करने के महत्व को दर्शाता है, क्योंकि यह परिचालन डेटाबेस, एंटरप्राइज़ डेटा वेयरहाउस या उन्नत विश्लेषणात्मक मशीन लर्निंग प्रेडिक्टिव एनालिटिक्स दोनों से दी गई अंतर्दृष्टि के लिए मूलभूत है। "इसे सही करने" में मूल्य में किसी भी उद्यम स्रोत से डेटा का उपयोग करना शामिल है, इस प्रकार डेटा साइलो को तोड़ना, सभी डेटा का उपयोग करना चाहे वह स्ट्रीमिंग हो या बैच-उन्मुख हो, और उस डेटा को वांछित डाउन स्ट्रीम अंतर्दृष्टि का उत्पादन करने के लिए सही जगह पर भेजने की क्षमता।

सीडीपी, ईसीसी डेटा इंजीनियरों और व्यवसाय उपयोगकर्ताओं की अन्य लाइन का उपयोग करके इन्वेंट्री प्रबंधन से लेकर मशीन लर्निंग तक के पूर्वानुमान से लेकर विभिन्न कार्यों के लिए एकत्रित डेटा का उपयोग करना शुरू कर सकते हैं। चूंकि क्लौडेरा डेटा फ्लो किसी भी उद्यम स्रोत से रीयल-टाइम डेटा अंतर्ग्रहण को बढ़ावा देता है, इसलिए इसे विभिन्न प्रोग्रामिंग भाषाओं और मालिकाना डेटा संग्रह पद्धतियों के व्यापक ज्ञान के बिना विस्तारित और बनाए रखा जा सकता है। यदि अद्वितीय मुद्दों का सामना करना पड़ता है, तो इंजीनियर सही मायने में, सुक्ष्म नियंत्रण के लिए अपनी प्रक्रियाएँ भी बना सकते हैं।

अगले ब्लॉग की तलाश करें जो डेटा संवर्धन में तल्लीन होगा और यह डेटा जीवनचक्र कहानी का समर्थन कैसे करता है। इसके अलावा, इस कहानी को डेटा-संचालित डेमो के साथ संवर्धित किया जाएगा जो डेटा जीवनचक्र के प्रत्येक चरण के माध्यम से डेटा यात्रा को दर्शाता है।

अधिक डेटा संग्रहण संसाधन

यह सब क्रिया में देखने के लिए, कृपया अधिक डेटा संग्रह जानने के लिए नीचे दिए गए संबंधित लिंक पर क्लिक करें:

  • वीडियो - यदि आप देखना और सुनना चाहते हैं कि इसे कैसे बनाया गया, तो लिंक पर वीडियो देखें।
  • ट्यूटोरियल - यदि आप इसे अपनी गति से करना चाहते हैं, तो स्क्रीनशॉट के साथ एक विस्तृत वॉकथ्रू देखें और इसे कैसे सेट अप करें और कैसे निष्पादित करें, इसके लाइन-दर-लाइन निर्देश देखें।
  • Meetup - अगर आप Cloudera के विशेषज्ञों से सीधे बात करना चाहते हैं, तो लाइव स्ट्रीम प्रस्तुति देखने के लिए कृपया वर्चुअल मीटअप में शामिल हों। अंत में सीधे प्रश्नोत्तर के लिए समय होगा।
  • उपयोगकर्ता - उपयोगकर्ताओं के लिए विशिष्ट तकनीकी सामग्री देखने के लिए, लिंक पर क्लिक करें।

  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. कैसे करें:CDP डेटा हब का उपयोग करके S3 से अनुक्रमणिका डेटा

  2. Hadoop Partitioner - MapReduce Partitioner की मूल बातें जानें

  3. HBase के साथ बातचीत करने के लिए Hive का उपयोग करना, भाग 1

  4. क्लाउड वातावरण में SSD पर बेंचमार्क Apache HBase बनाम Apache Cassandra

  5. Apache HBase क्षेत्र विभाजन और विलय