वर्तमान में, कई क्लौडेरा ग्राहकों सहित कई उद्यम मशीन लर्निंग (एमएल) के साथ प्रयोग कर रहे हैं और चुनौतियों की एक विस्तृत श्रृंखला से निपटने के लिए मॉडल बना रहे हैं। जबकि आज, डैशबोर्ड और आंतरिक बीआई उद्देश्यों के लिए कई मॉडलों का उपयोग किया जाता है, उद्यम नेताओं के एक छोटे और तेजी से बढ़ते समूह ने व्यवसाय स्वचालन, अनुकूलन और उत्पाद नवाचार के लिए एमएल की क्षमता का एहसास करना शुरू कर दिया है। इस ब्लॉग पोस्ट में हम बाद में गोता लगाएंगे- विशेष रूप से, कैसे व्यवसाय की लाइनें अपने डेटा वैज्ञानिकों को वास्तविक समय की व्यावसायिक समस्याओं को हल करने के लिए एप्लिकेशन इंजीनियरों और अन्य हितधारकों के साथ काम करने के लिए पुन:उन्मुख कर रही हैं। ये उपयोग के मामले उद्योग और व्यवसाय की महत्वपूर्णता में भिन्न होते हैं और चौड़ाई और गहराई में बढ़ रहे हैं क्योंकि कंपनियां सीखती हैं कि उनके पास मौजूद डेटा के साथ कितना कुछ किया जा सकता है।
इन उपयोग मामलों के उदाहरणों में शामिल हैं:
- एक हेल्थकेयर लीडर, Cerner, मशीन लर्निंग मॉडल का उपयोग करके सेप्सिस की पहचान करने के लिए रोगियों के सेंसर डेटा का उपयोग करता है और डॉक्टरों को सक्रिय रूप से सूचित करता है ताकि वे 6 घंटे के भीतर इस बीमारी का निदान और उपचार कर सकें। इलाज योग्य है
- वित्तीय सेवाएं कंपनियां रीयल टाइम में धोखाधड़ी वाले लेन-देन का पता लगाने के लिए मशीन लर्निंग का इस्तेमाल कर रही हैं और रीइन्फोर्समेंट लर्निंग के लिए ग्राहकों से रीयल-टाइम फीडबैक का इस्तेमाल कर रही हैं
- रेलरोड कंपनियां लंबी दूरी की मालगाड़ियां विशेष स्टेशनों से गुजरती हैं जहां वे हजारों उच्च रिज़ॉल्यूशन वाली तस्वीरें लेती हैं और विफल भागों की पहचान करने के लिए मशीन लर्निंग को लागू करती हैं। फिर वे ट्रेन को पुर्जों और तकनीशियनों के साथ मरम्मत की सुविधा पर पहुंचने के लिए शेड्यूल करते हैं - स्टॉप को फॉर्मूला वन पिट स्टॉप के समान बनाते हैं
- उपयोगिताएँ विद्युत वितरण ग्रिड में संभावित समस्याओं की पहचान करने और सक्रिय रूप से रखरखाव शेड्यूल करने के लिए स्मार्ट-मीटर डेटा का उपयोग कर रहे हैं
- मीडिया कंपनियां आप जो देख रहे हैं उसके आधार पर वास्तविक समय में प्रासंगिक सामग्री को पहचानने और प्रदान करने के लिए मशीन लर्निंग का उपयोग कर रहे हैं
- विज्ञापन प्रौद्योगिकी और ईकॉमर्स कंपनियां विभिन्न लक्षित दर्शकों के लिए अपने प्रस्तावों की प्रासंगिकता सुनिश्चित करने के लिए इन क्षमताओं का सबसे लंबे समय से उपयोग कर रहे हैं
एक बार जब किसी समस्या की पहचान हो जाती है और एक व्यावसायिक समाधान में निवेश करने का निर्णय लिया जाता है, तो डेटा वैज्ञानिक एल्गोरिदम बनाने के लिए विभिन्न एमएल टूल का उपयोग करके डेटा का अध्ययन करेंगे और उन एल्गोरिदम का लाभ उठाने वाले एप्लिकेशन बनाने के लिए सॉफ़्टवेयर इंजीनियरों के साथ काम करेंगे।
उनकी जरूरतों के आधार पर, डेटा उनके डेटा वेयरहाउस में या उनके परिचालन डेटाबेस के अंदर रह सकता है। Cloudera के कई ग्राहक अपने एल्गोरिदम को प्रशिक्षित करने के लिए Cloudera Machine Learning (CML) के अंदर Spark &SparkMLlib का उपयोग करेंगे। CML का उपयोग करने से तेज़ ML वर्कफ़्लोज़ के लिए बनाए गए एकल, सुरक्षित और शासित प्लेटफ़ॉर्म में मॉडल के संचालन के लिए निर्बाध वर्कफ़्लोज़ सक्षम होते हैं। सीएमएल में उत्पादन कार्यप्रवाह विकसित करने के हमारे दृष्टिकोण के बारे में अधिक जानने के लिए शामिल हों यह वेबिनार।
प्रशिक्षण एल्गोरिदम को परिचालन डेटाबेस में किया जा सकता है
प्रशिक्षण एल्गोरिदम के लिए डेटा वेयरहाउस का उपयोग करने के प्राथमिक कारणों में से एक मौजूदा परिचालन डेटाबेस में लोड जोड़ने से बचना है और इस तरह परिचालन कार्यभार के एसएलए को प्रभावित करना है। हालाँकि, क्लोडेरा के ऑपरेशनल डेटाबेस (OpDB) के मामले में, उपयोगकर्ता संसाधनों की मात्रा और मशीन सीखने वाले उपयोगकर्ताओं द्वारा सिस्टम पर डाले जा सकने वाले भार पर कोटा और सीमा निर्धारित कर सकते हैं। यह डेटा वैज्ञानिकों को दूसरी प्रति बनाने की लागत के बिना वास्तविक समय के डेटा का उपयोग करने की अनुमति देते हुए परिचालन कार्यभार की रक्षा करता है।
क्लौडेरा के ओपीडीबी का उपयोग करते समय, ग्राहक अक्सर ऑपरेशनल डेटाबेस के भीतर डेटा को क्वेरी करने के लिए स्पार्क का उपयोग करते हैं, जिससे डेटा की खोज करने से पहले उसे लोड करने की आवश्यकता समाप्त हो जाती है और मशीन सीखने के उद्देश्यों के लिए प्रशिक्षण के लिए इसका उपयोग किया जाता है।
ML एल्गोरिथम को एप्लिकेशन स्तर की उपलब्धता, लचीलापन और प्रतिक्रियात्मकता आवश्यकताओं को पूरा करना चाहिए
एमएल आधारित एल्गोरिथम का विकास और प्रशिक्षण आमतौर पर एप्लिकेशन को विकसित करने के संयोजन के साथ किया जाता है (यह मानते हुए कि यह करने योग्य है, पहले ही स्थापित हो चुका है)। एक अंतर्निहित डेटाबेस के लिए विशिष्ट अनुप्रयोग आवश्यकताओं में अक्सर शामिल होते हैं:
- सब 1ms प्रतिक्रिया समय
- हार्डवेयर आउटेज (या उच्च उपलब्धता लेकिन उच्च उपलब्धता कम पसंद की जाती है) की स्थिति में निरंतर उपलब्धता
- स्केल-आउट करने की क्षमता
- उच्च समवर्ती (1,000 अनुरोध / सेकंड)
किसी एप्लिकेशन के हिस्से के रूप में मशीन लर्निंग को तैनात करते समय, उपलब्धता, लचीलापन और प्रतिक्रियात्मकता पर एप्लिकेशन आवश्यकताओं को पूरा किया जाना चाहिए। इसके अलावा, कई अतिरिक्त मशीन लर्निंग विशिष्ट आवश्यकताओं को आवेदन पर लगाया जाता है:
- निर्णयों का ऑडिट करने की क्षमता
- मॉडल/एल्गोरिदम के संस्करण की क्षमता
- निरंतर सीखने के लिए डेटा वृद्धि का समर्थन करने की क्षमता (इस्तेमाल किए गए एल्गोरिदम के आधार पर)
क्लौडेरा का ऑपरेशनल डेटाबेस, दोनों तरह की ज़रूरतों को पूरा कर सकता है
इन आवश्यकताओं को पूरा करने के लिए, ग्राहक आमतौर पर मशीन लर्निंग मॉडल के आउटपुट को एक टेबल में समतल कर देंगे - अनिवार्य रूप से संपूर्ण इनपुट स्पेस के लिए सभी आउटपुट की पूर्व-कंप्यूटिंग। यह अंतर्निहित डेटाबेस के लिए अतिरिक्त आवश्यकताएं बनाता है:
- एक टेबल बनाने की क्षमता जो सैकड़ों गीगाबाइट या टेराबाइट्स में हो (इनपुट पैरामीटर के आकार और संख्या के आधार पर)
- प्रबंधन की सरलता (व्यवस्थापकों को शार्डिंग आदि का प्रबंधन करने के लिए बाध्य न करें)
क्लौडेरा के ऑपरेशनल डेटाबेस के नजरिए से, मशीन लर्निंग मॉडल को आसानी से एक टेबल के रूप में दर्शाया जाता है (और कई ग्राहकों ने यही तरीका अपनाया है):
- प्राथमिक कुंजी आउटपुट की पहचान करने के लिए आवश्यक इनपुट के सेट से बनी होती है (चाहे आवश्यक इनपुट की संख्या कुछ भी हो)
- कॉलम:मशीन लर्निंग मॉडल अनुशंसा (आउटपुट)
- कॉलम:मॉडल संस्करण
एक ऑडिट क्षमता भी एक टेबल की तरह दिखती है:
- प्राथमिक कुंजी आउटपुट की पहचान करने के लिए आवश्यक इनपुट के सेट से बनी होती है (चाहे आवश्यक इनपुट की संख्या कुछ भी हो)
- कॉलम:आपने यह आउटपुट किसे दिया (जैसे ग्राहक आईडी)
- कॉलम:क्या आउटपुट दिया गया
- कॉलम:किस मॉडल संस्करण का उपयोग किया गया था
- कॉलम:कौन सा वैकल्पिक उत्तर बेहतर होता (संवर्धन)
ऑगमेंटेशन मैन्युअल रूप से या प्रोग्रामेटिक रूप से किया जा सकता है (अर्थात, जब कोई क्रेडिट कार्ड कंपनी आपको एक लेनदेन सत्यापित करने के लिए ईमेल करती है - वे डेटा वृद्धि कर रहे हैं)। संवर्धित की गई इस ऑडिट तालिका का उपयोग डेटाबेस में इन-प्लेस सुदृढीकरण सीखने के लिए किया जा सकता है या डेटा वेयरहाउस में लोड किया जा सकता है।
चूंकि डेटा डेटाबेस में है, मॉडल अपडेट किसी भी एप्लिकेशन डाउन-टाइम के साथ किया जा सकता है।
स्केलिंग के नजरिए से, Cloudera का ऑपरेशनल डेटाबेस Apache HBase और Apache फीनिक्स पर बनाया गया है - ये दोनों ही बिना किसी समस्या के सैकड़ों टेराबाइट्स वाली टेबल को हैंडल करने के लिए सिद्ध हुए हैं।
अपना अगला एमएल आधारित ऐप बनाने के लिए सार्वजनिक क्लाउड पर क्लौडेरा डेटा प्लेटफ़ॉर्म के भीतर क्लौडेरा के ऑपरेशनल डेटाबेस को चेकआउट करें।