एक खुला मानक बनाना:अपाचे एटलस का उपयोग करके मशीन लर्निंग गवर्नेंस

मशीन लर्निंग (एमएल) आधुनिक व्यवसायों के विकास और आज प्रतिस्पर्धी बने रहने के लिए सबसे महत्वपूर्ण क्षमताओं में से एक बन गया है। आंतरिक प्रक्रियाओं को स्वचालित करने से लेकर उपभोग किए गए लगभग हर उत्पाद के पीछे डिजाइन, निर्माण और विपणन प्रक्रियाओं को अनुकूलित करने तक, एमएल मॉडल ने हमारे काम और व्यक्तिगत जीवन के लगभग हर पहलू में प्रवेश किया है - और व्यवसायों के लिए, दांव कभी भी अधिक नहीं रहा है। एमएल को एक मुख्य योग्यता के रूप में अपनाने में विफल रहने से प्रमुख प्रतिस्पर्धी नुकसान होंगे जो अगले बाजार के नेताओं को परिभाषित करेंगे।

इस वजह से, व्यापार और प्रौद्योगिकी के नेताओं को अपने पूरे संगठन में एमएल मॉडल लागू करने की आवश्यकता होती है, जिसमें उपयोग के मामलों का एक बड़ा स्पेक्ट्रम होता है। हालांकि, तात्कालिकता की यह भावना, बढ़ती नियामक जांच के साथ, नई और अनूठी शासन चुनौतियां पैदा करती है जिन्हें प्रबंधित करना वर्तमान में मुश्किल है। उदाहरण के लिए:मेरे मॉडल अंतिम ग्राहकों को प्रदान की जाने वाली सेवाओं को कैसे प्रभावित कर रहे हैं? क्या मैं अब भी सरकारी और आंतरिक दोनों विनियमों का अनुपालन कर रहा हूँ? मेरे सुरक्षा नियम उत्पादन में मॉडल में कैसे परिवर्तित होंगे?

नियामक या कानूनी चिंताओं से परे, मशीन लर्निंग के लिए शासन प्रक्रियाओं और प्रक्रियाओं के कई कारण हैं। उदाहरणों में उत्पादकता बढ़ाने के तरीके (जैसे मॉडल और सुविधाओं जैसी संपत्तियों का पुन:उपयोग करना), कई अलग-अलग व्यावसायिक लाइनों में मॉडल को नियंत्रित करना और बनाए रखना शामिल है ताकि यह सुनिश्चित किया जा सके कि व्यावसायिक-महत्वपूर्ण एप्लिकेशन वही कर रहे हैं जो वे करने का इरादा रखते हैं (या जो नहीं हैं उन्हें ढूंढना) , और बहिष्कृत संपत्तियों सहित मॉडलों और पूर्वानुमानों का इतिहास देखना।

इन चुनौतियों से निपटने में, यह परिभाषित करने योग्य है कि कौन से मॉडल और विशेषताएं अवधारणात्मक रूप से हैं (चित्र 1 देखें)। कई अलग-अलग परिभाषाएँ मौजूद हैं, लेकिन आम तौर पर, एक मॉडल कोई भी स्व-निहित पैकेज होता है जो इनपुट डेटा से गणना की गई सुविधाओं को लेता है और एक भविष्यवाणी (या स्कोर) और मेटाडेटा उत्पन्न करता है। यह पैकेज कई रूप ले सकता है लेकिन इसमें हमेशा गणितीय प्रतिनिधित्व, कोड, व्यावसायिक तर्क और प्रशिक्षण डेटा शामिल होता है। सिस्टम या उपयोगकर्ता डाउनस्ट्रीम में मॉडल के पूर्वानुमानों का उपयोग करते हैं।

कई उद्यम एमएल मॉडल के बुनियादी ढांचे को विभिन्न आकारों और परिपक्वता पर संचालित करते हैं कि उन्हें अपने मॉडल को नियंत्रित करने में मदद करने के लिए उपकरणों की आवश्यकता होती है। अंततः, एमएल गवर्नेंस की जरूरतों को निम्नलिखित प्रमुख क्षेत्रों में डिस्टिल्ड किया जा सकता है:दृश्यता; और मॉडल व्याख्यात्मकता, व्याख्यात्मकता, और पुनरुत्पादकता।

चित्र 1

टीमों और संगठनों में मॉडलों और सुविधाओं की दृश्यता

मॉडल गवर्नेंस के लिए एक बुनियादी आवश्यकता टीमों को यह समझने में सक्षम बनाना है कि उनके संगठनों में मशीन लर्निंग को कैसे लागू किया जा रहा है। इसके लिए मॉडलों और विशेषताओं की एक विहित सूची की आवश्यकता होती है। इस तरह के कैटलॉग के अभाव में, कई संगठन अपने मॉडल और विशेषताओं से अनजान होते हैं कि उन्हें कहाँ तैनात किया जाता है, वे क्या कर रहे हैं, आदि। इससे पुनर्विक्रय, मॉडल असंगतता, पुनर्गणना सुविधाएँ और अन्य अक्षमताएँ होती हैं।

मॉडल व्याख्या योग्यता, व्याख्यात्मकता, और प्रतिलिपि प्रस्तुत करने योग्यता

मॉडल को अक्सर ब्लैक बॉक्स के रूप में देखा जाता है:डेटा अंदर जाता है, कुछ होता है, और एक भविष्यवाणी सामने आती है। यह गैर-पारदर्शिता कई स्तरों पर चुनौतीपूर्ण है और इसे अक्सर शिथिल रूप से संबंधित शब्दों में दर्शाया जाता है जैसे:

व्याख्यात्मकता :मानव शब्दों में एक एमएल मॉडल के आंतरिक यांत्रिकी का विवरण
व्याख्यात्मकता :ए) मॉडल इनपुट, सुविधाओं और आउटपुट के बीच संबंध को समझने की क्षमता, और बी) इनपुट में परिवर्तन की प्रतिक्रिया की भविष्यवाणी करने की क्षमता।
पुनरुत्पादकता :एक ही इनपुट के लिए एक मॉडल के आउटपुट को लगातार फैशन में पुन:पेश करने की क्षमता।

इन सभी के लिए सामान्य कार्यक्षमता की आवश्यकता होती है, जिसमें स्रोत डेटा में एक टाई, मॉडल के आंतरिक कोड और प्रशिक्षण डेटा की स्पष्ट समझ, और मॉडल की जांच और विश्लेषण करने के लिए अन्य तरीके शामिल हैं।

मॉडल मेटाडेटा एक उदाहरण के साथ

ऊपर परिभाषित शासन समस्याओं के समाधान के लिए, आइए एक उदाहरण के बारे में सोचकर शुरुआत करें। एक खाद्य वितरण वेबसाइट पर विचार करें। डिलीवरी के समय का अनुमान लगाने के लिए कंपनी मशीन लर्निंग का लाभ उठाना चाहती है।

प्रशिक्षण डेटा सेट में पिछली डिलीवरी के इवेंट लॉग होते हैं, जिसमें अतीत में की गई प्रत्येक डिलीवरी के लिए डिलीवरी का समय होता है। इस डेटा का उपयोग किसी मॉडल को भावी डिलीवरी समय का अनुमान लगाने के लिए प्रशिक्षित करने के लिए किया जाता है।

इवेंट लॉग कुछ इस तरह दिख सकता है:

भोजन को loc1 से उठाकर loc2 तक पहुंचाने के लिए सुबह 10 बजे एक आदेश दिया गया था। कूरियर ने इसे 10:15 बजे रेस्तरां से उठाया और इसे 10:55 बजे वितरित किया, ऑर्डर देने से लेकर डिलीवरी तक कुल 55 मिनट लगे

मान लें कि loc1 और loc2 सड़क के पते हैं। इसे यहाँ संक्षिप्त और पढ़ने में आसान रखने के लिए संक्षिप्त किया गया है।

इवेंट लॉग HBase में संग्रहीत हैं। मॉडल विकास के लिए इंजीनियरिंग वास्तुकला इस प्रकार है:

डेटा इंजीनियर समस्या को हल करने के लिए उपयोग किए जाने वाले इवेंट लॉग की टाइम विंडो की पहचान करते हैं। पहचानी गई समय विंडो के साथ अपरिष्कृत ईवेंट लॉग को पार्स करके एक नई संरचित हाइव तालिका बनाई जाती है।
फीचर इंजीनियर (यह डेटा वैज्ञानिकों, या एमएल इंजीनियरों के भीतर एक भूमिका हो सकती है) नई सुविधाओं की पहचान और विकास करता है:
- रश ऑवर फ़ीचर:यह पहचानने के लिए एक फ़ंक्शन है कि क्या किसी स्थान और समय को देखते हुए भीड़-भाड़ की स्थिति मौजूद है।
- रेस्टोरेंट "व्यस्त"नेस फ़ीचर:यह पहचानने के लिए एक फ़ंक्शन है कि क्या कोई रेस्तरां ऐतिहासिक डेटा के आधार पर उच्च प्रतीक्षा समय का अनुभव कर रहा है। यह ऐतिहासिक डेटा अलग से इकट्ठा किया जाता है।
उपरोक्त पहचानी गई विशेषताओं को फिर से उपयोग के लिए एक अजगर पुस्तकालय के रूप में बनाया गया है।
इस लाइब्रेरी का उपयोग स्ट्रक्चर्ड हाइव टेबल पर फंक्शन को लागू करने के लिए एक नई टेबल बनाने के लिए किया जाता है जो अंतिम ट्रेनिंग डेटा सेट होगा। नई तालिका में एक पंक्ति इस तरह दिखती है:

मान लें कि loc1 और loc2 सड़क के पते हैं। इसे यहाँ संक्षिप्त और पढ़ने में आसान रखने के लिए संक्षिप्त किया गया है।
डेटा वैज्ञानिक डिलीवरी के समय की भविष्यवाणी करने के लिए प्रशिक्षण डेटा सेट पर एक रेखीय प्रतिगमन चलाते हैं। इस बिंदु पर, उन्हें उसी फीचर लाइब्रेरी का उपयोग करना होगा जिसका उपयोग प्रशिक्षण डेटा सेट में सुविधाओं को निकालने के लिए किया गया था।
मॉडल को एक फंक्शन-ए-ए-सर्विस (FaaS) एंडपॉइंट के रूप में तैनात किया गया है जिसका उपयोग वेब एप्लिकेशन द्वारा डिलीवरी के समय की भविष्यवाणी करने के लिए किया जाता है।

ध्यान दें कि मॉडल को वास्तविक समय में भविष्यवाणी के लिए सुविधाओं की गणना करने की आवश्यकता है। ये विशेषताएं पुस्तकालय हैं जो मॉडल द्वारा आंतरिक रूप से उपयोग की जाती हैं। इस उदाहरण में की गई विभिन्न गतिविधियों और उत्पन्न कलाकृतियों का एक दृश्य इस तरह दिख सकता है:

ब्लू बॉक्स एमएल संस्थाओं (संज्ञाओं) का प्रतिनिधित्व करते हैं जैसे कोड, प्रोजेक्ट, बिल्ड, परिनियोजन, आदि। ग्रीन बॉक्स उन प्रक्रियाओं (क्रियाओं) का प्रतिनिधित्व करते हैं जो संस्थाओं पर कार्य करती हैं और अन्य संस्थाओं का उत्पादन करती हैं।

डेटा की संरचना पर परिवर्तन को परिभाषित करने वाले विज़ुअलाइज़ेशन और संबंधों को सामूहिक रूप से वंश कहा जाता है . डेटाबेस की दुनिया में, एक टेबल में एक नया कॉलम जोड़ने से उसका वंश बदल जाएगा। मशीन सीखने की दुनिया में, सुविधाओं और डेटा सेट का उपभोग करके एक मॉडल को फिर से प्रशिक्षित करना वंश को संशोधित करेगा। खाद्य वितरण वेबसाइट के लिए, इस प्रश्न का उत्तर देने के लिए:"क्या प्रशिक्षण बनाम स्कोरिंग के दौरान फीचर निष्कर्षण के बीच अंतर है", हमें वंश की जानकारी की आवश्यकता है। यह मशीन सीखने की दुनिया में वंश मेटाडेटा की उपयोगिता का सिर्फ एक उदाहरण है।

अपाचे एटलस एक शासन उपकरण के रूप में

यह स्पष्ट है कि एमएल वर्कफ़्लोज़ के लिए एक संपूर्ण एंड-टू-एंड वंश का निर्माण करना - प्रशिक्षण डेटा सेट से लेकर मॉडल परिनियोजन तक - पहचान की गई शासन समस्याओं को दूर करने के लिए एक महत्वपूर्ण आवश्यकता बन जाती है। डेटा प्रबंधन और मशीन लर्निंग के एकीकरण से व्याख्यात्मकता, व्याख्यात्मकता और प्रतिलिपि प्रस्तुत करने योग्यता सक्षम होनी चाहिए।

एमएल मेटाडेटा के संग्रह, भंडारण और विज़ुअलाइज़ेशन के लिए एक मानक बैकएंड सॉफ़्टवेयर सिस्टम की आवश्यकता होती है। एक खुली और एक्स्टेंसिबल मेटाडेटा परिभाषा शासन संचालन के मानकीकरण को सक्षम करेगी, भले ही मॉडल विकसित या प्रस्तुत किए गए हों। Cloudera (और हमारे ग्राहक) के लिए स्पष्ट उम्मीदवार Apache Atlas है।

अपाचे एटलस पहले से ही डेटा प्रबंधन के लिए पूर्व-परिभाषित मेटाडेटा प्रकारों के साथ व्यापक रूप से उपयोग किए जाने वाले शासन उपकरणों का एक सेट है। एमएल शासन के संदर्भ में, यह मशीन सीखने की अवधारणाओं के लिए आवश्यक मेटाडेटा को परिभाषित करने और कैप्चर करने के लिए उपयुक्त है। इसके अतिरिक्त, अपाचे एटलस उन्नत क्षमताएं प्रदान करता है जैसे वर्गीकरण, अपाचे रेंजर के साथ एकीकरण (प्राधिकरण और टैगिंग के लिए) कुछ नाम रखने के लिए, और इसमें एक एक्स्टेंसिबल एडॉन्स सिस्टम है जो समुदाय को आसपास सहयोग करने और एमएल में विभिन्न अन्य उपकरणों के लिए एकीकरण को परिभाषित करने की अनुमति देता है। स्थान। यह पाठक के लिए Apache Atlas के UI को एक्सप्लोर करने और इन क्षमताओं का उपयोग करने का तरीका देखने के लिए एक अभ्यास के रूप में छोड़ दिया गया है।

अपाचे एटलस में एमएल मेटाडेटा परिभाषा

अपाचे एटलस टाइप सिस्टम एमएल मेटाडेटा ऑब्जेक्ट्स को परिभाषित करने के लिए हमारी सभी जरूरतों को पूरा करता है। यह खुला स्रोत है, एक्स्टेंसिबल है, और इसमें पूर्व-निर्मित शासन विशेषताएं हैं। एटलस में एक प्रकार इस बात की परिभाषा है कि किसी विशेष प्रकार की मेटाडेटा वस्तु को कैसे संग्रहीत और एक्सेस किया जाता है। यह एक या अधिक विशेषताओं का भी प्रतिनिधित्व करता है जो मेटाडेटा ऑब्जेक्ट के गुणों को परिभाषित करते हैं। एमएल गवर्नेंस के लिए, एटलस टाइप सिस्टम का उपयोग नए प्रकार को परिभाषित करने, एमएल संस्थाओं और प्रक्रियाओं को एटलस मेटाडेटा ऑब्जेक्ट्स के रूप में कैप्चर करने के लिए किया जा सकता है। प्रकारों की परिभाषा के अलावा, एंड-टू-एंड वंश प्रवाह की कल्पना करने के लिए संस्थाओं और प्रक्रियाओं के बीच संबंध भी आवश्यक हैं।

यदि हम इसे पहले वर्णित खाद्य-वितरण वेबसाइट उदाहरण से जोड़ते हैं, तो एटलस टाइप सिस्टम मशीन लर्निंग वंश को परिभाषित करने के लिए एक अच्छा आधार प्रदान करता है। एक सामान्यीकृत एमएल वंश प्रणाली की कल्पना इस प्रकार की जाती है:

जैसा कि ऊपर दिए गए चित्र से स्पष्ट है, मशीन लर्निंग के लिए मेटाडेटा परिभाषा वास्तविक मशीन लर्निंग वर्कफ़्लो का बारीकी से अनुसरण करती है। प्रशिक्षण डेटा सेट एक मॉडल वंश प्रवाह के लिए शुरुआती बिंदु हैं। ये डेटा सेट डेटा वेयरहाउस या एम्बेडेड सीएसवी फ़ाइल से टेबल हो सकते हैं। एक बार डेटा सेट की पहचान हो जाने के बाद, वंश मॉडल के प्रशिक्षण, निर्माण और परिनियोजन में अनुसरण करता है।

एमएल फीचर डेवलपमेंट एक समानांतर और विशिष्ट गतिविधि है जिसे फीचर इंजीनियरिंग (मॉडल इंजीनियरिंग से अलग) कहा जा सकता है। आज, कई मामलों में, दो गतिविधियाँ (मॉडल इंजीनियरिंग और फीचर इंजीनियरिंग) एक ही व्यक्ति या टीम द्वारा की जाती हैं। सुविधाओं के लोकतंत्रीकरण और औद्योगीकरण के साथ, यह भविष्य में मॉडल विकास और फीचर विकास के लिए विशेष टीमों के साथ बदल सकता है।

एमएल टाइप सिस्टम को अब निम्नलिखित नए प्रकारों के माध्यम से परिभाषित किया जा सकता है:

“मशीन लर्निंग प्रोजेक्ट बनाएं” और “मशीन लर्निंग प्रोजेक्ट”

एकल मशीन लर्निंग प्रोजेक्ट एकल व्यावसायिक उपयोग के मामले का प्रतिनिधित्व करता है। मशीन लर्निंग प्रोजेक्ट फाइलों और अन्य एम्बेडेड संपत्तियों के कंटेनर का प्रतिनिधित्व करता है। कम से कम, प्रोजेक्ट मेटाडेटा में निम्न शामिल हैं:

मॉडल में प्रयुक्त फाइलों की सूची
सभी फाइलों का ऐतिहासिक संस्करण
- सबसे आसान कार्यान्वयन यह होगा कि सभी फाइलों के इतिहास को बनाए रखने के लिए Git पर निर्भर परियोजना को एक git रिपॉजिटरी के रूप में बनाए रखा जाए।

“प्रशिक्षण डेटा सेट”

एटलस में डेटासेट का एक उपप्रकार जो एक प्रशिक्षण डेटा सेट का प्रतिनिधित्व करता है। प्रशिक्षण डेटा सेट इकाई का उपयोग मॉडल प्रशिक्षण प्रक्रिया में किया जाता है। इसे एक फीचर के साथ जोड़ा जा सकता है यदि उत्पन्न डेटा किसी अन्य डेटा सेट में फीचर एक्सट्रैक्शन (या ट्रांसफॉर्मेशन) को लागू करने का परिणाम है।

“ट्रेन एंड बिल्ड”

एक प्रक्रिया जो एक मॉडल के प्रशिक्षण और निर्माण की क्रिया का प्रतिनिधित्व करती है। इसमें प्रयोग चलाना, ट्यूनिंग करना और प्रशिक्षण एल्गोरिथम के चुनाव को अंतिम रूप देना शामिल है। ट्रेन और बिल्ड प्रक्रिया वैकल्पिक रूप से फ़ीचर बिल्ड के आउटपुट का उपभोग कर सकती है; उदाहरण के लिए, मॉडल द्वारा आंतरिक रूप से उपयोग किए जाने वाले फीचर निष्कर्षण को परिभाषित करने वाला एक पुस्तकालय फ़ंक्शन।

“मॉडल बिल्ड”

एक बार डेटा वैज्ञानिक द्वारा मॉडल का प्रयोग और प्रशिक्षण पूरा करने के बाद मॉडल को कठोर और संस्करणित किया जाता है। इस प्रसंस्करण के परिणामस्वरूप मॉडल बिल्ड होता है, जो एक अपरिवर्तनीय आर्टिफैक्ट है जो मॉडल बनाने के लिए बिल्डिंग ब्लॉक बनाता है। डॉकर छवि मॉडल बिल्ड इकाई का एक उदाहरण है।

“मॉडल परिनियोजित करें” और “मॉडल परिनियोजन”

एक मॉडल बिल्ड एक परिनियोजन प्रक्रिया से गुजरता है, जो एक मॉडल परिनियोजन बनाता है। मॉडल परिनियोजन एक मॉडल के सक्रिय तात्कालिकता का प्रतिनिधित्व करता है। कुबेरनेट्स आधारित आरईएसटी सेवा (एफएएएस-शैली परिनियोजन) एक मॉडल परिनियोजन इकाई का एक उदाहरण है।

“फ़ीचर फ़ंक्शन”

मशीन लर्निंग फीचर की दो व्याख्याएं हैं:1) फीचर फंक्शन और 2) ट्रांसफॉर्मेड डेटा सेट।

फ़ीचर फंक्शन इकाई एक कस्टम फ़ंक्शन (कोड में व्यक्त) है जो परिभाषित करता है कि किसी इनपुट से किसी पहचाने गए फीचर को कैसे निकाला जाए। यह सुविधाओं के लिए कोड का प्रतिनिधित्व करता है, ठीक उसी तरह जैसे एमएल प्रोजेक्ट एमएल कोड के लिए कंटेनर का प्रतिनिधित्व करता है।

फ़ीचर फ़ंक्शन को पहले लाइब्रेरी (संस्करणित और कठोर) के रूप में पैक किया जाता है। फिर पुस्तकालय का उपभोग किया जाता है और किसी दिए गए डेटासेट पर इसे एक नए डेटासेट में बदलने के लिए लागू किया जाता है (निकासी गई सुविधाओं के साथ)। रूपांतरित डेटा सेट को ऊपर परिभाषित प्रशिक्षण डेटा सेट निकाय द्वारा दर्शाया जाता है।

“पैकेज फ़ीचर” और “फ़ीचर बिल्ड”

फ़ीचर फ़ंक्शन में कोड साझा करने के लिए (अन्य मॉडलों के साथ) या रनटाइम स्कोरिंग के लिए पैक किया गया है। इन पैकेजों को फीचर बिल्ड कहा जाता है। उदाहरण के लिए, एक फीचर बिल्ड में एक पैकेज्ड लाइब्रेरी (पायथन में) या एक जार फ़ाइल (जावा में) हो सकती है। इस पैकेज को मॉडल ट्रेन और निर्माण प्रक्रिया के दौरान अवशोषित किया जा सकता है ताकि यह सुनिश्चित किया जा सके कि निष्कर्षण और भविष्यवाणी के दौरान एक ही सुविधा का उपयोग किया जाता है।

कोशिश करें और एमएल मेटाडेटा परिभाषा के भविष्य को परिभाषित करने में शामिल हों

हमने एटलस-3432 पर काम शुरू कर दिया है जो कि मशीन लर्निंग टाइप सिस्टम का पहला कार्यान्वयन है, जो क्लौडेरा डेटा साइंस वर्कबेंच (सीडीएसडब्ल्यू) को पायलट क्लाइंट के रूप में इस्तेमाल करता है। CDSW एकीकरण के निर्माण पर काम का नेतृत्व करने के लिए Cloudera इंजीनियरिंग टीम से Na Li को धन्यवाद। ATLAS-3432 वंश का पता लगाने के लिए CDSW उदाहरण से मॉडल मेटाडेटा को Apache Atlas उदाहरण पर धकेलने की अनुमति देगा। CDSW वर्तमान में सुविधाओं (या एक फीचर स्टोर) का समर्थन नहीं करता है, और इसलिए सुविधाओं से संबंधित वंश अनुपलब्ध होगा।

क्लौडेरा में, हम अपने ग्राहकों के लिए इस समस्या को केवल हल नहीं करना चाहते हैं - हम मानते हैं कि एमएल मेटाडेटा परिभाषाएं सार्वभौमिक होनी चाहिए जैसे कि टेबल, कॉलम आदि डेटा संरचनाओं के लिए बहुत मानक हैं। हमें उम्मीद है कि समुदाय इस मानक को परिभाषित करने में योगदान देंगे ताकि कंपनियों को उनके एमएल प्लेटफॉर्म का अधिकतम लाभ मिल सके।

क्या आपके पास मशीन लर्निंग गवर्नेंस उपयोग-मामला है जो मेटाडेटा मॉडल में फिट नहीं होता है? dev@atlas.apache.org पर अपने सुझाव पोस्ट करके बातचीत में शामिल हों।