नहीं वास्तव में नहीं। आप शायद तब तक अमीर नहीं होंगे जब तक कि आप वास्तव में कड़ी मेहनत नहीं करते ... यह कितना अच्छा होगा, आप वास्तव में केवल एमएल के आधार पर स्टॉक की कीमत का अनुमान नहीं लगा सकते हैं, लेकिन अब मुझे आपका ध्यान है!
क्लाउडेरा ऑपरेशनल डेटाबेस (सीओडी) द्वारा समर्थित वेब-आधारित अनुप्रयोगों को विकसित करना कितना शानदार और आसान है, इस बारे में अपने पिछले ब्लॉग पोस्ट से जारी रखते हुए, मैंने सीओडी को एक और सीडीपी क्लाउड अनुभव, क्लाउडेरा मशीन लर्निंग (सीएमएल) के साथ एकीकृत करने के लिए एक छोटी परियोजना शुरू की।
इस डेमो में मैं उनके ऐतिहासिक डेटा के आधार पर शेयरों की खुली कीमत के व्यवहार की भविष्यवाणी करने की कोशिश करूंगा, जिसका अर्थ है कि स्टॉक की खुली कीमत ऊपर या नीचे जाएगी। मैं एक डेटा वैज्ञानिक नहीं हूं, लेकिन ऐसा करने के लिए ऑनलाइन कई उदाहरण हैं (मैंने कुछ कोड नमूने लिए, उन्हें ठीक किया, और उन्हें सीओडी के साथ काम करने के लिए समायोजित किया)। इस उद्देश्य के लिए, मैं LSTM (लॉन्ग शॉर्ट-टर्म मेमोरी) एल्गोरिथम का उपयोग करूंगा। सामान्य रूप से आरएनएन (आवर्तक तंत्रिका नेटवर्क) और एलएसटीएम विशेष रूप से समय-श्रृंखला डेटा के साथ बहुत अच्छी तरह से काम करता है
संदेह से बचने के लिए, हम शेयर बाजार के विशेषज्ञ होने का दावा नहीं कर रहे हैं, और इस ब्लॉग पोस्ट में कुछ भी किसी भी तरह से वित्तीय सलाह के रूप में नहीं लिया जाना चाहिए। यह पूरी तरह से एक उदाहरण है कि क्लौडेरा के सॉफ़्टवेयर का उपयोग करके समाधान कैसे विकसित किया जाए।
इस डेमो में उपयोग किए जाने वाले मुख्य घटक:
- क्लौडेरा ऑपरेशनल डेटाबेस (सीओडी), जैसा कि मेरी पिछली पोस्ट में बताया गया है, एक प्रबंधित डीबीपीएएएस समाधान है जो क्लौडेरा डेटा प्लेटफॉर्म (सीडीपी) में एक अनुभव के रूप में उपलब्ध है
- CML को डेटा वैज्ञानिकों और ML इंजीनियरों के लिए डिज़ाइन किया गया है, जो उन्हें कोड से उत्पादन तक ML प्रोजेक्ट बनाने और प्रबंधित करने में सक्षम बनाता है। सीएमएल की मुख्य विशेषताएं:
- डेटा वैज्ञानिकों के लिए विकास पर्यावरण, पृथक, कंटेनरीकृत, और लोचदार
- उत्पादन ML टूलकिट - ML मॉडल का परिनियोजन, सेवा, निगरानी और शासन
- ऐप सर्विंग - ML उपयोग-मामलों के लिए कस्टम एप्लिकेशन बनाएं और परोसें
- व्यावसायिक उपयोगकर्ताओं की जानकारी के लिए पहले से पैक किए गए एप्लिकेशन
- क्लौडेरा डेटा विज़ुअलाइज़ेशन के साथ डैशबोर्ड और ऐप्स की सरल, ड्रैग-एंड-ड्रॉप बिल्डिंग
- आपके उपयोग के मामलों के लिए स्टार्टर किट के रूप में टेम्प्लेट एप्लिकेशन
- स्टॉक डेटा - स्टॉक डेटा खींचने के लिए, मैंने अल्फा सहूलियत सेवा (मुफ्त संस्करण) का उपयोग किया। मूल रूप से, यह एक ऐसी सेवा है जो आपको स्टॉक आँकड़ों (खुले, बंद, कम, उच्च-वॉल्यूम) के लिए दैनिक सारांश प्राप्त करने की अनुमति देती है
एप्लिकेशन बनाएं
पहली चीज जो हमें करने की ज़रूरत है वह है सीओडी में एक डेटाबेस बनाना।
1. Cloudera डेटा प्लेटफ़ॉर्म पब्लिक क्लाउड कंट्रोल प्लेन में लॉग इन करें
2. ऑपरेशनल डेटाबेस चुनें और फिर "क्रिएट डेटाबेस" पर क्लिक करें
3. अपना परिवेश चुनें और अपने डेटाबेस को नाम दें
4. डेटाबेस के तैयार होने और चलने के बाद, JDBC टैब पर स्विच करें
5. अपना सीडीपी वर्कलोड पासवर्ड सेट करें
6. अब सीएमएल पर चलते हैं - कंट्रोल प्लेन पर वापस जाएं और "मशीन लर्निंग" पर क्लिक करें और फिर "प्रोविजन वर्कस्पेस" पर क्लिक करें। अपने कार्यक्षेत्र को एक नाम दें और उस वातावरण का चयन करें जिसका आप उपयोग करना चाहते हैं
7. एक बार कार्यक्षेत्र का प्रावधान हो जाने के बाद, एक नया प्रोजेक्ट बनाएं, इसे एक नाम दें और स्रोत कोड के लिए git का उपयोग करें। सभी स्रोत कोड यहां पाए जा सकते हैं।
8. प्रोजेक्ट बनने के बाद आपको प्रोजेक्ट डायरेक्टरी में सभी फाइलें दिखाई देंगी:
9. कुछ अतिरिक्त लॉजिस्टिक्स - हमें परियोजना के लिए पर्यावरण चर बनाने की जरूरत है, जो हमारे डेटाबेस तक पहुंच और अल्फा सहूलियत एपीआई कुंजी को संग्रहीत करेगा। ऐसा करने के लिए "प्रोजेक्ट सेटिंग्स -> उन्नत" टैब पर जाएं
10. अब, प्रोजेक्ट चलाना शुरू करते हैं - "नया सत्र" पर क्लिक करें, अपने सत्र को एक नाम दें, "पायथन 3" और संसाधन प्रोफ़ाइल चुनें
11. या तो टर्मिनल पर या नीचे CLI पर, "pip3 install -r आवश्यकताएँ.txt" चलाकर सभी आवश्यक लाइब्रेरी स्थापित करें
12. अगला कदम हमारी तालिका बनाना है जिसमें डेटा हमारे डेटाबेस में संग्रहीत किया जाएगा। उस उद्देश्य के लिए, सेटअप स्क्रिप्ट चलाएँ:
13. अब, हमारे मॉडल का परीक्षण शुरू करते हैं! Runner.py पर जाएं और इसे रन करें। मूल रूप से, यह स्क्रिप्ट निम्न कार्य करती है:
a) अल्फा सहूलियत से दैनिक स्टॉक डेटा प्राप्त करता है
बी) बुनियादी डेटा परिवर्तन
c) क्लाउडेरा ऑपरेशनल डेटाबेस में डेटा स्टोर करें
d) मॉडल चलाएँ और मॉडल फ़ाइल बनाएँ (tech_ind_model.py)
e) पिछले 120 दिनों के लिए पूर्वानुमान चलाएँ
f) अगर हम स्टॉक को सटीक दरों पर खरीदते और बेचते हैं तो अनुमानित आय की गणना करें
14. जब प्रोग्राम चल रहा होता है, तो आप देखेंगे कि यह प्रत्येक स्टॉक के लिए डेटा एकत्र कर रहा है, इसे सीओडी पर अपलोड कर रहा है, भविष्यवाणी कर रहा है, और अनुमानित मूल्य बनाम वर्तमान मूल्य प्रदर्शित करने वाला चार्ट तैयार कर रहा है। हालांकि चार्ट से पता चलता है कि ज्यादातर मामलों में रुझान बहुत समान है, यहां तक कि थोड़ा सा अंतर भी उन सिफारिशों से कुल राजस्व को प्रभावित कर सकता है। रन के आउटपुट में प्रत्येक स्टॉक के लिए नीचे दी गई जानकारी शामिल होती है:
a) अनुशंसा:रखें/खरीदें/बेचें
बी) पिछली भविष्यवाणी:आखिरी अनुमानित कीमत
ग) कीमत:आखिरी कीमत
d) पूर्वानुमानित:अगले खुले मूल्य के लिए पूर्वानुमान
ई) संकेत:उच्च/निम्न - सिफारिश मजबूत है/नहीं
15. पिछली बार जब मैंने कार्यक्रम चलाया था, तो मैं सिफारिशों के आधार पर अधिकांश शेयरों में पैसा खो दूंगा, लेकिन साथ ही, कुछ ऐसे भी थे जिन्होंने 20% तक के लाभ की भविष्यवाणी की थी!!!
अब, सामान्य रूप से एल्गोरिथम ट्रेडिंग और स्टॉक की कीमतों की भविष्यवाणी ऐसे विषय हैं जो कई वर्षों से हैं। इस तरह के मशीन लर्निंग उपयोग के मामलों को संचालित करने के लिए, आपको ऐसे शक्तिशाली टूल की आवश्यकता होती है जो उपयोग में आसान, स्केलेबल और उद्यम के लिए तैयार हों।
क्लौडेरा ऑपरेशनल डेटाबेस यादृच्छिक पढ़ने/लिखने के लिए उप-सेकंड विलंबता प्रदान करता है और वित्तीय सेवा उद्योग में उपयोग किए जाने वाले रीयल-टाइम अनुप्रयोगों के लिए बिल्कुल वही है जो आवश्यक है।
CML और COD के साथ आरंभ करने के लिए…
आशा है कि आपको यह उपयोगी लगेगा,
हैप्पी कोडिंग !!