HBase
 sql >> डेटाबेस >  >> NoSQL >> HBase

स्टॉक डेटा की भविष्यवाणी करने वाले एप्लिकेशन बनाने के लिए COD और CML का उपयोग करना

नहीं वास्तव में नहीं। आप शायद तब तक अमीर नहीं होंगे जब तक कि आप वास्तव में कड़ी मेहनत नहीं करते ... यह कितना अच्छा होगा, आप वास्तव में केवल एमएल के आधार पर स्टॉक की कीमत का अनुमान नहीं लगा सकते हैं, लेकिन अब मुझे आपका ध्यान है!

क्लाउडेरा ऑपरेशनल डेटाबेस (सीओडी) द्वारा समर्थित वेब-आधारित अनुप्रयोगों को विकसित करना कितना शानदार और आसान है, इस बारे में अपने पिछले ब्लॉग पोस्ट से जारी रखते हुए, मैंने सीओडी को एक और सीडीपी क्लाउड अनुभव, क्लाउडेरा मशीन लर्निंग (सीएमएल) के साथ एकीकृत करने के लिए एक छोटी परियोजना शुरू की।

इस डेमो में मैं उनके ऐतिहासिक डेटा के आधार पर शेयरों की खुली कीमत के व्यवहार की भविष्यवाणी करने की कोशिश करूंगा, जिसका अर्थ है कि स्टॉक की खुली कीमत ऊपर या नीचे जाएगी। मैं एक डेटा वैज्ञानिक नहीं हूं, लेकिन ऐसा करने के लिए ऑनलाइन कई उदाहरण हैं (मैंने कुछ कोड नमूने लिए, उन्हें ठीक किया, और उन्हें सीओडी के साथ काम करने के लिए समायोजित किया)। इस उद्देश्य के लिए, मैं LSTM (लॉन्ग शॉर्ट-टर्म मेमोरी) एल्गोरिथम का उपयोग करूंगा। सामान्य रूप से आरएनएन (आवर्तक तंत्रिका नेटवर्क) और एलएसटीएम विशेष रूप से समय-श्रृंखला डेटा के साथ बहुत अच्छी तरह से काम करता है

संदेह से बचने के लिए, हम शेयर बाजार के विशेषज्ञ होने का दावा नहीं कर रहे हैं, और इस ब्लॉग पोस्ट में कुछ भी किसी भी तरह से वित्तीय सलाह के रूप में नहीं लिया जाना चाहिए। यह पूरी तरह से एक उदाहरण है कि क्लौडेरा के सॉफ़्टवेयर का उपयोग करके समाधान कैसे विकसित किया जाए।

इस डेमो में उपयोग किए जाने वाले मुख्य घटक:

  • क्लौडेरा ऑपरेशनल डेटाबेस (सीओडी), जैसा कि मेरी पिछली पोस्ट में बताया गया है, एक प्रबंधित डीबीपीएएएस समाधान है जो क्लौडेरा डेटा प्लेटफॉर्म (सीडीपी) में एक अनुभव के रूप में उपलब्ध है
  • CML को डेटा वैज्ञानिकों और ML इंजीनियरों के लिए डिज़ाइन किया गया है, जो उन्हें कोड से उत्पादन तक ML प्रोजेक्ट बनाने और प्रबंधित करने में सक्षम बनाता है। सीएमएल की मुख्य विशेषताएं: 
    • डेटा वैज्ञानिकों के लिए विकास पर्यावरण, पृथक, कंटेनरीकृत, और लोचदार
    • उत्पादन ML टूलकिट  - ML मॉडल का परिनियोजन, सेवा, निगरानी और शासन
    • ऐप सर्विंग - ML उपयोग-मामलों के लिए कस्टम एप्लिकेशन बनाएं और परोसें
    • व्यावसायिक उपयोगकर्ताओं की जानकारी के लिए पहले से पैक किए गए एप्लिकेशन
      • क्लौडेरा डेटा विज़ुअलाइज़ेशन के साथ डैशबोर्ड और ऐप्स की सरल, ड्रैग-एंड-ड्रॉप बिल्डिंग
      • आपके उपयोग के मामलों के लिए स्टार्टर किट के रूप में टेम्प्लेट एप्लिकेशन
  • स्टॉक डेटा - स्टॉक डेटा खींचने के लिए, मैंने अल्फा सहूलियत सेवा (मुफ्त संस्करण) का उपयोग किया। मूल रूप से, यह एक ऐसी सेवा है जो आपको स्टॉक आँकड़ों (खुले, बंद, कम, उच्च-वॉल्यूम) के लिए दैनिक सारांश प्राप्त करने की अनुमति देती है

एप्लिकेशन बनाएं

पहली चीज जो हमें करने की ज़रूरत है वह है सीओडी में एक डेटाबेस बनाना।

1. Cloudera डेटा प्लेटफ़ॉर्म पब्लिक क्लाउड कंट्रोल प्लेन में लॉग इन करें

2. ऑपरेशनल डेटाबेस चुनें और फिर "क्रिएट डेटाबेस" पर क्लिक करें

3. अपना परिवेश चुनें और अपने डेटाबेस को नाम दें

4. डेटाबेस के तैयार होने और चलने के बाद, JDBC टैब पर स्विच करें

5. अपना सीडीपी वर्कलोड पासवर्ड सेट करें

6. अब सीएमएल पर चलते हैं - कंट्रोल प्लेन पर वापस जाएं और "मशीन लर्निंग" पर क्लिक करें और फिर "प्रोविजन वर्कस्पेस" पर क्लिक करें। अपने कार्यक्षेत्र को एक नाम दें और उस वातावरण का चयन करें जिसका आप उपयोग करना चाहते हैं

7. एक बार कार्यक्षेत्र का प्रावधान हो जाने के बाद, एक नया प्रोजेक्ट बनाएं, इसे एक नाम दें और स्रोत कोड के लिए git का उपयोग करें। सभी स्रोत कोड यहां पाए जा सकते हैं।

8. प्रोजेक्ट बनने के बाद आपको प्रोजेक्ट डायरेक्टरी में सभी फाइलें दिखाई देंगी:

9. कुछ अतिरिक्त लॉजिस्टिक्स - हमें परियोजना के लिए पर्यावरण चर बनाने की जरूरत है, जो हमारे डेटाबेस तक पहुंच और अल्फा सहूलियत एपीआई कुंजी को संग्रहीत करेगा। ऐसा करने के लिए "प्रोजेक्ट सेटिंग्स -> उन्नत" टैब पर जाएं

10. अब, प्रोजेक्ट चलाना शुरू करते हैं - "नया सत्र" पर क्लिक करें, अपने सत्र को एक नाम दें, "पायथन 3" और संसाधन प्रोफ़ाइल चुनें

11. या तो टर्मिनल पर या नीचे CLI पर, "pip3 install -r आवश्यकताएँ.txt" चलाकर सभी आवश्यक लाइब्रेरी स्थापित करें

12. अगला कदम हमारी तालिका बनाना है जिसमें डेटा हमारे डेटाबेस में संग्रहीत किया जाएगा। उस उद्देश्य के लिए, सेटअप स्क्रिप्ट चलाएँ:

13. अब, हमारे मॉडल का परीक्षण शुरू करते हैं! Runner.py पर जाएं और इसे रन करें। मूल रूप से, यह स्क्रिप्ट निम्न कार्य करती है:

a) अल्फा सहूलियत से दैनिक स्टॉक डेटा प्राप्त करता है

बी) बुनियादी डेटा परिवर्तन

c) क्लाउडेरा ऑपरेशनल डेटाबेस में डेटा स्टोर करें 

d) मॉडल चलाएँ और मॉडल फ़ाइल बनाएँ (tech_ind_model.py)

e) पिछले 120 दिनों के लिए पूर्वानुमान चलाएँ

f) अगर हम स्टॉक को सटीक दरों पर खरीदते और बेचते हैं तो अनुमानित आय की गणना करें 

14. जब प्रोग्राम चल रहा होता है, तो आप देखेंगे कि यह प्रत्येक स्टॉक के लिए डेटा एकत्र कर रहा है, इसे सीओडी पर अपलोड कर रहा है, भविष्यवाणी कर रहा है, और अनुमानित मूल्य बनाम वर्तमान मूल्य प्रदर्शित करने वाला चार्ट तैयार कर रहा है। हालांकि चार्ट से पता चलता है कि ज्यादातर मामलों में रुझान बहुत समान है, यहां तक ​​​​कि थोड़ा सा अंतर भी उन सिफारिशों से कुल राजस्व को प्रभावित कर सकता है। रन के आउटपुट में प्रत्येक स्टॉक के लिए नीचे दी गई जानकारी शामिल होती है:

a) अनुशंसा:रखें/खरीदें/बेचें 

बी) पिछली भविष्यवाणी:आखिरी अनुमानित कीमत 

ग) कीमत:आखिरी कीमत

d) पूर्वानुमानित:अगले खुले मूल्य के लिए पूर्वानुमान

ई) संकेत:उच्च/निम्न - सिफारिश मजबूत है/नहीं

15. पिछली बार जब मैंने कार्यक्रम चलाया था, तो मैं सिफारिशों के आधार पर अधिकांश शेयरों में पैसा खो दूंगा, लेकिन साथ ही, कुछ ऐसे भी थे जिन्होंने 20% तक के लाभ की भविष्यवाणी की थी!!!

अब, सामान्य रूप से एल्गोरिथम ट्रेडिंग और स्टॉक की कीमतों की भविष्यवाणी ऐसे विषय हैं जो कई वर्षों से हैं। इस तरह के मशीन लर्निंग उपयोग के मामलों को संचालित करने के लिए, आपको ऐसे शक्तिशाली टूल की आवश्यकता होती है जो उपयोग में आसान, स्केलेबल और उद्यम के लिए तैयार हों।

क्लौडेरा ऑपरेशनल डेटाबेस यादृच्छिक पढ़ने/लिखने के लिए उप-सेकंड विलंबता प्रदान करता है और वित्तीय सेवा उद्योग में उपयोग किए जाने वाले रीयल-टाइम अनुप्रयोगों के लिए बिल्कुल वही है जो आवश्यक है।

CML और COD के साथ आरंभ करने के लिए…

आशा है कि आपको यह उपयोगी लगेगा,

हैप्पी कोडिंग !!


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Apache Spark, HBase-Spark मॉड्यूल के साथ Apache HBase में आती है

  2. 6 बेस्ट मैपरिड्यूस जॉब ऑप्टिमाइजेशन तकनीक

  3. बिग डेटा Hadoop में HDFS इरेज़र कोडिंग

  4. CDP प्राइवेट क्लाउड बेस 7 बनाम CDH5 में ऑपरेशनल डेटाबेस परफॉर्मेंस इम्प्रूवमेंट

  5. HBase के साथ बातचीत करने के लिए Hive का उपयोग करना, भाग 1