HBase
 sql >> डेटाबेस >  >> NoSQL >> HBase

पेचेक सुरक्षा कार्यक्रम डेटा का विश्लेषण करने के लिए क्लौडेरा डेटा इंजीनियरिंग का उपयोग करना

पेचेक प्रोटेक्शन प्रोग्राम (पीपीपी) अमेरिकी संघीय सरकार द्वारा व्यवसायों को अपने कर्मचारियों को पेरोल पर रखने के लिए प्रत्यक्ष प्रोत्साहन प्रदान करने के लिए लागू किया गया है, विशेष रूप से कोविड -19 महामारी के दौरान। पीपीपी योग्य व्यवसायों को उनके कार्यबल को बनाए रखने के साथ-साथ संबंधित व्यावसायिक खर्चों के भुगतान में सहायता करता है। यूएस ट्रेजरी वेबसाइट के डेटा से पता चलता है कि किन कंपनियों ने पीपीपी ऋण प्राप्त किया और कितनी नौकरियां बरकरार रखी गईं। यूएस ट्रेजरी ने पूरे अमेरिका में लगभग एक मिलियन पीपीपी ऋणों को मंजूरी दी।

इस डेटा का विश्लेषण तीन चुनौतियां प्रस्तुत करता है। सबसे पहले, डेटा का आकार महत्वपूर्ण है। उस डेटा को खींचने, क्यूरेट करने, बदलने, पुनर्प्राप्त करने और रिपोर्ट करने में जितना समय लगता है, वह समय गहन होता है। दूसरा, डेटा सेट के विकसित होने की संभावना है, जो अतिरिक्त विकास समय और संसाधनों का उपभोग करेगा। अंत में, इस तरह की एक बहु-मंच प्रक्रिया में, एक मौका है कि चीजें टूट जाएंगी। त्रुटियों या बाधाओं को शीघ्रता से निर्धारित करने की क्षमता होने से एसएलए को लगातार पूरा करने में मदद मिलेगी।

यह ब्लॉग दिखाता है कि अपाचे स्पार्क का उपयोग करते हुए क्लौडेरा डेटा इंजीनियरिंग (सीडीई) का उपयोग पीपीपी डेटा के आधार पर रिपोर्ट तैयार करने के लिए कैसे किया जा सकता है, जबकि ऊपर उल्लिखित प्रत्येक चुनौतियों का समाधान किया जा सकता है।

उद्देश्य

एक डेटा इंजीनियर को पीपीपी डेटा का प्रबंधन और विश्लेषण करने में मदद करने के लिए टेक्सास विधान बजट बोर्ड (एलबीबी) के लिए एक नकली परिदृश्य नीचे स्थापित किया गया है। इस डेटा इंजीनियर का प्राथमिक उद्देश्य एलबीबी को दो अंतिम रिपोर्ट प्रदान करना है:

  • रिपोर्ट 1:टेक्सास के उन सभी शहरों का विश्लेषण जिन्होंने नौकरी बरकरार रखी
  • रिपोर्ट 2:कंपनी के प्रकार का टूटना जिसने नौकरियों को बरकरार रखा

क्लॉडेरा डेटा इंजीनियरिंग (सीडीई)

यह वह जगह है जहां अपाचे स्पार्क चलाने वाले क्लौडेरा डेटा इंजीनियरिंग (सीडीई) मदद कर सकता है। सीडीई क्लौडेरा डेटा प्लेटफ़ॉर्म (सीडीपी) की सेवाओं में से एक है जो डेटा इंजीनियरों को अपाचे स्पार्क नौकरियों को बनाने, प्रबंधित करने और शेड्यूल करने की अनुमति देता है, जबकि अपाचे एयरफ्लो के माध्यम से नौकरी के प्रदर्शन की निगरानी, ​​​​लॉग फाइलों तक पहुंचने और वर्कफ़्लो को ऑर्केस्ट्रेट करने के लिए उपयोगी उपकरण प्रदान करता है। अपाचे स्पार्क एक डेटा प्रोसेसिंग फ्रेमवर्क है जो बड़े पैमाने पर डेटा प्रोसेसिंग को जल्दी से चलाने में सक्षम है।

यूएस ट्रेजरी दो अलग-अलग डेटा सेट प्रदान करता है, एक $150k से अधिक के स्वीकृत ऋणों के लिए और दूसरा $150k के तहत स्वीकृत ऋणों के लिए। एलबीबी के लिए दो अंतिम रिपोर्ट तैयार करने के लिए, इन चरणों का पालन किया गया (चित्र 1 देखें)।

  • पहला कदम दो अलग-अलग डेटा सेट को एक S3 बकेट में लोड करना था।
  • S3 बकेट से डेटा खींचने और फ़िल्टर करने के लिए प्रत्येक डेटा सेट के लिए एक स्पार्क जॉब बनाया गया था।
  • इन दो स्पार्क जॉब्स ने क्लीन डेटा को हाइव डेटा वेयरहाउस में रिट्रीवल के लिए बदल दिया और लोड किया।
  • दो रिपोर्ट बनाने के लिए हाइव डेटा वेयरहाउस से डेटा को संसाधित करने के लिए एक तीसरा स्पार्क जॉब बनाया गया था।

एक बार जॉब रन पूरा हो जाने के बाद, सीडीई ने प्रत्येक स्पार्क जॉब के भीतर विभिन्न चरणों का एक ग्राफिकल प्रतिनिधित्व प्रदान किया (चित्र 2 देखें)। इसने डेटा इंजीनियर को आसानी से यह देखने की अनुमति दी कि नौकरी के कौन से हिस्से संभावित रूप से सबसे अधिक समय ले रहे हैं, जिससे उन्हें आसानी से परिष्कृत करने और ग्राहक एसएलए को सर्वोत्तम रूप से पूरा करने के लिए अपने कोड को बेहतर बनाने में मदद मिलती है।

चित्र 1:दो अंतिम रिपोर्ट तैयार करने के लिए डेटा यात्रा।

चित्र 2:विभिन्न स्पार्क चरणों का सीडीई ग्राफिकल प्रतिनिधित्व।

परिणाम

एक लाख स्वीकृत आवेदकों के रिकॉर्ड से दो अंत रिपोर्ट तैयार करने का प्राथमिक उद्देश्य पूरा हुआ। पहली रिपोर्ट का ग्राफिकल सारांश (चित्र 3 देखें) टेक्सास में प्रति शहर बनाए गए नौकरियों की संख्या का शीर्ष 10 नमूना दिखाता है, और दूसरी रिपोर्ट (चित्र 4 देखें) बरकरार रखी गई नौकरियों की संख्या का शीर्ष 5 नमूना दिखाती है कंपनी के प्रकार से। इन रिपोर्टों के साथ, उदाहरण के लिए, टेक्सास विधान बजट बोर्ड यह अनुमान लगा सकता है कि प्रति व्यक्ति नौकरी प्रतिधारण की न्यूनतम राशि वाले शहरों को किसी भी आर्थिक प्रभाव को कम करने के लिए संसाधनों की आवश्यकता हो सकती है।

चित्र 3:शीर्ष 10 शहर जिन्होंने सबसे अधिक नौकरियां बरकरार रखीं, टेक्सास राज्य, 2020

चित्र 4:शीर्ष 5 कंपनी प्रकार जिन्होंने सबसे अधिक नौकरियां बरकरार रखीं, स्टेट ऑफ टेक्सास, 2020

अगले चरण

यह सब क्रिया में देखने के लिए, कृपया कुछ भिन्न स्रोतों के लिए नीचे दिए गए लिंक पर क्लिक करें जो उस प्रक्रिया को प्रदर्शित करता है जिसे बनाया गया था।

  • वीडियो - अगर आप यह देखना और सुनना चाहते हैं कि इसे कैसे बनाया गया, तो लिंक पर वीडियो देखें।
  • ट्यूटोरियल - यदि आप इसे अपनी गति से करना चाहते हैं, तो स्क्रीनशॉट के साथ एक विस्तृत पूर्वाभ्यास देखें और इसे कैसे सेट अप और निष्पादित करें, इसके लिए लाइन दर लाइन निर्देश देखें।
  • मीटअप - अगर आप क्लाउडेरा के विशेषज्ञों से सीधे बात करना चाहते हैं, तो लाइव स्ट्रीम प्रस्तुति देखने के लिए कृपया वर्चुअल मीटअप में शामिल हों। अंत में सीधे प्रश्नोत्तर के लिए समय होगा।
  • सीडीपी उपयोगकर्ता पृष्ठ - अतिरिक्त वीडियो, ट्यूटोरियल, ब्लॉग और ईवेंट सहित उपयोगकर्ताओं के लिए बनाए गए अन्य सीडीपी संसाधनों के बारे में जानने के लिए, लिंक पर क्लिक करें।

  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. HBase संघनन क्या हैं?

  2. Apache HBase स्नैपशॉट का परिचय

  3. Hadoop का भविष्य - बड़े डेटा विश्लेषण में वेतन और नौकरी की भविष्यवाणी

  4. हैशटेबल/सिंकटेबल टूल के साथ HBase क्लस्टर डेटा सिंक्रोनाइज़ेशन

  5. स्पार्क-ऑन-एचबेस:डेटाफ्रेम आधारित एचबीएएस कनेक्टर