बारह साल पहले, जब मैंने "क्रैकिंग द कोड:ब्रेकिंग डाउन द सॉफ्टवेयर डेवलपमेंट रोल्स" के लिए पहला लेख लिखा था, तो मैंने डेटाबेस व्यवस्थापक या डेटाबेस आर्किटेक्ट को भूमिकाओं के हिस्से के रूप में शामिल नहीं करने का एक सचेत और शायद विवादास्पद निर्णय लिया। निर्णय इसलिए किया गया क्योंकि कुछ ही संगठन थे जो डेटा के पैमाने से निपटते थे जिन्हें सॉफ्टवेयर विकास प्रक्रिया में इस समर्पित भूमिका की आवश्यकता होती थी। समाधान वास्तुकार अपनी समग्र भूमिका के हिस्से के रूप में डेटा संरचना को डिजाइन करने के लिए संगठन की आवश्यकता का ख्याल रख सकता है। हालांकि, तब से डेटा की दुनिया बड़ी हो गई है।
बड़ा डेटा
आज, हम उन डेटा स्रोतों की अधिक मात्रा, अधिक वेग और गतिशील विविधता का सामना कर रहे हैं जिन्हें हम संसाधित कर रहे हैं। हम उन विशिष्ट रिलेशनल डेटाबेस के बारे में बात नहीं कर रहे हैं जो दशकों से लोकप्रिय हैं। डेटा के विस्तार के लिए तकनीकों और कौशलों के एक सेट की आवश्यकता होती है जो हमारे द्वारा उपयोग किए जा रहे डेटा के ऐतिहासिक दृष्टिकोण से भिन्न होते हैं।
डेटा की हमारी प्रोसेसिंग को मल्टीथ्रेडिंग करना डेटा प्रोसेसिंग के लिए सिंगल थ्रेडिंग दृष्टिकोण का सुधार है जिसने 1980 के दशक में डेटा प्रोसेसिंग को लोकप्रिय बनाया; हालांकि, ये दृष्टिकोण भी, जो निष्पादन के कई थ्रेड्स वाले एकल कंप्यूटर पर निर्भर करते हैं, तब टूट जाते हैं जब अर्थ निकालने के लिए आवश्यक प्रसंस्करण की मात्रा एक मशीन की क्षमता से अधिक हो जाती है।
सेवा-आधारित कंप्यूटिंग का उदय
1999 में, यूसी बर्कले के माध्यम से संचालित [email protected] परियोजना के माध्यम से, घर पर उपयोगकर्ता अपने कंप्यूटर पर अपने अतिरिक्त कंप्यूटिंग चक्रों को अलौकिक बुद्धि खोजने के लिए दान कर सकते थे। यह व्यापक रूप से वितरित कंप्यूटिंग या ग्रिड कंप्यूटिंग का पहला उपयोग नहीं था, लेकिन यह वह परियोजना है जिसने हर जगह इंटरनेट उपयोगकर्ताओं की कल्पना पर कब्जा कर लिया है। अचानक, उनके पास "ET" खोजने वाले होने की संभावना थी। निर्माण में, परियोजना ने कई कंप्यूटरों को प्रसंस्करण के लिए भारी मात्रा में डेटा वितरित किया, जो डेटा पर गणना करने के लिए यह देखने के लिए कि क्या दिलचस्प बिट्स थे जो संभवतः पृष्ठभूमि शोर नहीं थे। [email protected] उन वितरित कंप्यूटिंग प्रोजेक्ट्स में से एक था, जो उन समस्याओं के बारे में जागरूकता लाता था जहां एक कंप्यूटर पर्याप्त नहीं होने वाला था।
आईबीएम, माइक्रोसॉफ्ट, और अन्य अब कंप्यूटिंग और मशीन लर्निंग सेवाओं की पेशकश कर रहे हैं ताकि संगठनों को उस डेटा से निपटने में मदद मिल सके जो वे कैप्चर कर रहे हैं और इसे समझ रहे हैं ताकि उन्हें प्रतिबद्ध स्वयंसेवकों की एक सेना को संगठित न करना पड़े। प्लेटफ़ॉर्म का उद्देश्य डेटा की मात्रा में छिपी जानकारी को निकालने के लिए आवश्यक कंप्यूटिंग शक्ति और मशीन लर्निंग प्रदान करना है। समर्पित कंप्यूटिंग संसाधनों के साथ अपने स्वयं के डेटा केंद्र बनाने और तैनात करने की आवश्यकता वाले संगठनों के बजाय, डेटा को सूचना और अर्थ में बदलने के संसाधन किराए पर उपलब्ध हैं।
यह डेटा के बारे में नहीं है, यह अंतर्दृष्टि के बारे में है
भले ही हम जितना डेटा कैप्चर कर रहे हैं, वह चौंका देने वाला है, लेकिन यह डेटा दिलचस्प नहीं है। दिलचस्प बात यह है कि डेटा आपको क्या बता सकता है—यदि आप इसका विश्लेषण करने में सक्षम हैं। इंजन के प्रदर्शन पर व्यक्तिगत रीडिंग महत्वपूर्ण नहीं है, लेकिन यह अनुमान लगाने की क्षमता है कि इंजन को कब रखरखाव की आवश्यकता है या इसके विफल होने की संभावना है—यही महत्वपूर्ण।
डेटा आर्किटेक्ट और डेटाबेस एडमिनिस्ट्रेटर के रूप में डेटा वैज्ञानिक डेटा स्टोरेज पर ध्यान केंद्रित नहीं करते हैं। इसके बजाय, वे डेटा को सूचना में बदलने पर ध्यान केंद्रित कर रहे हैं और अंततः, इस अंतर्दृष्टि का उपयोग कर सकते हैं कि व्यवसाय बेहतर निर्णय लेने के लिए उपयोग कर सकता है। इसका मतलब है कि डेटा का विश्लेषण करने के लिए नए तरीकों की तलाश करना जो दिलचस्प अंतर्दृष्टि प्रकट करते हैं जो व्यवसाय अपने लाभ के लिए उपयोग कर सकता है।
सेट और आंकड़ों पर कायम
पारंपरिक सॉफ्टवेयर विकास जुलूस समस्याओं को हल करने के लिए एक प्रक्रियात्मक दृष्टिकोण से परिचित है। डेवलपर्स, लीड और आर्किटेक्ट प्रक्रियात्मक निर्माण के तरीकों और लाभों में अच्छी तरह से शिक्षित हैं। प्रक्रियात्मक दृष्टिकोण एक अविश्वसनीय रूप से कर्तव्यपरायण लेकिन मूल कार्यकर्ता के स्वचालन की तरह नहीं हैं। कंप्यूटर को चरणों (प्रक्रिया) के बारे में बताया जाता है कि उसे किस क्रम में और किन परिस्थितियों में ऑपरेशन को दोहराना चाहिए या कई रास्तों के बीच विभाजित करना चाहिए। हालाँकि, डेटा वैज्ञानिक न केवल प्रक्रियात्मक दृष्टिकोण के साथ बल्कि सेट-आधारित तर्क के साथ भी काम करते हैं। सोचने की शैली अलग है, क्योंकि यह अंतराल और चौराहों की तलाश करती है। यह सूचना के विभिन्न सेटों के बीच समानता और असमानता संबंधों पर आधारित कार्य करता है।
भले ही कुछ डेवलपर्स को अपने काम में सेट-आधारित तर्क का सामना करना पड़ा हो, डेटा वैज्ञानिकों को जानकारी के सेट में हेरफेर करने की उनकी क्षमता में सहज और धाराप्रवाह होना चाहिए।
इसके अलावा, सॉफ्टवेयर विकास जीवनचक्र में अन्य भूमिकाओं के विपरीत, डेटा वैज्ञानिक को सॉफ्टवेयर विकास के दायरे से बाहर एक विशेष कौशल की आवश्यकता होती है। चूंकि डेटा वैज्ञानिक डेटा के विभिन्न बिट्स के बीच संबंधों के बारे में अंतर्दृष्टि की तलाश करते हैं, इसलिए उन्हें आंकड़ों में एक ठोस आधार की आवश्यकता होती है ताकि वे उन सवालों के जवाब देने के लिए सहसंबंध जैसे सांख्यिकीय मूल्यों को देख सकें और उत्पन्न कर सकें और विभिन्न डेटा सेटों के बीच सटीक संबंध ढूंढ सकें।पी>
स्थिति शीर्षक कहां है, वैसे भी?
डेटा में वृद्धि टिपिंग बिंदु पर पहुंच गई है। चाहे वह सोशल नेटवर्क विश्लेषण हो, क्लिक इतिहास हो, या डेटा खरीदना हो, संगठन अपने डेटाबेस में बंद डेटा में वास्तविक व्यावसायिक मूल्य देख रहे हैं, और डेटा वैज्ञानिक उस डेटा की क्षमता को अनलॉक करने की कुंजी हैं।
उस मूल्य को प्राप्त करने का अर्थ है उन लोगों को काम पर रखना जिनके पास प्रसंस्करण एल्गोरिदम को डेटा से जोड़ने और उन परिणामों को बनाने के लिए कंप्यूटिंग शक्ति का उपयोग करने का कौशल है।
द गुड, द बैड, एंड द अग्ली
इंटरनेट ऑफ थिंग्स उपकरणों के आगमन के साथ डेटा विज्ञान अभी विस्फोट कर रहा है, सभी प्रकार के डेटा को सभी प्रकार के स्थानों से रिकॉर्ड कर रहा है। इसका अर्थ है महान अवसर- और कुछ चुनौतियों से अधिक। यहां उनमें से कुछ चुनौतियाँ दी गई हैं:
- अच्छा: डेटा से अंतर्दृष्टि निकालने के नए तरीके खोजने का बहुत अच्छा अवसर है।
- अच्छा: कंप्यूटिंग और भंडारण संसाधनों को बड़ी मात्रा में खरीदा जा सकता है।
- अच्छा: डेटा वैज्ञानिक बहुत मांग में हैं और संभवत:कुछ समय तक ऐसा ही रहेगा।
- खराब: जैसे-जैसे एल्गोरिदम और दृष्टिकोण विकसित होते जाएंगे, आप हमेशा पुराना महसूस करेंगे।
- खराब: सभी डेटा में सफाई की आवश्यकता होती है, और इस काम पर काफी समय खर्च किया जाएगा।
- बदसूरत: परीक्षण और त्रुटि का अर्थ होगा बहुत सारी "असफलताएं" और कुछ जीत।
निष्कर्ष में
डेटा साइंटिस्ट की भूमिका में तेजी से बढ़ती जरूरत और कौशल का एक अलग सेट है। यदि आप अपने सांख्यिकी वर्ग से प्यार करते हैं और ऐसे पैटर्न ढूंढना पसंद करते हैं जो अन्य लोग नहीं देख सकते हैं, तो यह आपके लिए सही हो सकता है।