Database
 sql >> डेटाबेस >  >> RDS >> Database

बिग डेटा एनालिटिक्स को समझना

बड़ा डेटा तभी उपयोगी है जब हम इसके साथ कुछ कर सकते हैं; अन्यथा, यह केवल कचरे का ढेर है। हालाँकि, खुदाई करने के लिए आवश्यक प्रयास कभी-कभी भूसे के ढेर में सुई खोजने की कोशिश करने जैसा होता है। बहुत सारे विश्लेषण के बाद ही एक सार्थक पैटर्न उभरता है। एनालिटिक्स काम करता है, उपलब्ध मशीनरी के हर टुकड़े के साथ डेटा का विश्लेषण करने की कोशिश करता है, जिसमें दिमाग भी शामिल है। ये मशीनरी और कुछ नहीं बल्कि डेटा का पता लगाने के लिए कंप्यूटिंग शक्ति के साथ उपकरण हैं। यह लेख बिग डेटा एनालिटिक्स के साथ उपयोग की जाने वाली तकनीकों के बारे में एक संक्षिप्त अवलोकन देने का प्रयास करता है।

एक सिंहावलोकन

विश्लेषण से पहले, डेटा विभिन्न स्रोतों से एकत्र किया जाता है। आपको इसे इस तरह से व्यवस्थित करना चाहिए कि एक विश्लेषक अपना काम कर सके और संगठन की व्यावसायिक प्रक्रिया के लिए उपयोगी कुछ ठोस डेटा उत्पाद वितरित कर सके। एकत्रित डेटा विभिन्न राज्यों में हो सकता है, जैसे कि असंरचित कच्चा डेटा, अर्ध-संरचित डेटा, संरचित डेटा, आदि। ये बिग डेटा एनालिटिक्स के कच्चे माल हैं। फिर, खोज की जटिल प्रक्रिया छिपे हुए पैटर्न, सहसंबंधों और अंतर्दृष्टि को उजागर करना शुरू कर देती है। विश्लेषक विश्लेषण की प्रक्रिया में किसी भी उपलब्ध उपकरण और तकनीक की मदद लेते हैं और इससे कुछ मूल्य प्राप्त करने का प्रयास करते हैं। इसलिए, क्या डेटा विश्लेषण साधन डेटा के एक बड़े सेट (एक या अधिक विशेषताओं के साथ जो इसे बड़े डेटा के रूप में संदर्भित करता है) की जांच करने और कुछ सार्थक जानकारी को उजागर करने की प्रक्रिया है।

बुनियादी विश्लेषण

विश्लेषक को शुरू में यह सुनिश्चित करने की आवश्यकता है कि डेटा का विश्लेषण करने के लिए कठोर प्रयासों और संसाधनों को नियोजित करने से पहले डेटा का कुछ मूल्य है। कभी-कभी, कुछ परिणाम प्राप्त करने के लिए आपको सरल विज़ुअलाइज़ेशन और आंकड़े की आवश्यकता होती है। बुनियादी तकनीकें इस प्रकार हैं:

  • बुनियादी निगरानी: वास्तविक समय में बड़ी मात्रा में डेटा की निगरानी करना भी कुछ अंतर्दृष्टि प्राप्त करने के तरीकों में से एक है। उदाहरण के लिए, वर्षों से संकलित मौसम संबंधी आंकड़ों की निगरानी करके, हम भौगोलिक क्षेत्र की जलवायु परिस्थितियों के प्रकारों में काफी अंतर्दृष्टि प्राप्त कर सकते हैं। साथ ही, हवा, नमी, दबाव, तापमान आदि की वास्तविक समय की जानकारी आने वाले तूफान के प्रकार पर प्रकाश डाल सकती है। यदि हम प्रत्येक बिंदु को जोड़ते हैं, तो बड़ी जानकारी वाले कई पैरामीटर हो सकते हैं। आज, अगर हम सोशल मीडिया में सभी ट्वीट्स की प्रवृत्ति को टैप कर सकते हैं, तो हम आसानी से जनता का अनुमान लगा सकते हैं कि वे क्या सोच रहे हैं। राजनीतिक विश्लेषक अक्सर ऐसा करते हैं और वे जो करते हैं वह सिर्फ स्ट्रीमिंग डेटा की निगरानी करते हैं।
  • टुकड़ा करना और काटना: यह सामान्य तकनीक डेटा के एक बड़े ब्लॉक को छोटे डेटा सेट में विभाजित करने के लिए संदर्भित करती है ताकि इसे देखना और समझना आसान हो जाए। जब तक एक अधिक प्रबंधनीय आकार प्राप्त नहीं हो जाता तब तक विभाजन को दोहराव से किया जाता है। कुछ अंतर्दृष्टि प्राप्त करने या कुछ गणना करने, ग्राफिकल प्रतिनिधित्व बनाने या छोटे डेटा सेट पर सांख्यिकीय सूत्र लागू करने के लिए विशिष्ट प्रश्नों को निकाल दिया जाता है। यह डेटा के समुद्र में बैठे विश्लेषक के लिए एक निश्चित परिप्रेक्ष्य का पता लगाने में मदद करता है। एक परिप्रेक्ष्य निश्चित होने पर ही कोई प्रश्न पूछ सकता है। इसलिए, बड़ी मात्रा में डेटा के साथ काम करते समय तकनीक क्वेरी स्पेस बनाने में मदद करती है।
  • विसंगति का पता लगाना: विसंगति , यहाँ, घटनाओं के अचानक परिवर्तन को संदर्भित करता है जो एक ऐसे वातावरण में होता है जो विभिन्न प्रभावों को ट्रिगर कर सकता है। उदाहरण के लिए, सेंसेक्स में अचानक गिरावट के कई कारण हो सकते हैं, जैसे अचानक सामाजिक-राजनीतिक परिवर्तन, युद्ध या प्राकृतिक आपदा, या कई अन्य चीजें। लेकिन, अगर हम विसंगति का पता लगा सकते हैं, तो यह स्थिति को समझने और उसका विश्लेषण करने के लिए एक मूल्यवान अंतर्दृष्टि प्रदान करता है। आँकड़ों का एक सरल सेट या अवलोकन समस्या को हल करने में भी मदद कर सकता है।

उन्नत एनालिटिक्स

जैसा कि स्पष्ट होना चाहिए, विश्लेषण हमेशा सीधा या सरल नहीं होता है। वास्तव में, कई मामलों में यह डेटा की जटिलता पर निर्भर करता है, और जिस प्रकार की जानकारी हम निकालना चाहते हैं, वह इस प्रक्रिया में शामिल किए जाने वाले विश्लेषण के प्रकार को निर्धारित करता है। उन्नत विश्लेषिकी डेटा के विभिन्न स्वरूपों पर जटिल विश्लेषण के लिए एल्गोरिदम का उपयोग करती है, जैसे कि मशीन लर्निंग, तंत्रिका नेटवर्क, परिष्कृत सांख्यिकीय मॉडल, टेक्स्ट एनालिटिक्स और उन्नत डेटा माइनिंग तकनीकों का उपयोग करके डेटा की मात्रा से कुछ सार्थक पैटर्न प्राप्त करना।

  • पाठ विश्लेषण: टेक्स्ट एनालिटिक्स एक ऐसी प्रक्रिया है जिसमें असंरचित डेटा के संग्रह से सार्थक जानकारी प्राप्त की जाती है। असंरचित डेटा से निपटना बड़े डेटा विश्लेषण का एक बड़ा हिस्सा है; इसलिए, जानकारी का विश्लेषण करने और निकालने और अंत में इसे संरचित जानकारी में बदलने के लिए विशिष्ट तकनीकों को नियोजित किया जाता है। तब संरचित जानकारी का उपयोग आगे आसानी से विश्लेषण करने के लिए किया जाता है। टेक्स्ट एनालिटिक्स के साथ नियोजित तकनीकें कम्प्यूटेशनल भाषाविज्ञान, सांख्यिकी और अन्य कंप्यूटर विज्ञान विषयों से ली गई हैं।
  • भविष्य कहनेवाला मॉडलिंग: प्रिडिक्टिव मॉडलिंग परिणामों की भविष्यवाणी करने के लिए डेटा माइनिंग सॉल्यूशंस और प्रायिकता का उपयोग करती है। परिणाम की भविष्यवाणी करने के लिए तकनीक संरचित और असंरचित डेटा दोनों पर लागू होती है। उदाहरण के लिए, एक भविष्य कहनेवाला प्रणाली किसी उत्पाद के उपभोक्ताओं की संख्या का अनुमान लगा सकती है जो कुछ व्यवहारिक विशेषताओं के आधार पर किसी अन्य उत्पाद में स्थानांतरित हो सकती है या सोशल मीडिया में ट्वीट करने की प्रवृत्ति को देखकर लोगों की मानसिकता में बदलाव की भविष्यवाणी कर सकती है, जो एक निर्णायक सामाजिक-राजनीतिक हो सकती है। एक राजनीतिक अभियान में परिणाम।
  • सांख्यिकीय, डेटा माइनिंग एल्गोरिदम का उपयोग करना: सांख्यिकी और डेटा माइनिंग समाधानों का उपयोग करके पूर्वानुमान की कई अन्य उन्नत तकनीकें हैं। क्लस्टर विश्लेषण, सूक्ष्म विभाजन, आत्मीयता विश्लेषण, और इसी तरह की तकनीकें हैं।

निष्कर्ष

यह लेख, निश्चित रूप से, केवल विषय की सतह को खरोंचता है, फिर भी शायद इसका स्वाद देता है कि इसे बड़े डेटा एनालिटिक्स कहा जाना चाहिए। संगठनों द्वारा बड़े डेटा के उपयोग की प्रवृत्ति सभी अच्छे और बुरे कारणों से तेजी से गति पकड़ रही है। परिणाम निस्संदेह उपयोग और दुरुपयोग के लिए खुला है और हम इसे रोक नहीं सकते। बड़े डेटा विश्लेषण की प्रक्रिया में सहायता के लिए नए उपकरण और प्रौद्योगिकियां बनाई गई हैं। शायद जागरूकता ही एकमात्र राहत है।


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. SQL डेटा हेरफेर भाषा

  2. समूहीकृत माध्यिका के लिए सर्वोत्तम दृष्टिकोण

  3. पार्स पैरामीटर डिफ़ॉल्ट मान PowerShell का उपयोग कर - भाग 2

  4. जावा में समवर्ती संग्रह एपीआई का परिचय

  5. SQL अनुपालन प्रबंधक की सामान्य उपलब्धता की घोषणा 5.9