Database
 sql >> डेटाबेस >  >> RDS >> Database

बिग डेटा की 3 प्रमुख विशेषताओं को समझना

यह तथ्य कि संगठन बिग डेटा चुनौतियों का सामना करते हैं, आजकल आम है। शब्द बिग डेटा डेटा के विशाल ढेर से कुछ सार्थक जानकारी निकालने के लिए, पुरानी और नई दोनों, कई तकनीकों के एक सेट के उपयोग को संदर्भित करता है। डेटा सेट न केवल बड़ा है बल्कि उन्हें कैप्चर करने, प्रबंधित करने और संसाधित करने में चुनौतियों का अपना अनूठा सेट भी है। संबंधपरक डेटाबेस में मौजूद डेटा के विपरीत, जो संरचित होते हैं, बड़े डेटा प्रारूप को संरचित, अर्ध-संरचित से असंरचित, या विभिन्न आकारों के साथ विभिन्न स्रोतों से एकत्र किया जा सकता है। यह लेख बिग डेटा के मूलभूत पहलुओं, इसकी बुनियादी विशेषताओं पर प्रकाश डालता है, और आपको इससे निपटने के लिए उपयोग किए जाने वाले उपकरणों और तकनीकों का संकेत देता है।

एक सिंहावलोकन

शब्द बिग डेटा केवल डेटा के आकार का आभास देता है। यह एक मायने में सच है, लेकिन पूरी तस्वीर नहीं देता है। इससे जुड़ी चुनौतियाँ केवल इसके आकार को लेकर नहीं हैं। वास्तव में, यह विचार विभिन्न स्रोतों, स्वरूपों और आकारों से एकत्र किए गए डेटा के एक समुद्र का नाम देने के लिए विकसित हुआ, और साथ ही, इसका दोहन करना या इसका मूल्य प्राप्त करना मुश्किल था। उभरती हुई तकनीक के उदय और इंटरनेट के बढ़ते उपयोग ने मात्रा और असमानता को बढ़ावा दिया। इंटरनेट पर हर सूचना के आदान-प्रदान या यहां तक ​​कि हमारे द्वारा उपयोग की जाने वाली छोटी IoT वस्तुओं के साथ मात्रा बढ़ती रहती है। एक फोन कॉल लेने या सीसीटीवी पर स्विच करने से डेटा श्रृंखला उत्पन्न हो सकती है। आज, अधिकांश उपकरण ऑनलाइन जुड़े हुए हैं। अब, यदि कोई संगठन उस जानकारी को ऑनलाइन एकत्र करना चाहता है, तो उसे एक विशेष प्रसंस्करण प्रक्रिया की आवश्यकता होती है क्योंकि उत्पन्न डेटा बड़े पैमाने पर होगा। इसके अलावा, कैप्चर किए गए डेटा के प्रारूप में कोई एकरूपता नहीं हो सकती है। यह जटिलता को बढ़ाता है क्योंकि हमें संरचित, अर्ध-संरचित या असंरचित डेटा से निपटना पड़ता है। डेटा को व्यवस्थित करने के लिए हमने अब तक जिन उपकरणों का उपयोग किया है, वे इस तरह की विविधता और मात्रा से निपटने में असमर्थ हैं। इसलिए, हम कह सकते हैं कि शब्द बिग डेटा वास्तव में उस डेटा पर लागू होता है जिसे पारंपरिक उपकरणों और तकनीकों के माध्यम से संसाधित या विश्लेषण नहीं किया जा सकता है जो आमतौर पर संरचित या अर्ध-संरचित डेटा को संसाधित करने के लिए उपयोग किया जाता है जैसे कि रिलेशनल डेटाबेस, एक्सएमएल, और आगे का उपयोग करना।

संगठन आज कच्चे प्रारूप में उपलब्ध असंरचित या अर्ध-संरचित डेटा से भरे हुए हैं। यदि संसाधित किया जाता है और इससे प्राप्त मूल्य प्राप्त होता है तो ये डेटा जानकारी का खजाना हो सकता है। लेकिन, समस्या यह है कि इसे कैसे किया जाए। पारंपरिक तकनीक और उपकरण, जैसे कि रिलेशनल डेटाबेस, इतनी बड़ी मात्रा में विविध डेटा से निपटने के लिए अपर्याप्त हैं। यह संगठनों के लिए भी एक दोधारी समस्या है, क्योंकि केवल उन्हें टुकड़े टुकड़े करने का अर्थ होगा मूल्यवान जानकारी खोना - यदि कोई हो - और उन्हें रखना संसाधनों की बर्बादी है। इसलिए, समस्या से निपटने के लिए कुछ उपकरण और तकनीकों की तलाश की जाती है। कभी-कभी, हम ढेर में पड़े इसके संभावित मूल्य के बारे में पूरी तरह से सुनिश्चित होते हैं और जानकारी की एक सोने की खान काट सकते हैं, लेकिन उचित उपकरणों के बिना, व्यावसायिक प्रक्रिया के लिए इससे कोई लाभ प्राप्त करना काफी कठिन है। डेटा आज बड़े पैमाने पर हैं और हाल के वर्षों में किसी भी चीज़ की तरह विस्फोट हुआ है; ऐसा लगता है कि इसे कोई रोक नहीं सकता, वैसे।

सूचना विस्फोट

लगभग हर क्षेत्र में बिग डेटा हर मिनट बड़ा होता जा रहा है, चाहे वह तकनीक, मीडिया, खुदरा, वित्तीय सेवा, यात्रा और सोशल मीडिया हो, कुछ ही नाम रखने के लिए। हम जिस डेटा प्रोसेसिंग के बारे में बात कर रहे हैं वह दिमागी दबदबा है। आपको एक अनुमान देने के लिए यहां कुछ सांख्यिकीय जानकारी दी गई है:

  • मौसम चैनलों को हर मिनट 18,055,555 पूर्वानुमान अनुरोध प्राप्त होते हैं।
  • नेटफ्लिक्स उपयोगकर्ता हर मिनट 97,222 घंटे वीडियो स्ट्रीम करते हैं।
  • स्काइप उपयोगकर्ता हर मिनट 176,220 कॉल करते हैं।
  • इंस्टाग्राम उपयोगकर्ता हर मिनट 49,380 तस्वीरें पोस्ट करते हैं।

इंटरनेट का उपयोग करने वाले लोगों की बढ़ती संख्या के साथ ये संख्या हर साल बढ़ रही है। 2017 में, इंटरनेट का उपयोग दुनिया की आबादी के 47% (3.8 बिलियन लोगों) तक पहुंच गया। इलेक्ट्रॉनिक उपकरणों की लगातार बढ़ती संख्या के साथ, हमारा अनुमानित आउटपुट डेटा प्रति दिन 2.5 क्विंटल बाइट और बढ़ रहा है।

Google खोज आंकड़े प्रति दिन 3.5 अरब खोज दिखाते हैं, जो औसतन प्रति सेकंड 40,000 से अधिक खोजें हैं। हमें यह भी नहीं भूलना चाहिए कि अन्य खोज इंजन भी खोज कर रहे हैं। रेडिकटी ग्रुप, इंक. की ईमेल सांख्यिकी रिपोर्ट, 2015-2019, 2019 तक 2.9 बिलियन ई-मेल उपयोगकर्ताओं को दिखाती है।

2017 में कितनी तस्वीरें ली जाएंगी, इसका अनुमान लगाने के प्रयास में:यदि 2017 में दुनिया में 7.5 बिलियन लोग थे, जिनमें लगभग 5 बिलियन मोबाइल फोन थे, तो एक संभावित अनुमान यह है कि उनमें से 80% फोन में बिल्ट-इन कैमरे हैं। इसका मतलब है कि करीब 4 अरब लोग अपने कैमरों का इस्तेमाल कर रहे हैं। यदि वे प्रति दिन 10 फ़ोटो लेते हैं, जो प्रति व्यक्ति प्रति वर्ष 3,650 फ़ोटो के बराबर है, तो यह प्रति वर्ष लगभग 14 ट्रिलियन फ़ोटो लिए जा रहा है।

इसलिए, जब हम बिग डेटा कहते हैं, तो यह अनिवार्य रूप से डेटा या रिकॉर्ड के सेट को संदर्भित करता है जो अनुमान लगाने योग्य होने के लिए बहुत बड़े हैं। वे खोज इंजन, व्यावसायिक सूचना विज्ञान, सामाजिक नेटवर्क, सोशल मीडिया, जीनोमिक्स, मौसम विज्ञान, मौसम पूर्वानुमान और कई अन्य स्रोतों के माध्यम से तैयार किए जाते हैं। यह स्पष्ट रूप से मौजूदा डेटाबेस प्रबंधन उपकरणों और तकनीकों का उपयोग करके संचालित नहीं किया जा सकता है। बिग डेटा भंडारण, कैप्चर, प्रबंधन, रखरखाव, विश्लेषण, अनुसंधान, उन्हें संभालने के लिए नए उपकरण, और इसी तरह की बड़ी चुनौतियों का एक क्षेत्र खोलता है।

बिग डेटा की विशेषताएं

जैसा कि सभी बड़ी चीजों के साथ होता है, अगर हम उन्हें प्रबंधित करना चाहते हैं, तो हमें अपनी समझ को व्यवस्थित करने के लिए उन्हें चिह्नित करने की आवश्यकता है। इसलिए, बिग डेटा को तीन विशेषताओं में से एक या अधिक द्वारा परिभाषित किया जा सकता है, तीन बनाम:उच्च वॉल्यूम , उच्च किस्म , और उच्च वेग . ये विशेषताएँ कुछ महत्वपूर्ण प्रश्न उठाती हैं जो न केवल हमें इसे समझने में मदद करती हैं, बल्कि एक उचित समय सीमा के भीतर एक प्रबंधनीय गति से बड़े पैमाने पर, असमान डेटा से निपटने के बारे में एक अंतर्दृष्टि भी देती हैं ताकि हम इसका मूल्य प्राप्त कर सकें, कुछ करें रीयल-टाइम विश्लेषण, और बाद में तुरंत प्रतिक्रिया प्रदान करें।

  • वॉल्यूम: वॉल्यूम कंप्यूटिंग दुनिया के कभी-विस्फोट करने वाले डेटा के विशाल आकार को संदर्भित करता है। यह डेटा की मात्रा के बारे में सवाल उठाता है।
  • वेग: वेग प्रसंस्करण गति को संदर्भित करता है। यह सवाल उठाता है कि डेटा किस गति से संसाधित होता है।
  • किस्म: विविधता डेटा के प्रकारों को संदर्भित करती है। यह सवाल उठाता है कि डेटा प्रारूप कितने अलग हैं।

ध्यान दें कि हम बिग डेटा को तीन बनाम में चिह्नित करते हैं, केवल इसके मूल सिद्धांतों को सरल बनाने के लिए। यह काफी संभव है कि आकार अपेक्षाकृत छोटा हो सकता है, फिर भी बहुत भिन्न और जटिल हो सकता है, या यह अपेक्षाकृत सरल हो सकता है फिर भी डेटा की एक बड़ी मात्रा हो सकती है। इसलिए, इन तीन बनाम के अलावा, हम आसानी से एक और जोड़ सकते हैं, सत्य . सत्यता उस व्यावसायिक मूल्य के संबंध में डेटा की सटीकता निर्धारित करती है जिसे हम निकालना चाहते हैं। सत्यता के बिना, किसी संगठन के लिए डेटा के ढेर का विश्लेषण करने के लिए अपने संसाधनों को लागू करना संभव नहीं है। डेटा के संदर्भ में अधिक सटीकता के साथ, मूल्यवान जानकारी प्राप्त करने की अधिक संभावना है। इसलिए, सत्यता बिग डेटा की एक अन्य विशेषता है। कंपनियां ई-मेल, सोशल मीडिया, टेक्स्ट स्ट्रीम आदि से संरचित, अर्ध-संरचित और असंरचित डेटा का लाभ उठाती हैं। लेकिन, विश्लेषण से पहले, डेटा की मात्रा और प्रकार की पहचान करना महत्वपूर्ण है जो व्यावसायिक परिणामों को प्रभावित करेगा।

उपकरण और तकनीक

आर्टिफिशियल इंटेलिजेंस (AI), IoT और सोशल मीडिया नए रूपों और स्रोतों के माध्यम से डेटा जटिलता को बढ़ा रहे हैं। उदाहरण के लिए, यह महत्वपूर्ण है कि, वास्तविक समय में, सेंसर, डिवाइस, नेटवर्क, लेन-देन के माध्यम से आने वाले बड़े डेटा को कम विलंबता के साथ कैप्चर, प्रबंधित और संसाधित किया जाता है। बिग डेटा ऐतिहासिक डेटा का उपयोग करके विश्लेषकों, शोधकर्ताओं और व्यावसायिक उपयोगकर्ताओं को अधिक सूचित निर्णय लेने में सक्षम बनाता है, जो अन्यथा अप्राप्य था। डेटा के उपलब्ध ढेर से नई अंतर्दृष्टि निकालने के लिए टेक्स्ट विश्लेषण, मशीन लर्निंग, प्रेडिक्टिव एनालिटिक्स, डेटा माइनिंग और प्राकृतिक भाषा प्रसंस्करण का उपयोग कर सकते हैं।

प्रौद्योगिकी बड़े पैमाने पर डेटा का प्रबंधन करने के लिए विकसित हुई है, जो पहले महंगी थी और सुपर कंप्यूटर की मदद लेनी पड़ती थी। फेसबुक जैसे सोशल मीडिया, गूगल और याहू जैसे सर्च इंजनों के उद्भव के साथ, बिग डेटा प्रोजेक्ट्स को प्रोत्साहन मिला और यह आज की तरह बढ़ता गया। आज की जरूरत को पूरा करने के लिए MapReduce, Hadoop और Big Table जैसे टेक विकसित किए गए हैं।

बिग डेटा के संबंध में NoSQL रिपॉजिटरी का भी उल्लेख किया गया है। यह रिलेशनल डेटाबेस के विपरीत एक वैकल्पिक डेटाबेस है। ये डेटाबेस पारंपरिक रिलेशनल डेटाबेस में पाए जाने वाले पंक्तियों और स्तंभों की तालिकाओं में रिकॉर्ड व्यवस्थित नहीं करते हैं। विभिन्न प्रकार के NoSQL डेटाबेस हैं, जैसे कंटेंट स्टोर, डॉक्यूमेंट स्टोर, इवेंट स्टोर, ग्राफ, की वैल्यू, और इसी तरह। वे प्रश्नों के लिए SQL का उपयोग नहीं करते हैं और वे एक भिन्न वास्तु मॉडल का अनुसरण करते हैं। वे बिग डेटा एनालिटिक्स को अनुकूल तरीके से सुविधाजनक बनाने के लिए पाए जाते हैं। कुछ लोकप्रिय नाम हैं:Hbase, MongoDB, CouchDB, और Neo4j। उनके अलावा और भी कई हैं।

निष्कर्ष

बिग डेटा ने डेटा हार्वेस्टिंग और उससे मूल्य निकालने के लिए एक नया अवसर खोला, जो अन्यथा बर्बादी कर रहे थे। रिलेशनल डेटाबेस जैसे पारंपरिक टूल की मदद से बिग डेटा को कैप्चर, मैनेज और प्रोसेस करना असंभव है। बिग डेटा प्लेटफ़ॉर्म डेटा के विशाल, विविध और वेग से अंतर्दृष्टि निकालने के लिए उपकरण और संसाधन प्रदान करता है। डेटा के इन ढेर में अब एक संगठन की व्यावसायिक प्रक्रिया में विभिन्न उद्देश्यों के लिए उपयोग किए जाने वाले साधन और व्यवहार्य संदर्भ हैं। इसलिए, सटीक रूप से यह तय करने के लिए कि हम किस प्रकार के डेटा के बारे में बात कर रहे हैं, हमें इसे और इसकी विशेषताओं को प्राथमिक चरण के रूप में समझना चाहिए।


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. पेरकोना डीबी क्या है

  2. इंस्टेंस सेटिंग्स प्राप्त करने के लिए संग्रहीत प्रक्रिया

  3. उपयोगकर्ताओं, थ्रेड्स और पोस्ट को प्रबंधित करने के लिए बुनियादी डेटा संरचना की मॉडलिंग

  4. फ्लाईस्पीड SQL क्वेरी को Salesforce.com से कनेक्ट करना

  5. क्या मुझे NOT IN, OUTER APPLY, LEFT OUTER JOIN, EXCEPT, या NOT EXISTS का उपयोग करना चाहिए?