Database
 sql >> डेटाबेस >  >> RDS >> Database

डेटा माइनिंग का परिचय

ध्यान दें:यह लेख मूल रूप से 2015 में तैयार किया गया था, लेकिन 2019 में अपडेट किया गया था ताकि आईआरआई वोरासिटी और नाइम (कॉन्स्टैंज इंफॉर्मेशन माइनर के लिए) के बीच नए एकीकरण को दर्शाया जा सके, जो अब उपलब्ध सबसे शक्तिशाली ओपन सोर्स डेटा माइनिंग प्लेटफॉर्म है।

डेटा माइनिंग डेटा से ज्ञान प्राप्त करने का विज्ञान है, आमतौर पर बड़े डेटा सेट जिसमें सार्थक जानकारी, रुझान और अन्य उपयोगी अंतर्दृष्टि की खोज करने की आवश्यकता होती है। डेटा माइनिंग मशीन लर्निंग और सांख्यिकीय विधियों का उपयोग करके उपयोगी "नगेट्स" की जानकारी निकालने के लिए जो अन्यथा एक बहुत ही डराने वाला डेटा सेट होता।

डेटा माइनिंग कई कंप्यूटर और गणितीय विषयों तक फैला हुआ है। यह इतनी एकात्मक प्रक्रिया नहीं है क्योंकि यह क्रियाओं के एक समूह के लिए एक छत्र शब्द है। खनन के दौरान किए जाने वाले चार व्यापक कार्यों में शामिल हैं: अन्वेषी डेटा विश्लेषण (ईडीए), वर्णनात्मक मॉडलिंग, भविष्य कहनेवाला मॉडलिंग और पैटर्न खोज।

EDA पारंपरिक सांख्यिकीय विज़ुअलाइज़ेशन विधियों या अपरंपरागत चित्रमय विधियों का उपयोग यह देखने के लिए करता है कि क्या डेटा में कुछ दिलचस्प पाया जा सकता है।

वर्णनात्मक मॉडलिंग में, डेटा को एक रूटीन में पास किया जाता है और क्रिया (डेटा जनरेटर) या विशेषण (डेटा विवरण) उत्पन्न करता है जो डेटा के गठन के पीछे होते हैं। इसमें ऐसे तरीके शामिल हैं जो डेटा को संभाव्यता वितरण, क्लस्टरिंग और निर्भरता मॉडलिंग के साथ जोड़ते हैं।

भविष्य कहनेवाला मॉडलिंग भविष्य के अज्ञात डेटा बिंदुओं की भविष्यवाणी के लिए एक मानक स्थापित करने के लिए प्रतिगमन और वर्गीकरण विधियों का उपयोग करता है। प्रतिगमन एक विशुद्ध रूप से गणितीय विश्लेषण है जो अगले मूल्य की भविष्यवाणी करने के लिए एक डेटा सेट के समीकरण को फिट करता है। भविष्य कहनेवाला मॉडलिंग पैटर्न नियमों और संबंध (या यहां तक ​​कि विशेष रूप से पहचाने गए कारण और प्रभाव) रुझानों पर भी भरोसा कर सकता है जो डेटा के तार्किक विश्लेषण (LAD) पद्धति का उपयोग करके खोजे गए थे।

एलएडी के माध्यम से पैटर्न की खोज प्रेक्षणों के पिछले वर्गीकरणों के अनुसार नए अवलोकनों को वर्गीकृत करती है और विश्लेषण सटीकता में सुधार के लिए अनुकूलन, संयोजन और बूलियन कार्यों का उपयोग करती है।

अधिकांश भाग के लिए, ये विधियाँ केवल यह इंगित कर सकती हैं कि कौन सी डेटा प्रविष्टियाँ संबंधित हैं, लेकिन वे क्यों या कैसे संबंधित हैं, इसका कारण नहीं। इन नियमों या पैटर्नों को खोजकर यह समझाना संभव है कि एक वर्ग/समूह दूसरे से क्या विशेषता रखता है, और विषयों को डेटा के आधार पर विभिन्न तरीकों से सूचीबद्ध किया जाता है।

डेटा माइनिंग के लिए आवेदन व्यवसाय विपणन से लेकर दवा तक, बैंकिंग और बीमा में धोखाधड़ी का पता लगाने से लेकर खगोल विज्ञान तक, मानव संसाधन प्रबंधन से लेकर कैटलॉग मार्केटिंग उद्योग तक, आदि हो सकते हैं। चिकित्सा पेशे ने इसे विभिन्न रोग प्रगति दर वाले लोगों की विशेषताओं के बीच अंतर करने के लिए उपयोगी पाया है। खुदरा स्टोर अब उपभोक्ता खर्च करने की आदतों को बेहतर ढंग से समझने के लिए डेटा माइनिंग का उपयोग कर रहे हैं, यह देखते हुए कि कौन सी वस्तुएं एक साथ खरीदी जाती हैं और उनके संबंध, साथ ही साथ अपने ग्राहकों को विज्ञापन देने का सबसे अच्छा तरीका है। और कॉर्पोरेट जगत का अधिकांश हिस्सा अब प्रमुख व्यावसायिक निर्णयों की गणना, निष्पादन और औचित्य के लिए डेटा माइनिंग पर निर्भर करता है।

हालाँकि, जैसा कि अब हर कोई एनएसए-वेरिज़ोन टेलीफोन रिकॉर्ड घोटाले के हालिया गहन मीडिया कवरेज से जानता है, डेटा माइनिंग भी बेहद विवादास्पद हो सकता है। यदि आप एक चट्टान के नीचे रह रहे हैं, तो यहां एक संक्षिप्त सारांश दिया गया है:

5 जून, 2013 को, द गार्जियन नामक ब्रिटिश दैनिक समाचार पत्र ने एक विशेष रिपोर्ट प्रकाशित की कि अमेरिका में सबसे बड़े दूरसंचार प्रदाताओं में से एक, वेरिज़ॉन के लाखों ग्राहक रिकॉर्ड, एक वर्गीकृत आदेश के जवाब में, यू.एस. राष्ट्रीय सुरक्षा एजेंसी द्वारा एकत्र किए गए थे। यूएस फॉरेन इंटेलिजेंस सर्विलांस कोर्ट से। Verizon की Business Network Services को मोबाइल सेवा प्रदाता द्वारा यू.एस. और विदेशों में बनाए गए सभी टेलीफ़ोनी मेटाडेटा को सौंपने के लिए मजबूर किया गया था। नतीजतन, ओबामा प्रशासन की द्विदलीय और सार्वभौमिक आलोचना तब नागरिक अधिकार वकालत समूहों और समाचार मीडिया आउटलेट्स से शुरू हुई, जिसमें कार्यकारी शक्ति के राष्ट्रपति के दुरुपयोग का दावा किया गया था। इस लेख के लिखे जाने तक इस घटना का कोई समाधान नजर नहीं आता। लेकिन निस्संदेह, यह एक प्रमुख उदाहरण के रूप में रहेगा कि कैसे डेटा खनन को कभी-कभी नकारात्मक रोशनी में देखा जा सकता है, खासकर गोपनीयता चिंताओं और आम जनता के संबंध में।

स्थिर या गतिशील डेटा की बड़ी मात्रा के साथ काम करते समय, निश्चित रूप से कम्प्यूटेशनल और I/O- संबंधित प्रदर्शन समस्याएं होंगी। टेराबाइट्स और डेटा के एक्साबाइट्स वाले डेटाबेस के साथ, डेटा के माध्यम से तलाशने में बहुत समय लग सकता है, और खनन एल्गोरिदम को बहुत कुशलता से चलाने की आवश्यकता होती है। कुछ अन्य कठिनाइयों में ओवरफिटिंग और शोर डेटा शामिल हैं।

ओवरफिटिंग का आमतौर पर मतलब है कि पर्याप्त अच्छा डेटा उपलब्ध नहीं है। डेटा मॉडल (इस मामले में, डेटा का वैश्विक विवरण) बहुत जटिल हो जाता है क्योंकि इसमें अवलोकनों की संख्या के सापेक्ष बहुत अधिक पैरामीटर होते हैं। यह डेटा में मामूली उतार-चढ़ाव को बढ़ा-चढ़ाकर पेश करता है, इस प्रकार भविष्यवाणी करने के आधार के रूप में मॉडल की विश्वसनीयता से समझौता करता है।

दूसरी ओर, शोर वाला डेटा बहुत अधिक गलत प्रकार के डेटा को संदर्भित करता है। अर्थहीन, गलत, असंरचित (अपठनीय) या अन्यथा भ्रष्ट डेटा भंडारण आवश्यकताओं को बढ़ाता है और/या डेटा खनन सटीकता को बाधित करने से पहले सांख्यिकीय विश्लेषण की आवश्यकता होती है। अच्छा डेटा माइनिंग एल्गोरिदम शोर वाले डेटा को ध्यान में रखता है।

डेटा माइनिंग एक बड़ी प्रक्रिया में एक एकल चरण है जिसे डेटाबेस (केडीडी) में ज्ञान की खोज के रूप में जाना जाता है। KDD सबसे पहले डेटा तैयार करने के साथ शुरू होता है: चयन, पूर्व-प्रसंस्करण, और डेटा का परिवर्तन, जहां आप यह निर्धारित करते हैं कि आप क्या अध्ययन करना चाहते हैं और इसे इस तरह से सेट करें कि इसे खनन किया जा सके। यह डेटा को एम-एन मैट्रिक्स के रूप में और प्रत्येक डेटा वेक्टर के तत्व के संख्यात्मक प्रतिनिधित्व के साथ प्रस्तुत कर रहा है। आगे, तुम मेरे। और अंत में, आपको उस जानकारी की व्याख्या और विश्लेषण करने के लिए पुराने नोगिन का उपयोग करना होगा। फिर, यदि छिपे हुए पैटर्न और रुझान अभी भी पर्याप्त रूप से स्पष्ट नहीं हैं, तो आपको थोड़ा और गहराई से जाना चाहिए।

डेटा माइनिंग और KDD प्रक्रिया में IRI की भूमिका कई उच्च-प्रदर्शन डेटा परिवर्तन कार्यों के माध्यम से विश्लेषण के लिए बड़े डेटा को तैयार और पुन:संरचना करना है। विशेष रूप से, IRI CoSort डेटा हेरफेर पैकेज डेटा को तेज़ी से फ़िल्टर, हेरफेर और पुन:स्वरूपित कर सकता है ताकि इसे डेटा माइनिंग एल्गोरिदम जैसे डेटा माइनिंग सॉफ़्टवेयर सूट द्वारा संसाधित किया जा सके। CoSort, IRI Voracity डेटा प्रबंधन प्लेटफ़ॉर्म में डिफ़ॉल्ट डेटा प्रोसेसिंग इंजन भी है, जिसे डेटा प्रोफाइलिंग, तैयारी और तकरार के काम की एक विस्तृत श्रृंखला के लिए डिज़ाइन किया गया है।

आईआरआई वर्कबेंच जीयूआई में कोसॉर्ट के साथ काम करने वालों के लिए, बीआईआरटी ग्राफिकल रिपोर्टिंग और बिजनेस इंटेलिजेंस क्षमताओं के साथ एक मुफ्त एक्लिप्स प्लग-इन है जिसमें कुछ एनालिटिक्स और माइनिंग फीचर्स शामिल हैं। CoSort और BIRT Analytics दोनों ही ग्रहण आईडीई का उपयोग करते हैं। CoSort में ओपन डेटा एक्सेस (ODA) डेटा ड्राइवर समर्थन के साथ, दो प्लग-इन के बीच डेटा प्रवाह एकीकरण भी सहज है और अधिक तेज़-क्या-अगर विश्लेषण की अनुमति देता है।

2019 और उसके बाद वोरासिटी के साथ काम करने वालों के लिए, हम आईआरआई वर्कबेंच में फ्री नाइम एनालिटिक्स प्लेटफॉर्म के लिए कोर प्रोवाइडर स्थापित करने का सुझाव देते हैं। कांच के एक ही ग्रहण फलक में, नाइम के लिए वोरसिटी स्रोत (प्रदाता) नोड इसे सांख्यिकीय और भविष्य कहनेवाला विश्लेषण, डेटा माइनिंग और मशीन / डीप लर्निंग, न्यूरल नेटवर्क की आवश्यकता वाले अनुप्रयोगों के लिए नाइम नोड्स को वोरैसिटी-तैयार कच्चे डेटा इन-मेमोरी को सौंप सकता है। और कृत्रिम बुद्धि।

इस लेख के योगदानकर्ताओं में रॉबी पोटेउ और डेविड फ़्रीडलैंड शामिल हैं


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. SQL में एक रो को कैसे डिलीट करें

  2. सांख्यिकी में स्वचालित अपडेट देखने का दूसरा तरीका

  3. लिंक किए गए सर्वर के साथ छद्म कॉलम का उपयोग करना

  4. डेटाबेस सर्वर हार्डवेयर रुझान

  5. PSDatabaseClone के साथ क्लोनिंग डेटाबेस