Database
 sql >> डेटाबेस >  >> RDS >> Database

डेटा प्रोफाइलिंग:डेटा विवरण की खोज

डेटा प्रोफाइलिंग, या डेटा डिस्कवरी, डेटा के विभिन्न स्रोतों से जानकारी प्राप्त करने की प्रक्रिया और वर्णनात्मक आंकड़ों को संदर्भित करता है। डेटा प्रोफाइलिंग का उद्देश्य डेटा की सामग्री के साथ-साथ इसकी संरचना, संबंधों और सटीकता और अखंडता के वर्तमान स्तरों की बेहतर समझ प्राप्त करना है।

डेटा प्रोफाइलिंग मेटाडेटा (डेटा के बारे में डेटा) में त्रुटियों या गलत निष्कर्षों को प्रकट कर सकती है। इन समस्याओं का जल्द पता लगाने से डेटा वेयरहाउस में एकीकृत या संग्रहीत करने से पहले स्रोत डेटा की गुणवत्ता में सुधार करने में मदद मिलती है। डेटाबेस तालिका या निकाली गई फ़ाइल में डेटा की विशेषताओं को समझना, और डेटा मानों का निरीक्षण करना, यह सत्यापित करने में मदद करता है कि डेटा सामग्री वास्तव में इसकी मेटाडेटा परिभाषा से मेल खाती है। डेटा और मेटाडेटा को देखने से यह पहचानने में भी मदद मिलती है कि कौन से आइटम संवेदनशील हैं, या इसमें व्यक्तिगत रूप से पहचान योग्य जानकारी (PII) है, ताकि सुरक्षात्मक उपायों के लिए कुछ स्तंभों को फ़्लैग किया जा सके। डेटा प्रोफाइलिंग इस प्रकार एकीकरण, सुरक्षा, रिपोर्टिंग और अन्य प्रक्रियाओं में डेटा की पहचान, उपयोग और वंश के लिए आवश्यक स्रोत डेटा की विशेषताओं की खोज करती है।

हालांकि एकत्रित डेटा कई बार सौम्य या बेकार लग सकता है, खासकर जब कई स्रोतों से एकत्र किया जाता है, तो ध्यान रखें कि सभी डेटा उचित एप्लिकेशन या एल्गोरिदम के साथ उपयोगी हो सकते हैं। इस प्रकार डेटा प्रोफाइलिंग भी उस उपयोगिता को निर्धारित करने में पहला कदम है (डेटा की समझ में सुधार करके)।

चूंकि कई व्यवसाय अंततः उत्पाद सूची, ग्राहक जनसांख्यिकी, खरीदारी की आदतों और बिक्री अनुमानों जैसी चीजों में अंतर्दृष्टि के लिए कच्चे डेटा स्रोतों पर भरोसा करते हैं, इसलिए कंपनी की लगातार बढ़ती डेटा वॉल्यूम से प्रतिस्पर्धात्मक रूप से लाभ उठाने की क्षमता उन डेटा का लाभ उठाने की क्षमता के सीधे आनुपातिक हो सकती है। संपत्तियां। ग्राहकों को जीतना/खोना और व्यवसाय के रूप में सफल/असफल होना संगठन के एकत्रित डेटा द्वारा प्रदान किए जाने वाले विशिष्ट ज्ञान से बहुत अच्छी तरह से निर्धारित किया जा सकता है। इस प्रकार सही डेटा की पहचान करना, उसकी उपयोगिता को सही स्तर पर स्थापित करना, और यह निर्धारित करना कि विसंगतियों को कैसे प्रबंधित किया जाए - डेटा वेयरहाउसिंग संचालन और व्यावसायिक खुफिया अनुप्रयोगों के डिजाइन में आवश्यक हैं।

टेस्टिंग द डेटा वेयरहाउस प्रैक्टिकम के लेखक डौग वुसेविक और वेन यडो के अनुसार, “… डेटा प्रोफाइलिंग का उद्देश्य मेटाडेटा के उपलब्ध होने पर उसकी पुष्टि करना और मेटाडेटा के न होने पर उसकी खोज करना है। विश्लेषण के परिणाम का उपयोग रणनीतिक रूप से किया जाता है - उम्मीदवार स्रोत प्रणालियों की उपयुक्तता निर्धारित करने के लिए और जल्दी जाने/नहीं जाने के निर्णय के लिए आधार देने के लिए, लेकिन बाद में समाधान डिजाइन के लिए समस्याओं की पहचान करने के लिए, और प्रायोजकों की अपेक्षाओं को समतल करने के लिए। "

डेटा प्राधिकरण एक ही बार में बड़े, जटिल वॉल्यूम से निपटने की कोशिश करने के बजाय, सीमित मात्रा में डेटा पर बेतरतीब ढंग से और दोहराव से डेटा प्रोफाइलिंग करने की सलाह देते हैं। इस तरह खोजें आगे की रूपरेखा के लिए कारकों का निर्धारण कर सकती हैं। डेटा नियमों, प्रतिबंधों और पूर्वापेक्षाओं की पहचान करना, मेटाडेटा की अखंडता सुनिश्चित करता है जिस पर भविष्य की रूपरेखा का प्रदर्शन किया जाता है। जानना क्या है माना कुछ डेटा फ़ाइलों में होना और वास्तव में क्या है एक ही बात नहीं हो सकती है। इसलिए जब भी किसी नए स्रोत की गुणवत्ता या विशेषताएं अज्ञात होती हैं, तो विशेषज्ञ मौजूदा सिस्टम में किसी भी एकीकरण से पहले डेटा प्रोफाइलिंग का सुझाव देते हैं।

डेटा प्रोफाइलिंग प्रक्रिया के चरणों में शामिल हैं: सभी वस्तुओं को आयात करना, कॉन्फ़िगरेशन पैरामीटर बनाना, वास्तविक प्रोफाइलिंग करना और परिणामों का विश्लेषण करना; इनमें से कोई भी उतना आसान नहीं है जितना वे ध्वनि करते हैं! फिर निष्कर्षों के आधार पर, स्कीमा और डेटा सुधारों को लागू किया जा सकता है, साथ ही बाद के डेटा प्रोफाइलिंग प्रदर्शन में सुधार के लिए अन्य फाइन ट्यूनिंग भी लागू की जा सकती है।

IRI प्रोफाइलिंग टूल

2015 के मध्य में, आईआरआई ने अपने एक्लिप्स जीयूआई, आईआरआई वर्कबेंच में मुफ्त डेटाबेस, संरचित, और असंरचित (डार्क) डेटा डिस्कवरी टूल्स की एक श्रृंखला जारी की। उन्हें http://www.iri.com/products/workbench/discover-data पर सारांशित किया गया है और इस ब्लॉग के अन्य लेखों से लिंक किया गया है जो अधिक विस्तार में जाते हैं।


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Django प्रवासन में गहरी खुदाई

  2. ऑप्टिमाइज़ेशन थ्रेशोल्ड - डेटा को समूहीकृत करना और एकत्र करना, भाग 5

  3. बैच मोड सामान्यीकरण और प्रदर्शन

  4. SQL Azure:सर्वर पर डेटाबेस XXXYYY वर्तमान में उपलब्ध नहीं है

  5. पहचान कॉलम को चौड़ा करने के प्रभाव को कम करना - भाग 4