डेटा प्रोफाइलिंग, या डेटा डिस्कवरी, डेटा के विभिन्न स्रोतों से जानकारी प्राप्त करने की प्रक्रिया और वर्णनात्मक आंकड़ों को संदर्भित करता है। डेटा प्रोफाइलिंग का उद्देश्य डेटा की सामग्री के साथ-साथ इसकी संरचना, संबंधों और सटीकता और अखंडता के वर्तमान स्तरों की बेहतर समझ प्राप्त करना है।
डेटा प्रोफाइलिंग मेटाडेटा (डेटा के बारे में डेटा) में त्रुटियों या गलत निष्कर्षों को प्रकट कर सकती है। इन समस्याओं का जल्द पता लगाने से डेटा वेयरहाउस में एकीकृत या संग्रहीत करने से पहले स्रोत डेटा की गुणवत्ता में सुधार करने में मदद मिलती है। डेटाबेस तालिका या निकाली गई फ़ाइल में डेटा की विशेषताओं को समझना, और डेटा मानों का निरीक्षण करना, यह सत्यापित करने में मदद करता है कि डेटा सामग्री वास्तव में इसकी मेटाडेटा परिभाषा से मेल खाती है। डेटा और मेटाडेटा को देखने से यह पहचानने में भी मदद मिलती है कि कौन से आइटम संवेदनशील हैं, या इसमें व्यक्तिगत रूप से पहचान योग्य जानकारी (PII) है, ताकि सुरक्षात्मक उपायों के लिए कुछ स्तंभों को फ़्लैग किया जा सके। डेटा प्रोफाइलिंग इस प्रकार एकीकरण, सुरक्षा, रिपोर्टिंग और अन्य प्रक्रियाओं में डेटा की पहचान, उपयोग और वंश के लिए आवश्यक स्रोत डेटा की विशेषताओं की खोज करती है।
हालांकि एकत्रित डेटा कई बार सौम्य या बेकार लग सकता है, खासकर जब कई स्रोतों से एकत्र किया जाता है, तो ध्यान रखें कि सभी डेटा उचित एप्लिकेशन या एल्गोरिदम के साथ उपयोगी हो सकते हैं। इस प्रकार डेटा प्रोफाइलिंग भी उस उपयोगिता को निर्धारित करने में पहला कदम है (डेटा की समझ में सुधार करके)।
चूंकि कई व्यवसाय अंततः उत्पाद सूची, ग्राहक जनसांख्यिकी, खरीदारी की आदतों और बिक्री अनुमानों जैसी चीजों में अंतर्दृष्टि के लिए कच्चे डेटा स्रोतों पर भरोसा करते हैं, इसलिए कंपनी की लगातार बढ़ती डेटा वॉल्यूम से प्रतिस्पर्धात्मक रूप से लाभ उठाने की क्षमता उन डेटा का लाभ उठाने की क्षमता के सीधे आनुपातिक हो सकती है। संपत्तियां। ग्राहकों को जीतना/खोना और व्यवसाय के रूप में सफल/असफल होना संगठन के एकत्रित डेटा द्वारा प्रदान किए जाने वाले विशिष्ट ज्ञान से बहुत अच्छी तरह से निर्धारित किया जा सकता है। इस प्रकार सही डेटा की पहचान करना, उसकी उपयोगिता को सही स्तर पर स्थापित करना, और यह निर्धारित करना कि विसंगतियों को कैसे प्रबंधित किया जाए - डेटा वेयरहाउसिंग संचालन और व्यावसायिक खुफिया अनुप्रयोगों के डिजाइन में आवश्यक हैं।
टेस्टिंग द डेटा वेयरहाउस प्रैक्टिकम के लेखक डौग वुसेविक और वेन यडो के अनुसार, “… डेटा प्रोफाइलिंग का उद्देश्य मेटाडेटा के उपलब्ध होने पर उसकी पुष्टि करना और मेटाडेटा के न होने पर उसकी खोज करना है। विश्लेषण के परिणाम का उपयोग रणनीतिक रूप से किया जाता है - उम्मीदवार स्रोत प्रणालियों की उपयुक्तता निर्धारित करने के लिए और जल्दी जाने/नहीं जाने के निर्णय के लिए आधार देने के लिए, लेकिन बाद में समाधान डिजाइन के लिए समस्याओं की पहचान करने के लिए, और प्रायोजकों की अपेक्षाओं को समतल करने के लिए। "
डेटा प्राधिकरण एक ही बार में बड़े, जटिल वॉल्यूम से निपटने की कोशिश करने के बजाय, सीमित मात्रा में डेटा पर बेतरतीब ढंग से और दोहराव से डेटा प्रोफाइलिंग करने की सलाह देते हैं। इस तरह खोजें आगे की रूपरेखा के लिए कारकों का निर्धारण कर सकती हैं। डेटा नियमों, प्रतिबंधों और पूर्वापेक्षाओं की पहचान करना, मेटाडेटा की अखंडता सुनिश्चित करता है जिस पर भविष्य की रूपरेखा का प्रदर्शन किया जाता है। जानना क्या है माना कुछ डेटा फ़ाइलों में होना और वास्तव में क्या है एक ही बात नहीं हो सकती है। इसलिए जब भी किसी नए स्रोत की गुणवत्ता या विशेषताएं अज्ञात होती हैं, तो विशेषज्ञ मौजूदा सिस्टम में किसी भी एकीकरण से पहले डेटा प्रोफाइलिंग का सुझाव देते हैं।
डेटा प्रोफाइलिंग प्रक्रिया के चरणों में शामिल हैं: सभी वस्तुओं को आयात करना, कॉन्फ़िगरेशन पैरामीटर बनाना, वास्तविक प्रोफाइलिंग करना और परिणामों का विश्लेषण करना; इनमें से कोई भी उतना आसान नहीं है जितना वे ध्वनि करते हैं! फिर निष्कर्षों के आधार पर, स्कीमा और डेटा सुधारों को लागू किया जा सकता है, साथ ही बाद के डेटा प्रोफाइलिंग प्रदर्शन में सुधार के लिए अन्य फाइन ट्यूनिंग भी लागू की जा सकती है।
IRI प्रोफाइलिंग टूल
2015 के मध्य में, आईआरआई ने अपने एक्लिप्स जीयूआई, आईआरआई वर्कबेंच में मुफ्त डेटाबेस, संरचित, और असंरचित (डार्क) डेटा डिस्कवरी टूल्स की एक श्रृंखला जारी की। उन्हें http://www.iri.com/products/workbench/discover-data पर सारांशित किया गया है और इस ब्लॉग के अन्य लेखों से लिंक किया गया है जो अधिक विस्तार में जाते हैं।