Database
 sql >> डेटाबेस >  >> RDS >> Database

आईआरआई कार्यक्षेत्र में डेटा वर्गीकरण

आईआरआई डेटा प्रोटेक्टर सूट या वोरासिटी प्लेटफॉर्म में पीआईआई मास्किंग टूल जैसे फील्डशील्ड, डार्कशील्ड और सेलशील्ड ईई के उपयोगकर्ता अपने डेटा को कैटलॉग और खोज सकते हैं - और डेटा परिवर्तन और सुरक्षा कार्यों को नियमों के रूप में लागू कर सकते हैं - अंतर्निहित डेटा वर्गीकरण एक्लिप्स™ पर निर्मित उनके साझा फ्रंट-एंड आईडीई, आईआरआई वर्कबेंच में आधारभूत संरचना।   

IRI कार्यक्षेत्र में बहु-स्रोत डेटा खोज (खोज) सुविधाएं आपके द्वारा परिभाषित डेटा वर्गों का उपयोग कर सकती हैं, या वे आपके खोज परिणामों, व्यावसायिक नियमों और/या के आधार पर आपके डेटा को डेटा वर्ग या डेटा वर्ग समूह असाइन करने में आपकी सहायता कर सकती हैं डोमेन ऑन्कोलॉजी।

आप अपने डेटा क्लास लाइब्रेरी का उपयोग पुन:प्रयोज्य फ़ील्ड (जैसे, डेटा मास्किंग) नियमों में कर सकते हैं। और आप उन नियमों को असाइन कर सकते हैं जैसे आप डेटा को ऑटो-वर्गीकृत भी करते हैं।

ये सुविधाएँ डेटा आर्किटेक्ट्स और गवर्नेंस टीमों को सुविधा, निरंतरता और अनुपालन क्षमताएँ प्रदान करती हैं। आद्योपांत उदाहरण . के लिए यह लेख देखें RDB स्कीमा में कई तालिकाओं में डेटा को लगातार खोजने और मास्क करने के लिए डेटा क्लासेस का उपयोग करना।

यह आलेख बताता है कि आप इन वर्गों को कैसे परिभाषित कर सकते हैं। डेटा वर्ग सत्यापनकर्ताओं पर संबंधित लेख हैं जिनका उपयोग पैटर्न खोजों के आधार पर डेटा को अलग करने और सत्यापित करने के लिए किया जा सकता है।

आईआरआई ब्लॉग में कई अन्य लेख विभिन्न (ज्यादातर डेटा मास्किंग) संदर्भों में डेटा कक्षाओं के अनुप्रयोग को कवर करते हैं। इन लेखों की संपूर्ण अनुक्रमणिका के लिए, IRI सॉफ़्टवेयर स्व-शिक्षण पृष्ठ का यह अनुभाग देखें।

डेटा क्लास बनाएं

कार्यक्षेत्र प्राथमिकताएं . में डेटा वर्ग स्थापित करके वर्गीकरण शुरू होता है स्क्रीन, जो आपको अपने कार्यक्षेत्र में कई परियोजनाओं में विश्व स्तर पर कक्षाओं का उपयोग करने की अनुमति देती है। इस उदाहरण में उपयोग की गई FIRST_NAME, LAST_NAME, और PIN_US कक्षाओं सहित कार्यक्षेत्र में कुछ कक्षाएं पहले से लोड हैं।

डेटा वर्ग (1) फ़ील्ड के नाम से वर्ग का नाम, (2) फ़ील्ड में डेटा के लिए एक पैटर्न, या (3) फ़ील्ड में डेटा के विरुद्ध फ़ाइल सामग्री सेट करके काम करते हैं। पहला आइटम आपके लिए वर्गीकरण प्रक्रिया में स्वचालित रूप से किया जाता है, यदि वह विकल्प चुना जाता है। आप अपने इच्छित परिणामों को वापस करने के लिए प्रत्येक वर्ग के लिए जितने आवश्यक हों उतने पैटर्न जोड़ सकते हैं और फ़ाइल मिलानकर्ता सेट कर सकते हैं।

डेटा वर्ग नाम के रूप में नियमित अभिव्यक्ति दर्ज करना कॉलम नाम से मेल खाने का एक अतिरिक्त तरीका है। उदाहरण के लिए, LNAME या LASTNAME नाम का एक कॉलम हो सकता है। तो, मैं L(AST) का उपयोग कर सकता हूं?[_-]?NAME (कोष्ठक में अंडरस्कोर और डैश) LAST NAME की कुछ विविधताओं को कैप्चर करने के लिए।

आप अपनी डेटा कक्षाओं और समूहों को निष्क्रिय भी बना सकते हैं। यदि आपके पास बहुत सारी कक्षाएं हैं, लेकिन आप उन वस्तुओं को फ़िल्टर करना चाहते हैं जो आपके विशेष प्रोजेक्ट में उपयोग नहीं की गई हैं, तो आप उन्हें निष्क्रिय बना सकते हैं। यह आपको उनकी एक प्रति बनाए रखने की अनुमति देता है लेकिन इन कक्षाओं का उपयोग करने वाली ड्रॉप डाउन सूची को अव्यवस्थित नहीं करता है।

डेटा क्लास ग्रुप

आपके पास डेटा वर्ग समूह भी हो सकते हैं। उदाहरण के लिए, शामिल समूह "NAMES" में डेटा वर्ग FIRST_NAME, LAST_NAME और FULL_NAME शामिल हैं। यदि आप एक से अधिक कक्षाओं में नियम लागू करना चाहते हैं, तो आप व्यक्तिगत रूप से डेटा वर्ग चुनने के बजाय समूह का उपयोग कर सकते हैं।

इस उदाहरण के लिए, मैंने वर्गीकरण के नाम मिलान विकल्प को प्रदर्शित करने के लिए FIRST_NAME डेटा वर्ग से अंडरस्कोर हटा दिया।

डेटा वर्गीकरण स्रोत विज़ार्ड

एक बार मैचर्स को आवश्यक कक्षाओं में जोड़ लेने के बाद, आप डेटा वर्गीकरण स्रोत विज़ार्ड चला सकते हैं। विज़ार्ड निम्न डेटा स्वरूपों को स्वीकार करता है:CSV, सीमांकित, LDIF, ODBC, या XML। यह विज़ार्ड बाद में वर्गीकरण के लिए आपकी डेटा क्लास लाइब्रेरी के लिए स्रोतों का चयन करने का साधन प्रदान करता है।

सेटअप पृष्ठ पर, अपने नए “iriLibrary.dataclass . के स्थान का चयन करके प्रारंभ करें "फ़ाइल, जो इस विज़ार्ड का आउटपुट है। फ़ाइल का नाम केवल पढ़ने के लिए है क्योंकि प्रत्येक प्रोजेक्ट में इनमें से केवल एक फ़ाइल प्रकार हो सकता है। यदि आपके सभी स्रोत किसी कनेक्शन प्रोफ़ाइल में तालिकाएँ हैं, तो आप चेकबॉक्स भी चुन सकते हैं।

इस बॉक्स को चुनने से नीचे दिए गए पेज की तरह एक इनपुट पेज खुल जाता है जहां आप शामिल की जाने वाली टेबल चुन सकते हैं:

यदि चेकबॉक्स चयनित नहीं है, तो आप उसी इनपुट स्क्रीन में फ़ाइलें या ODBC स्रोत जोड़ सकते हैं। इस प्रकार के इनपुट पेज पर, आपको प्रत्येक स्रोत के लिए मेटाडेटा भी जोड़ना होगा। इस उदाहरण में, मैंने एक CSV फ़ाइल और दो Oracle टेबल शामिल किए हैं।

यदि आपको एक या अधिक पूर्ण डेटाबेस स्कीमा में डेटा को एक साथ खोजने और वर्गीकृत करने की आवश्यकता है, तो स्कीमा पैटर्न खोज और स्कीमा पैटर्न खोज से डेटा क्लास एसोसिएशन विज़ार्ड का उपयोग करें।

समाप्त क्लिक करने से एक डेटा क्लास लाइब्रेरी बन जाएगी जिसमें चयनित स्रोत शामिल होंगे। खुलने वाला डेटा वर्ग प्रपत्र संपादक आपको उन स्रोतों में डेटा को वर्गीकृत करने की अनुमति देगा।

डेटा को आपके चयनित स्रोतों में वर्गीकृत करना

आप उस स्रोत के बारे में विवरण प्रदर्शित करने के लिए डेटा स्रोतों में से किसी एक पर क्लिक करके वर्गीकरण प्रक्रिया शुरू करते हैं। स्क्रीन के ऊपरी हिस्से में एक विस्तारणीय खंड है जो फ़ाइल या तालिका विवरण दिखाता है।

वर्गीकरण अनुभाग एक चेक बॉक्स से शुरू होता है जिसमें फ़ील्ड नाम के माध्यम से डेटा वर्ग के नाम से मिलान शामिल होता है। उदाहरण के लिए, मेरे पास FIRSTNAME नामक डेटा क्लास है और FIRSTNAME नामक फ़ील्ड है (मिलान केस-असंवेदनशील है)।

इस मामले में, वर्गीकरण प्रक्रिया डेटा सामग्री को पढ़े बिना उस क्षेत्र के लिए उस डेटा वर्ग का चयन करेगी।

अगला खंड एक तालिका प्रदर्शित करता है जिसमें चेकबॉक्स के साथ फ़ील्ड नाम, डेटा वर्ग के लिए एक कॉलम और मिलान परिणामों के लिए एक कॉलम होता है। निचली तालिका स्रोत में डेटा का पूर्वावलोकन है। इस प्रपत्र संपादक का उपयोग करने से पहले आवश्यक डेटा वर्ग बनाए जाने चाहिए थे, लेकिन आप उन्हें यहां जोड़ या संपादित कर सकते हैं।

आप जिस फ़ील्ड को वर्गीकृत करना चाहते हैं, उसके डेटा क्लास कॉलम में ड्रॉप डाउन बॉक्स पर क्लिक करके आप मैन्युअल रूप से डेटा क्लास का चयन कर सकते हैं। आप स्वतः वर्गीकृत पर क्लिक कर सकते हैं और वे फ़ील्ड चुन सकते हैं जिन्हें आप वर्गीकृत करना चाहते हैं। ओके पर क्लिक करने से स्वचालित वर्गीकरण प्रक्रिया शुरू हो जाएगी, जिसमें आपके स्रोत में मौजूद डेटा की मात्रा के आधार पर लंबा समय लग सकता है।

यदि आप प्रदर्शित होने वाले मानक ग्रहण संवाद में उस विकल्प का चयन करते हैं तो प्रक्रिया पृष्ठभूमि में चल सकती है। इसके अतिरिक्त, आप प्रक्रिया की स्थिति को प्रगति दृश्य में देख सकते हैं।

समाप्त होने पर, चयनित क्षेत्रों के लिए पुस्तकालय में डेटा वर्ग और डेटा वर्ग का नक्शा बनाया जाएगा। इस उदाहरण में, वर्गीकरण प्रक्रिया में SSN फ़ील्ड पर 87% मिलान, LASTNAME पर 11% और FIRSTNAME पर नाम मिलान पाया गया। प्रतिशत उस डेटा वर्ग के लिए मिलानकर्ताओं के माध्यम से आपके स्रोत में मिलान किए गए डेटा की मात्रा दर्शाते हैं।

यदि मिलान कॉलम में "नाम" प्रदर्शित होता है, तो नाम के आधार पर डेटा वर्ग का मिलान किया गया था। यदि आपने मैन्युअल रूप से डेटा वर्ग का चयन किया है, तो "उपयोगकर्ता" मेल खाने वाले कॉलम में प्रदर्शित होगा।

अंतिम पुस्तकालय सामग्री नीचे प्रदर्शित की गई है। जैसे आप स्रोतों का विवरण देख सकते हैं, वैसे ही आप डेटा वर्गों और मानचित्रों का विवरण प्रदर्शित करने के लिए भी क्लिक कर सकते हैं।

डेटा क्लास मैप्स डेटा क्लासेस और फ़ील्ड्स के संदर्भों का उपयोग करते हैं, यही कारण है कि लाइब्रेरी मैप के अलावा स्रोतों और डेटा क्लासेस को स्टोर करती है। किसी स्रोत या डेटा वर्ग को हटाने से कोई भी संबद्ध डेटा वर्ग मानचित्र भी हट जाएगा जो उस हटाए गए आइटम का संदर्भ देता है।

निकालें क्लिक करते समय, आपको इसकी याद दिलाने के लिए एक चेतावनी प्रदर्शित होती है। प्रक्रिया को अन्य शामिल स्रोतों पर दोहराया जा सकता है, और अतिरिक्त स्रोतों को किसी भी समय जोड़ा जा सकता है।

इस पुस्तकालय के वर्गीकरण परिणामों का उपयोग अब उन डेटा स्रोतों पर फ़ील्ड नियम लागू करने के लिए किया जा सकता है। इस प्रक्रिया की व्याख्या मेरे अगले लेख में वर्गीकरण का उपयोग करते हुए फील्ड नियम लागू करने पर की गई है।


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. एसक्यूएल में आईएफ स्टेटमेंट कैसे करें?

  2. घुटना-झटका प्रदर्शन ट्यूनिंग:अस्थायी तालिकाओं का गलत उपयोग

  3. SQL AVG () शुरुआती के लिए

  4. तालिका-मूल्यवान फ़ंक्शन द्वारा लौटाए गए कॉलम खोजें (टी-एसक्यूएल उदाहरण)

  5. बड़े डेटाबेस सर्वर का परीक्षण करने के लिए गीकबेंच 3.2 का उपयोग करना