डाटाबेस सबसेटिंग - आईआरआई वोरसिटी में कैसे करें

एक बार जब डेटाबेस एक निश्चित आकार से अधिक हो जाता है, तो यह महंगा हो जाता है - और सुरक्षा के दृष्टिकोण से जोखिम भरा - विकास, परीक्षण और प्रशिक्षण के लिए पूर्ण आकार की प्रतियां प्रदान करना। अधिकांश टीमों को बड़े डेटाबेस की छोटी प्रतियों की आवश्यकता होती है, और अक्सर PII को नकाब में रखा जाता है।

डेटाबेस सब्मिटिंग वास्तविक तालिका के अर्क से एक बड़े डेटाबेस की एक छोटी, संदर्भित-सही प्रतिलिपि बनाने की प्रक्रिया है। पूर्ण सेट से जुड़ी लागतों और जोखिमों को कम करने के लिए सबसेट का उपयोग डेटा को मास्क करने या परीक्षण डेटा को संश्लेषित करने के साथ या उसके बदले में किया जा सकता है। मैन्युअल रूप से सार्थक उपसमुच्चय बनाने की प्रक्रिया जटिल और श्रमसाध्य है, यह देखते हुए कि आपको प्रत्येक उत्पादन तालिका से यादृच्छिक नमूनों के साथ छोटे डेटाबेस को पॉप्युलेट करना होगा, और यह सुनिश्चित करना होगा कि सबसेट में तालिकाओं के बीच कोई भी संबंधपरक संरचना अभी भी सही थी।

IRI वर्कबेंच में एक एंड-टू-एंड डेटाबेस सब्मिटिंग जॉब विजार्ड इस प्रक्रिया को तेज और आसान बनाता है। विज़ार्ड IRI Voracity डेटा प्रबंधन प्लेटफ़ॉर्म के लाइसेंस प्राप्त उपयोगकर्ताओं के लिए उपलब्ध है, IRI RowGen परीक्षण डेटा निर्माण के लिए, और IRI फ़ील्डशील्ड डेटा मास्किंग के लिए उपलब्ध है। यह आलेख विज़ार्ड का परिचय देता है और दिखाता है कि यह कॉलम मास्किंग और फ़ील्ड-संरक्षण एन्क्रिप्शन के विकल्पों के साथ, संदर्भात्मक रूप से सही सबसेट कैसे बनाता है।

सबसेट निर्माण के लिए विज़ार्ड में उपयोगकर्ता को सबसेट के स्रोत, उसके आकार और सॉर्टिंग, सबसेट लक्ष्यों के लिए नाम, और सब्मिट किए गए डेटा को किसी भी एन्क्रिप्शन या मास्किंग का चयन करना चाहिए। विज़ार्ड तब जॉब स्क्रिप्ट की एक श्रृंखला बनाता है जो या तो सबसेट टेबल या फ्लैट फाइल बनाता है।

नौकरी के विकल्प

यह पृष्ठ आउटपुट प्रकार को परिभाषित करता है। यदि लोडर को खाली छोड़ दिया जाता है, तो टैब सीमांकक वाली एक फ्लैट फ़ाइल बनाई जाएगी। डेटाबेस विकल्पों के लिए, या तो ODBC या विशिष्ट डेटाबेस लोडर का चयन किया जा सकता है।

सबसेट विकल्प

यह पृष्ठ वह जगह है जहां आप सबसेट का विवरण निर्दिष्ट करते हैं। कनेक्शन प्रोफ़ाइल और तालिका का चयन करें जो बनाए गए सबसेट को "ड्राइव" करेगी। ड्राइविंग टेबल को मुख्य टेबल के रूप में सोचें जहां से आप सबसेट की उत्पत्ति करना चाहते हैं। उदाहरण के लिए, यदि आप बिक्री की तालिका और उससे जुड़ी सभी तालिकाओं को सबसेट करना चाहते हैं, तो आप यहां बिक्री जानकारी वाली तालिका का चयन करेंगे। इसके अलावा, सबसेट के आकार का चयन करें। उदाहरण के लिए, बेची गई 100 उच्चतम मात्राओं का एक सबसेट प्राप्त करने के लिए, आप बेची गई मात्रा फ़ील्ड को क्रमबद्ध करेंगे (जैसा कि इस उदाहरण में है) और पंक्तियों की संख्या में 100 दर्ज करें। ड्राइवर टेबल पर एक फ़िल्टर भी जोड़ा जा सकता है।

क्रमबद्ध करना

यह पृष्ठ वह जगह है जहाँ आप सबसेट के क्रम को निर्दिष्ट करते हैं। हालाँकि, यदि आप चाहते हैं कि पंक्तियाँ बेतरतीब ढंग से चुनी जाएँ, तो कुंजी फ़ील्ड सूची को खाली छोड़ दें।

क्रमबद्ध करें पृष्ठ में 3 उल्लेखनीय खंड हैं:

इनपुट फ़ील्ड सूची
मुख्य फ़ील्ड सूची
मुख्य विकल्प

कदम:

यदि आप सॉर्ट किए गए डेटा का एक सबसेट चाहते हैं, तो सॉर्ट करने के लिए कॉलम चुनें और "कुंजी जोड़ें" पर क्लिक करें।
कुंजी विकल्प बॉक्स में कुछ विकल्प उपलब्ध हैं:
- रिकॉर्ड को उत्पादन तालिका में लोड करने के क्रम में डुप्लिकेट करने के लिए स्थिर चेक बॉक्स का चयन करें।
- यदि आप अपने सबसेट में कोई डुप्लीकेट या केवल डुप्लीकेट नहीं चाहते हैं, तो डुप्लीकेट चेक बॉक्स और उपयुक्त रेडियो बटन चुनें।

लक्ष्य नामकरण

यदि आउटपुट प्रकार डेटाबेस है तो यह पृष्ठ प्रदर्शित होता है। इसके दो कार्य हैं। पहला आपको अपने ड्राइवर टेबल के संबंध देखने की अनुमति देता है। दूसरा सबसेट के लिए आउटपुट लक्ष्यों को नाम देना है।

लक्ष्य नामकरण पृष्ठ में 5 उल्लेखनीय खंड हैं:

लक्ष्य प्रोफ़ाइल और स्कीमा
आउटपुट मोड हमेशा बनाया जाता है क्योंकि यह कार्य समान नाम की किसी भी मौजूदा तालिका को छोटा कर देगा
कार्य के लिए SQL विकल्प
नामकरण विकल्प
संदर्भ सूची

कदम:

कनेक्शन प्रोफ़ाइल चुनें.
स्कीमा चुनें.
एसक्यूएल विकल्प निर्दिष्ट करें।
उपसमुच्चय लक्ष्यों को नाम देने के लिए नामकरण विकल्प चुनें। यदि किसी भिन्न प्रोफ़ाइल या स्कीमा का उपयोग किया जाता है, तो यह चरण वैकल्पिक है:
- सभी उपसर्ग करें प्रत्येक तालिका नाम में एक उपसर्ग जोड़ता है और उसे उस तालिका के लक्ष्य के रूप में सेट करता है।
- सभी को ठीक करें प्रत्येक तालिका नाम में एक पोस्टफ़िक्स जोड़ता है और उसे उस तालिका के लक्ष्य के रूप में सेट करता है।
- नाम अलग-अलग करें प्रत्येक सबसेट लक्ष्य को अन्य लक्ष्यों से स्वतंत्र रूप से नामित करने की अनुमति देता है।
इनके द्वारा संदर्भित की समीक्षा करें और संदर्भ सूची यह सत्यापित करने के लिए कि तालिका के संबंध सही पाए गए हैं:
- द्वारा आयातित . में सूची में, आपके द्वारा चुनी गई तालिका द्वारा आयात की जाने वाली सभी तालिकाएँ सूचीबद्ध हैं।
- आयात . में सूची में, आपके द्वारा चुनी गई तालिका के साथ संबंध रखने वाली सभी तालिकाएँ सूचीबद्ध हैं।

नियम

इस पृष्ठ पर, किसी भी लक्ष्य में नियम जोड़े जा सकते हैं। इस उदाहरण में, "NAME" शब्द से समाप्त होने वाली सभी फ़ील्ड में एक नियम मिलानकर्ता जोड़ा गया है। नियम मेल खाने वाली लक्ष्य तालिका पर लागू किया जाएगा। यह नियम इन दो क्षेत्रों को तारक से ढक देगा। इस बात का ध्यान रखा जाना चाहिए कि विदेशी कुंजी क्षेत्रों पर नियम शामिल न हों।

सारांश

यह पृष्ठ नौकरी का सारांश देता है। यह स्पष्ट रूप से उन स्तंभों को प्रदर्शित करता है जो एक नियम से मेल खाते हैं, और लक्ष्य तालिकाएँ स्रोत तालिकाओं से मेल खाती हैं यदि वे मौजूद नहीं हैं। ध्यान दें कि किसी भी नई टेबल के लिए डीडीएल बनाया जाएगा।

एक बार ये सभी पेज पूरे हो जाने के बाद, आप फिनिश का चयन कर सकते हैं। विज़ार्ड तब विंडोज या यूनिक्स के लिए जॉब स्क्रिप्ट और एक निष्पादन योग्य बैच फ़ाइल बनाएगा जिसे आप वर्कबेंच या कमांड लाइन से ड्राइवर टेबल और उससे संबंधित टेबल से सबसेट निकालने के लिए लॉन्च कर सकते हैं।

यहाँ एक प्रवाह आरेख है जो वोरासिटी में नौकरी के लिए बनाए गए आठ कार्यों को दिखा रहा है:

अगर आपका कोई सवाल है तो info@iri.com पर संपर्क करें।