मुझे किस डेटा मास्किंग फ़ंक्शन का उपयोग करना चाहिए?

एनआईएसटी सूचना पहुंच प्रभाग की सूचना प्रौद्योगिकी प्रयोगशाला में सिमसन एल. गारफिंकेल के अनुसार,

<ब्लॉकक्वॉट>

डी-पहचान एक एकल तकनीक नहीं है, बल्कि दृष्टिकोण, एल्गोरिदम और उपकरणों का एक संग्रह है जिसे प्रभावशीलता के विभिन्न स्तरों के साथ विभिन्न प्रकार के डेटा पर लागू किया जा सकता है। सामान्य तौर पर, गोपनीयता सुरक्षा में सुधार होता है क्योंकि अधिक आक्रामक डी-आइडेंटिफिकेशन तकनीकों को नियोजित किया जाता है, लेकिन परिणामी डेटासेट में कम उपयोगिता बनी रहती है।

-व्यक्तिगत जानकारी की पहचान, NISTIR 8053

स्टेटिक डेटा मास्किंग (एसडीएम) बाकी डेटा तत्वों की पहचान करने के इन विभिन्न माध्यमों के लिए उद्योग-मान्यता प्राप्त शब्द है। तत्व आमतौर पर डेटाबेस कॉलम या फ्लैट-फ़ाइल फ़ील्ड मान होते हैं जिन्हें संवेदनशील माना जाता है; स्वास्थ्य सेवा उद्योग में, उन्हें प्रमुख पहचानकर्ता के रूप में जाना जाता है। विशेष रूप से जोखिम में व्यक्तिगत रूप से पहचान योग्य जानकारी (पीआईआई), संरक्षित स्वास्थ्य जानकारी (पीएचआई), प्राथमिक खाता संख्याएं (पैन), व्यापार रहस्य या अन्य संवेदनशील मूल्य हैं।

"स्टार्टपॉइंट" डेटा-केंद्रित सुरक्षा उत्पाद IRI फील्डशील्ड - या IRI CoSort उत्पाद और IRI वोरासिटी प्लेटफॉर्म जिसमें समान क्षमताएं शामिल हैं - कई डेटा स्रोतों के लिए कई डेटा खोज और SDM फ़ंक्शन प्रदान करते हैं। उपलब्ध प्रति-फ़ील्ड/कॉलम मास्किंग फ़ंक्शंस में शामिल हैं:

एकाधिक, NSA सुइट B और FIPS-संगत एन्क्रिप्शन (और डिक्रिप्शन) एल्गोरिदम, जिसमें प्रारूप-संरक्षण शामिल हैं एन्क्रिप्शन
SHA-1 और SHA-2 हैशिंग
ASCII de-ID (बिट स्क्रैम्बलिंग)
बाइनरी एन्कोडिंग और डिकोडिंग
डेटा धुंधला होना या बकेट करना (गुमनाम करना)
यादृच्छिक पीढ़ी या चयन
reaction (चरित्र अस्पष्टता)
प्रतिवर्ती और अपरिवर्तनीय छद्मनामकरण
कस्टम एक्सप्रेशन (गणना / फेरबदल) तर्क
सशर्त/आंशिक मान फ़िल्टर करना या हटाना (चूक)
कस्टम वैल्यू रिप्लेसमेंट
बाइट शिफ्टिंग और स्ट्रिंग फंक्शन
टोकनाइजेशन (PCI के लिए)

आप बाहरी डेटा मास्किंग फ़ंक्शन को "अपना खुद का रोल" भी कर सकते हैं। यह आपको बिल्ट-इन के बजाय रनटाइम पर कस्टम-लिखित, फ़ील्ड-स्तरीय रूटीन को कॉल करने की अनुमति देता है।

प्रश्न बना रहता है, मुझे (प्रत्येक आइटम पर) किस मास्किंग फ़ंक्शन का उपयोग करना चाहिए? यह आपकी व्यावसायिक आवश्यकताओं और नियमों के साथ-साथ लागू डेटा गोपनीयता कानून (कानूनों) पर निर्भर करता है। तकनीकी स्तर पर, इसका आमतौर पर यह तय करना होता है कि परिणामी सिफरटेक्स्ट (नकाबपोश डेटा) को कैसे प्रकट होना चाहिए, यदि इसे प्रतिवर्ती या अद्वितीय होने की आवश्यकता है, तो यह कितना सुरक्षित है, और संभवतः, प्रक्रिया के लिए किस प्रकार के गणना संसाधन और समय उपलब्ध हैं। . आइए इन सामान्य निर्णय मानदंडों को विस्तार से देखें:

उपस्थिति (यथार्थवाद)

क्या नया नकाबपोश डेटा मूल डेटा की तरह कमोबेश दिखना चाहिए? इसके आकार और स्वरूप के बारे में क्या? छद्मनामीकरण और प्रारूप-संरक्षण एन्क्रिप्शन

. के दो सबसे सामान्य तरीके हैं

क्रमशः उचित संज्ञाओं और अल्फा-अंकीय खाते या फोन नंबरों के रंगरूप को बनाए रखें। लेकिन सबस्ट्रिंग मास्किंग (ए/के/आंशिक फ़ील्ड रिडक्शन, उदाहरण के लिए, XXX-XX-1234) एसएसएन जैसी चीजों के लिए ठीक हो सकता है। विश्लेषण आदि के लिए डेटा की दृढ़ता और प्रदर्शन के बारे में सोचें।

इससे संबंधित, सिफरटेक्स्ट की उपस्थिति और यथार्थवाद भी परिणामों की उपयोगिता निर्धारित कर सकता है। एप्लिकेशन और डेटाबेस टेबल (लोड यूटिलिटी) लक्ष्यों की आवश्यकता हो सकती है कि डेटा का प्रारूप न केवल पूर्व-निर्धारित संरचनाओं का अनुपालन करता है, बल्कि नीचे की ओर प्रश्नों या अन्य परिचालन संदर्भों में काम करना जारी रखता है।

दूसरे शब्दों में, यदि नकाबपोश डेटा जो सुंदर और/या कार्यात्मक डेटा की आवश्यकता है, तो पूर्ण पुनर्विक्रय, यादृच्छिकरण, हैशिंग, या सीधे एन्क्रिप्शन (जो परिणामों को चौड़ा और अस्पष्ट करता है) के लिए न जाएं। आप उम्र बढ़ने और उप-स्ट्रिंग हेरफेर जैसे छोटे बदलावों से दूर हो सकते हैं, लेकिन अपने अन्य निर्णय मानदंडों पर इन विकल्पों के प्रभाव पर विचार करें …

प्रतिवर्तीता (पुन:पहचान)

मूल डेटा को पुनर्स्थापित करने की आवश्यकता है? इसका उत्तर इस बात पर निर्भर हो सकता है कि आप स्रोत डेटा को अकेला छोड़ रहे हैं, जैसा कि आप डायनेमिक डेटा मास्किंग में करते हैं, या जब आप नए लक्ष्यों के लिए नकाबपोश डेटा लिख रहे हैं। उन मामलों में, उत्तर नहीं है।

यदि उत्तर नहीं है, तो आपको अभी भी यथार्थवाद की आवश्यकता हो सकती है, ऐसे मामलों में गैर-प्रतिवर्ती छद्म नाम आपकी सबसे अच्छी शर्त हो सकती है। यदि यह नहीं है और उपस्थिति कोई मायने नहीं रखती है, तो चरित्र परिवर्तन के साथ जाएं। और यदि दोनों में से कोई भी सत्य नहीं है, तो लक्ष्य से स्रोत कॉलम को पूरी तरह से हटाने पर विचार करें।

जब उत्तर हाँ होता है, तो IRI डेटा मास्किंग फ़ंक्शंस जैसे एन्क्रिप्शन, रिवर्सिबल स्यूडोनामाइज़ेशन या टोकनाइज़ेशन, एन्कोडिंग, या ASCII री-आईडी (बिट स्क्रैचिंग) इंगित किए जाते हैं। अधिक उन्नत उपयोग के मामलों में, आपको डिफरेंशियल रिवर्सल की भी आवश्यकता हो सकती है; यानी, जब एक ही लक्ष्य के विभिन्न प्राप्तकर्ता एक ही डेटा सेट में अलग-अलग चीजों को देखने के लिए अधिकृत होते हैं। ऐसे मामलों में, निजी एन्क्रिप्शन कुंजियाँ, उपयोगकर्ता-विशिष्ट प्रकाशन कार्य स्क्रिप्ट, या यहाँ तक कि कस्टम अनुप्रयोग भी परिनियोजित किए जा सकते हैं।

विशिष्टता (संगति)

क्या समान मूल मान को हमेशा समान, लेकिन भिन्न, प्रतिस्थापन मान से प्रतिस्थापित करने की आवश्यकता होती है? क्या डेटा को प्रतिस्थापन मूल्यों से जोड़ा या समूहीकृत किया जा रहा है? यदि ऐसा है, तो चुने गए प्रतिस्थापन एल्गोरिथम को ऐसे परिणाम देने चाहिए जो अद्वितीय और दोहराने योग्य हों ताकि मास्किंग होने के बावजूद संदर्भात्मक अखंडता को बनाए रखा जा सके।

यह एन्क्रिप्शन के माध्यम से प्राप्त किया जा सकता है जब एक ही एल्गोरिथ्म और पासफ़्रेज़ (कुंजी) का उपयोग एक ही प्लेनटेक्स्ट के विरुद्ध किया जाता है। फील्डशील्ड, वोरासिटी आदि के लिए आईआरआई वर्कबेंच आईडीई में डेटा वर्गीकरण और क्रॉस-टेबल प्रोटेक्शन विजार्ड मिलान किए गए मास्किंग नियम के क्रॉस-टेबल (या अधिक वैश्विक) एप्लिकेशन के माध्यम से इसे सुविधाजनक बनाते हैं। इस तरह, एक ही प्लेनटेक्स्ट मान हमेशा एक ही सिफरटेक्स्ट परिणाम प्राप्त करता है, चाहे उसका स्थान कुछ भी हो।

छद्मनामकरण यहां मुश्किल है, हालांकि, अद्वितीय प्रतिस्थापन नामों की कमी, मूल नामों की नकल, और परिवर्तनों के कारण ( स्रोत तालिकाओं या फ़ाइलों में मूल मानों को सम्मिलित करता है, अद्यतन करता है या हटाता है)। IRI ने इस वोरासिटी वर्कफ़्लो उदाहरण में लगातार क्रॉस-टेबल छद्म नाम के मुद्दे को संबोधित किया।

ताकत (सुरक्षा)

प्रत्येक फ़ंक्शन के अंदर एल्गोरिदम पर एक नज़र आपको उनके सापेक्ष "क्रैकबिलिटी" को निर्धारित करने में मदद कर सकती है, और यह आकलन कर सकती है कि उपस्थिति और गति जैसे अन्य सिफरटेक्स्ट विचारों के विरुद्ध। उदाहरण के लिए, IRI का AES256 फ़ंक्शन AES128 विकल्प से अधिक मजबूत है, SHA2 SHA1 से अधिक मजबूत है, और सभी बेस 64 एन्कोड/डीकोड और ASCII डी-आईडी/री-आईडी फ़ंक्शन से अधिक मजबूत हैं।

परिभाषा के अनुसार, प्रतिवर्ती कार्य आमतौर पर उन लोगों की तुलना में कमजोर होते हैं जिन्हें उलट नहीं किया जा सकता है। उदाहरण के लिए, IRI की अपरिवर्तनीय (विदेशी लुकअप सेट) छद्मनामकरण विधि इसके प्रतिवर्ती (तले हुए मूल सेट) छद्मनामकरण विधि की तुलना में अधिक सुरक्षित है। उस ने कहा, जब कुंजी खो गई है, तो एईएस -256 एन्क्रिप्शन एल्गोरिदम को क्रैक करना बहुत कठिन हो सकता है।

और भी मजबूत सुरक्षा निश्चित रूप से चूक है, इसके बाद चरित्र अस्पष्टता (संशोधन), जो अपरिवर्तनीय हैं। लेकिन नकारात्मक पक्ष उपयोगिता की कमी है। HIPAA सुरक्षित बंदरगाह संदर्भ में, प्रमुख पहचानकर्ताओं को हटाना अनुपालन करता है। यदि आपको विश्लेषण, अनुसंधान, विपणन, या प्रदर्शन के लिए स्रोत डेटा के किसी भी हिस्से का उपयोग करने की आवश्यकता है, तो आपको इसके बजाय एक मास्किंग फ़ंक्शन की आवश्यकता होगी, और यह निर्धारित करने (और प्रमाणित करने) के लिए एक विशेषज्ञ की आवश्यकता होगी कि आपकी तकनीक कम सांख्यिकीय है पुन:पहचान की संभावना।

जबकि हम एचआईपीएए डी-आइडेंटिफिकेशन के विषय पर हैं, याद रखें कि तथाकथित अर्ध पहचानकर्ताओं (जैसे ज़िप कोड और उम्र) से जुड़े जोखिम भी हो सकते हैं। पुन:पहचान के निशान को स्थापित करने के लिए उन मूल्यों का उपयोग अन्य डेटा सेट के संयोजन के साथ किया जा सकता है, और इस प्रकार कई मामलों में मास्किंग के लायक भी हैं; क्या और कैसे इन्हीं विचारों के अधीन हैं।

गणना (प्रदर्शन)

डेटा मास्किंग दृष्टिकोण के बारे में अच्छी चीजों में से एक - यहां तक कि जब गणना-गहन एन्क्रिप्शन एल्गोरिदम शामिल हैं - यह है कि ब्रॉड-ब्रश एन्क्रिप्शन (संपूर्ण नेटवर्क, डेटाबेस, फ़ाइल / सिस्टम, डिस्क ड्राइव) के सापेक्ष इसका ओवरहेड बहुत कम है। केवल वे डेटा तत्व (कॉलम मान) जिन्हें आप सुरक्षा के लिए निर्दिष्ट करते हैं, उन्हें मास्किंग फ़ंक्शन में डाला जाना चाहिए, संसाधित किया जाना चाहिए और वापस लौटाया जाना चाहिए।

सामान्य तौर पर, एल्गोरिथम जितना अधिक जटिल (और मजबूत) होगा, इसे लागू होने में उतना ही अधिक समय लगेगा। डेटा मास्किंग गति लागू किए गए कार्यों की संख्या, डीबी कॉलम और पंक्तियों की संख्या, प्रक्रिया में सम्मान के लिए लुकअप बाधाओं की संख्या (संदर्भात्मक अखंडता के लिए), नेटवर्क बैंडविड्थ, रैम, आई / ओ, समवर्ती प्रक्रियाओं पर भी निर्भर करेगी। जल्द ही।

निम्नलिखित गैर-वैज्ञानिक चार्ट सुविधाजनक संदर्भ के लिए ऊपर वर्णित अधिकांश विशेषताओं को तोड़ता है, कुछ के लिए (लेकिन सभी नहीं!) समर्थित आईआरआई डेटा मास्किंग कार्यात्मक श्रेणियां, और आम तौर पर केवल सापेक्ष शब्दों में। कहने की जरूरत नहीं है, IRI इस चार्ट के लिए फिटनेस या दायित्व की किसी भी वारंटी को अस्वीकार करता है!

IRI डेटा मास्किंग फ़ंक्शन (फ़ील्डशील्ड और वोरासिटी में)

चाहे आप बिल्ट-इन IRI डेटा मास्किंग फ़ंक्शंस का उपयोग करें, या कस्टम फ़ंक्शंस जिन्हें आप परिभाषित करते हैं, विचार उन्हें आपके व्यावसायिक नियमों के आधार पर विशिष्ट पंक्तियों या स्तंभों और/या तालिकाओं में लागू करना है। और आप इसे डेटा मास्किंग नियमों के माध्यम से करेंगे जिन्हें आप परिभाषित, स्टोर और पुन:उपयोग कर सकते हैं। इन डेटा मास्किंग फ़ंक्शंस को सुविधा और स्थिरता के लिए नियमों के रूप में ऑटो-वर्गीकृत डेटा के विरुद्ध लागू करना भी संभव (और बेहतर) है। और आप API कॉल के माध्यम से डायनेमिक डेटा मास्किंग एप्लिकेशन में उनमें से कई का लाभ उठा सकते हैं।

फील्डशील्ड (या वोरासिटी) उपयोगकर्ता आपके डेटा मास्किंग जॉब्स को एक्लिप्स पर निर्मित एक निःशुल्क अत्याधुनिक जीयूआई में बना सकते हैं, चला सकते हैं और प्रबंधित कर सकते हैं। स्रोत/लक्ष्य डेटा और मास्किंग फ़ंक्शन, और उन स्क्रिप्ट को कमांड लाइन पर चलाएँ।

अधिक जानकारी के लिए, https://www.iri.com/solutions/data-masking देखें या अपने आईआरआई प्रतिनिधि से संपर्क करें।