इलास्टिक्स खोज एक जावा-आधारित खोज इंजन है जिसमें एक HTTP इंटरफ़ेस है और यह अपने डेटा को स्कीमा-मुक्त JSON दस्तावेज़ों में संग्रहीत करता है। दुर्भाग्य से, व्यक्तिगत रूप से पहचान योग्य जानकारी (पीआईआई) के महंगे और दर्दनाक उल्लंघनों की एक बड़ी संख्या ऑनलाइन इलास्टिक्स खोज डेटाबेस को प्रभावित कर रही है:
इन डीबी में सभी पीआईआई या अन्य संवेदनशील जानकारी छिपी हुई थी, हालांकि, सफल हैक और विकास प्रतियां समस्याग्रस्त नहीं हो सकती हैं। IRI DarkShield का उद्देश्य गोपनीयता-कानून-अनुपालक गुमनामी कार्यों का उपयोग करके उस जानकारी को उत्पादन या परीक्षण में बंद करना है।
इलास्टिक्स खोज खोज और मुखौटा विज़ार्ड आईआरआई वर्कबेंच में आईआरआई डार्कशील्ड के लिए ग्राफिकल आईडीई इस आलेख में वर्णित मोंगोडीबी और कैसेंड्रा कनेक्टर के समान टूलिंग का उपयोग करता है। इस विज़ार्ड का उपयोग इलास्टिक्स खोज संग्रह पर रखी गई पीआईआई और अन्य संवेदनशील जानकारी को वर्गीकृत करने, खोजने और पहचानने या हटाने के लिए और खोज और ऑडिट परिणाम तैयार करने के लिए किया जा सकता है।
सेट अप करें
यदि आपके पास कनेक्ट करने के लिए Elasticsearch क्लस्टर नहीं है, तो आप यहां से Elasticsearch को डाउनलोड करके और निर्देश मार्गदर्शिका का पालन करके आसानी से एक स्थानीय क्लस्टर बना सकते हैं।
इस विज़ार्ड के अपने प्रदर्शन के लिए, मैं ग्राहक . नामक एकल अनुक्रमणिका का उपयोग कर रहा हूं स्थानीय रूप से होस्ट किए गए क्लस्टर पर। यह सूचकांक बुनियादी ग्राहक जानकारी संग्रहीत करता है जो आम तौर पर एक खाते में देखी जाती है, और भ्रष्टाचार के लिए एक समृद्ध लक्ष्य होता है। इसमें शामिल हैं:ईमेल, नाम और फोन नंबर:
खोज
अन्य डेटा स्रोतों की तरह, डार्कशील्ड समर्थन करता है, आपको एक .खोज . बनाना होगा आपकी स्कैनिंग और बाजार मानदंड को परिभाषित करने के लिए नौकरी विनिर्देश फ़ाइल। जैसा कि आप MongoDB या Cassandra के साथ करेंगे, नई NoSQL खोज/मास्किंग जॉब… चुनें आईआरआई वर्कबेंच टूलबार के ऊपर डार्कशील्ड मेनू से। प्रोजेक्ट फ़ोल्डर चुनें और कार्य के लिए एक नाम दर्ज करें।
अगले पेज पर, एक स्रोत URI बनाएं:
यहां आप अपने इलास्टिक्स खोज क्लस्टर के लिए पैरामीटर दर्ज करते हैं। Elasticsearch के लिए डिफ़ॉल्ट होस्ट और पोर्ट लोकलहोस्ट और 9200 हैं यदि इन फ़ील्ड को खाली छोड़ दिया जाता है।
यदि आप जिस क्लस्टर से कनेक्ट कर रहे हैं, उसे उपयोगकर्ता नाम और पासवर्ड की आवश्यकता है, तो उन्हें प्रमाणीकरण अनुभाग में दर्ज करें। इस उदाहरण के लिए, मैं होस्ट का उपयोग कर रहा हूं:लोकलहोस्ट, पोर्ट:9200, और क्लस्टर:इलास्टिक्स खोज।
इस पृष्ठ पर एक उपयोगकर्ता नाम और पासवर्ड भी जोड़ा जा सकता है। इस प्रदर्शन की सादगी के लिए, स्थानीय क्लस्टर को सुरक्षा को ध्यान में रखते हुए कॉन्फ़िगर नहीं किया गया है। किसी भी वास्तविक क्लस्टर में वास्तविक उपयोग के मामलों के लिए लॉगिन और अनुमतियाँ सक्षम होनी चाहिए।
क्लिक करें ठीक समाप्त करने के लिए और आप पिछले पृष्ठ पर वापस आ जाएंगे। उस इंडेक्स में टाइप करें जिसे आप खोजना चाहते हैं। इस उदाहरण में, मैं ग्राहकों . नामक अनुक्रमणिका का उपयोग कर रहा हूं ।
इसके बाद, आपको नकाबपोश परिणामों के लिए एक लक्ष्य URI सेट करना होगा। ध्यान रखें कि केवल Elasticsearch नकाबपोश परिणाम केवल Elasticsearch लक्ष्य पर भेजे जा सकते हैं। इस मामले में, मैं पहले बनाए गए समान ग्राहक यूआरआई का उपयोग करूंगा लेकिन एक अलग इंडेक्स के साथ। यह नकाबपोश परिणामों के साथ एक नई अनुक्रमणिका बनाएगा जो बाद में इस प्रदर्शन में बनाई जाएगी।
इसके बाद, आपको एक सर्च मैचर बनाने के लिए कहा जाएगा, जो डेटा क्लास को संबंधित डेटा (मास्किंग) नियम के साथ जोड़ने के लिए जिम्मेदार है। यह एक आवश्यक कदम है क्योंकि इसके बिना कोई भी मास्किंग लागू नहीं किया जा सकता है।
जैसा कि डेटा वर्गीकरण लेख में बताया गया है, डेटा क्लासेस फील्डशील्ड और डार्कशील्ड दोनों के लिए संरचित, अर्ध-संरचित या असंरचित स्रोतों में पीआईआई को खोजने और छिपाने के लिए वैश्विक मानदंडों को सूचीबद्ध और परिभाषित करते हैं। IRI कार्यक्षेत्र कई पूर्वनिर्धारित डेटा वर्गों (जैसे, नाम, ईमेल और IP पते, क्रेडिट कार्ड नंबर) के साथ आता है, जो विंडो> वरीयताएँ> IRI> डेटा वर्ग और समूह में पाया जाता है। . आप उन्हें संपादित कर सकते हैं और अपना जोड़ सकते हैं।
ब्राउज़ करें Click क्लिक करें या बनाएं डेटा क्लास लाइन पर। ब्राउज़ करने से आप अपने स्वयं के डेटा वर्ग, या ईमेल, फ़ोन नंबर और नामों सहित कई पूर्वनिर्धारित कक्षाओं या समूहों में से एक का चयन कर सकते हैं। इस मामले में NAMES डेटा वर्ग समूह में प्रथम नाम डेटा वर्ग शामिल होता है।
यहां मैंने EMAIL डेटा वर्ग का चयन किया है जो मेरे Elasticsearch अनुक्रमणिका के भीतर ईमेल की तलाश करेगा:
अब एक मास्किंग नियम को उस डेटा वर्ग पर लागू किया जाना चाहिए जिसे चुना गया है। बनाएं . क्लिक करें नया डेटा नियम बनाने के लिए बटन, या ब्राउज़ करें आपके द्वारा पहले से परिभाषित किसी भी चीज़ का उपयोग करने के लिए।
ईमेल के लिए, मैं एक रिडक्शन फंक्शन चुनता हूं:
बेशक एक से अधिक डेटा क्लास को एक साथ मास्क किया जा सकता है। मैंने कक्षाएं जोड़ीं और फोन नंबरों के लिए एक प्रारूप-संरक्षण एन्क्रिप्शन फ़ंक्शन और लोगों के नामों के लिए एक यादृच्छिक छद्म नाम (सेट फ़ाइल लुकअप) असाइन किया:
यदि किसी खोज फ़िल्टर की आवश्यकता है, तो उन्हें पूर्व पृष्ठ पर जोड़ा जा सकता है। फ़िल्टर का उपयोग विशेष परिणाम खोजने के लिए, या सीएसवी, एक्सएमएल, जेएसओएन या आरडीबी में विशिष्ट क्षेत्रों को अलग करने के लिए किया जा सकता है, जो पंक्ति सामग्री को स्कैन करने की आवश्यकता को छोड़कर। हालांकि, मैंने इस मामले में कोई निर्दिष्ट नहीं किया।
समाप्त करेंक्लिक करें जब हो जाए। यह विज़ार्ड को पूरा करता है और एक .खोज . बनाता है फ़ाइल जिसमें खोज और/या मास्किंग कार्य निष्पादित करने के लिए डार्कशील्ड कॉन्फ़िगरेशन विवरण होता है।
नोट: यदि आप इस उदाहरण में डिफ़ॉल्ट स्थानीय रूप से होस्ट किए गए क्लस्टर का उपयोग कर रहे हैं, तो सुनिश्चित करें कि क्लस्टर चालू है, क्योंकि कोई भी खोज या मास्किंग कार्य अन्यथा विफल हो जाएगा। आप वेब ब्राउज़र खोलकर और एड्रेस बार में "http://localhost:9200/" टाइप करके जांच सकते हैं कि सर्वर चल रहा है या नहीं।
खोजना और मास्क लगाना
डार्कशील्ड अलग या एक साथ संचालन के रूप में खोज और मास्किंग का समर्थन करता है। इस मामले में, मैं पहले खोजना चाहता हूं और देखना चाहता हूं कि मैंने इसे मुखौटा करने से पहले क्या पाया है। ऐसा इसलिए है क्योंकि (बड़े) मास्किंग कार्यों में समय लग सकता है, और मैं अपनी खोज विधियों को सुधारना और उन्हें फिर से सत्यापित करना चाह सकता हूं।
ऐसा करने के लिए, .खोज . पर राइट क्लिक करें फ़ाइल और फ़ाइल को खोज कार्य के रूप में चलाएँ। यह एक .darkdata . बनाएगा अभी-अभी की गई खोज के परिणामों के साथ। वर्कबेंच में कलाकृति इस प्रकार दिखाई देती है:
परिणामों की जांच के बाद, आप .darkdata . चला सकते हैं एक मास्किंग . के रूप में फ़ाइल करें मेरे द्वारा निर्दिष्ट रिडक्शन फ़ंक्शन के साथ संग्रह को ठीक करने का काम।
पहले खोजे गए परिणामों को लक्षित स्थान पर छिपाया जाएगा। इसे सत्यापित करने के लिए, आप फिर से एक खोज कर सकते हैं और देख सकते हैं कि डेटा अब निर्दिष्ट के अनुसार "डार्कशील्ड" किया गया है; यानी, संशोधित ईमेल, पहले नाम छद्मनाम, और फोन नंबर प्रारूप-संरक्षण एन्क्रिप्शन के साथ नकाबपोश:
अगर आपको आईआरआई वर्कबेंच या इसके सीएलआई में इस डार्कशील्ड इंटरफ़ेस के माध्यम से अपने डेटा को आराम से मास्क करके अपने लोचदार खोज संग्रह को सुरक्षित रखने में मदद की ज़रूरत है, या डार्कशील्ड के आरईएसटी एपीआई के माध्यम से उड़ान में कोई अर्ध-असंरचित डेटा, कृपया [email protected] पर ईमेल करें।