अद्यतन करें:Q2'17 :शामिल JDBC और ODBC ड्राइवर, और लंबित देशी JSON हैंडलिंग नीचे दिखाए गए दृष्टिकोण की तुलना में कनेक्शन को तेज़ और अधिक सहज बना सकते हैं। वाई आप सीधे एचडीएफएस में डेटा को मास्क करने के लिए आईआरआई वोरासिटी के हडूप संस्करण का भी उपयोग कर सकते हैं। HDFS में फ़्लैट-फ़ाइल में नीचे दिए गए तरीके से निर्यात किए गए डेटा को फ़ील्ड स्तर पर फ़ील्डशील्ड मॉड्यूल वोरैसिटी से उसी तरह छिपाया जा सकता है जैसे नीचे MapReduce2, Spark, Spark Stream, Storm या Tez के माध्यम से अतिरिक्त कोडिंग के बिना दिखाया गया है।
अपडेट करें:Q3'19 :अब आईआरआई डार्कशील्ड में उपलब्ध कैसंड्रा और मोंगोडीबी के लिए मूल आउट-ऑफ-द-बॉक्स कनेक्टर हैं जिन्हें निर्यात/मास्क/आयात चरणों की आवश्यकता नहीं है, और अर्ध- और गैर-संरचित संग्रह डेटा को संभाल सकते हैं। फील्डशील्ड की तरह, डार्कशील्ड भी वोरैसिटी प्लेटफॉर्म के सब्सक्रिप्शन में उपलब्ध (शामिल) है। देखें यह कैसे-कैसे-लेख कैसेंड्रा नोएसक्यूएल डीबी में तैरते हुए पीआईआई को खोजने और मास्क करने के लिए। यदि आप कैसंड्रा को सिंथेटिक परीक्षण डेटा से भरने में रुचि रखते हैं, तो यह लेख देखें।
DataStax / Cassandra अनधिकृत उपयोगकर्ताओं को व्यक्तिगत रूप से पहचान योग्य जानकारी (PII) देखने से रोकने के लिए विशिष्ट कॉलम को मास्क नहीं कर सकता। इस लेख में, हम दिखाएंगे कि कैसेंड्रा डेटाबेस से डेटा को CSV फ़ाइल में निर्यात किया जाए, और उस CSV फ़ाइल में डेटा को रैंडमाइज़ करने, मास्क करने और एन्क्रिप्ट करने के लिए IRI फ़ील्डशील्ड उत्पाद (IRI Voracity प्लेटफ़ॉर्म में भी उपलब्ध) का उपयोग करें। फिर हम उस डेटा को वापस कैसेंड्रा में आयात करेंगे, अद्यतन और संरक्षित। आईआरआई के डीबी से अधिक सीधा संबंध जारी करने पर एक और लेख की योजना बनाई गई है।
हमारे उदाहरण में हमारे पास डेटास्टैक्स में छात्र जानकारी वाली एक तालिका है। कॉलम हैं:id_num (प्राथमिक कुंजी), ऑनर्स, सेमेस्टर_घंटे, सोसेक्नम (सामाजिक सुरक्षा नंबर), और user_id.
प्रत्येक छात्र की पहचान हटाने के लिए, हम उनके सेमेस्टर_घंटों को रैंडमाइज करेंगे, उनके सोसेक्नम को मास्क करेंगे, और user_id मान को एन्क्रिप्ट करेंगे ताकि प्रत्येक छात्र का PII सुरक्षित रहे।
कैसंड्रा में असुरक्षित डेटा
हमारे कमांड लाइन उदाहरणों के लिए, हम DataStax Cassandra CQL शेल का उपयोग कर रहे हैं।
कैसेंड्रा तालिका को CSV फ़ाइल में निर्यात करना
Cassandra तालिका को CSV फ़ाइल में निर्यात करने के लिए, Cassandra CQL शेल से निम्न कमांड चलाएँ:
HEADER=TRUE के साथCOPY <Exporting Table> TO '<File Path to the CSV you exporting to>' WITH HEADER=TRUE;
सीएसवी स्रोत को खोलना और परिभाषित करना
- फ़ील्डशील्ड के लिए IRI कार्यक्षेत्र GUI के शीर्ष टूलबार से (ग्रहण पर निर्मित), फ़ील्डशील्ड आइकन ढूंढें और विज़ार्ड चलाने के लिए 'नई सुरक्षा कार्य' चुनें। अपनी जॉब फ़ाइल को नाम दें, “CassShieldJob.fcl” और 'अगला' पर क्लिक करें।
- 'डेटा स्रोत जोड़ें' पर क्लिक करें, और फिर अपने निर्यात के साथ बनाई गई CSV फ़ाइल में 'ब्राउज़ करें' पर क्लिक करें। फिर 'ओके' पर क्लिक करें।
- 'डिस्कवर मेटाडेटा' पर क्लिक करें और (पुन:उपयोग करने योग्य डेटा परिभाषा फ़ाइल) को नाम दें “StudentsMeta.ddf” और अगला' पर क्लिक करें। 'ओके', फिर 'फिनिश' पर क्लिक करने से पहले ऑटो-डिटेक्ट और "हेडर पंक्ति से फ़ील्ड नाम प्राप्त करें" के लिए 'हां' पर क्लिक करें।
- अब आपको डेटा स्रोत सूची में अपने फ़ील्ड दिखाई देने चाहिए. 'अगला' पर क्लिक करें।
सुरक्षाएं लागू करना
- 'डेटा लक्ष्य जोड़ें' पर क्लिक करें और डेटा के संरक्षित संस्करण को बनाए रखने के लिए एक नया CSV फ़ाइल लक्ष्य बनाने के लिए ब्राउज़ करें (या स्रोत को अधिलेखित करने के लिए, उसी पथ/फ़ाइल का उपयोग करें। फिर 'लक्ष्य फ़ील्ड' पर क्लिक करें। लेआउट', लेआउट की समीक्षा करने और आउटपुट फ़ील्ड में सुरक्षा लागू करने के लिए। दो सूची बॉक्स हैं; शीर्ष स्रोत फ़ील्ड दिखाता है, और नीचे लक्ष्य फ़ील्ड दिखाता है जिसमें आप "शील्ड" फ़ील्ड लागू करेंगे।
- semester_hours को यादृच्छिक करें: लक्षित फलक में semester_hours फ़ील्ड नाम चुनें और 'फ़ील्ड सुरक्षा' पर क्लिक करें। रैंडम वैल्यू जेनरेशन चुनें और टाइप करने के लिए डिजिट चुनें। यादृच्छिक न्यूनतम और अधिकतम आकार 2 पर सेट करें और ठीक क्लिक करें।
- Mask socsecnum:socsecnum फ़ील्ड चुनें और फिर से 'फ़ील्ड प्रोटेक्शन' पर क्लिक करें। मास्किंग का चयन करें, और एसएसएन के केवल अंतिम चार अंकों को उजागर करने के लिए डिफ़ॉल्ट यूएसए एसएसएन विकल्प चुनें। 'ओके' पर क्लिक करें।
- user_id एन्क्रिप्ट करें:user_id चुनें और फिर से 'फ़ील्ड सुरक्षा' पर क्लिक करें। एन्क्रिप्शन और डिक्रिप्शन का चयन करें और एन्क्रिप्शन को संरक्षित करने के प्रारूप के लिए enc_fp_aes256_alphanum चुनें। एक पासफ़्रेज़ (डिक्रिप्शन कुंजी) दर्ज करें और हमारे उपयोगकर्ता नाम के उपयोगकर्ता_ भाग को एन्क्रिप्ट होने से रोकने के लिए बहिष्कृत बॉक्स में "उपयोगकर्ता_" टाइप करें, फिर 'समाप्त करें' पर क्लिक करें।
- संरक्षित किए जाने वाले फ़ील्ड इस प्रकार दिखाई देने चाहिए:
आपके लिए बनाई गई वास्तविक (निष्पादन योग्य नौकरी) स्क्रिप्ट देखने के लिए 'ठीक' और फिर 'समाप्त' पर क्लिक करें:
कार्य को IRI कार्यक्षेत्र में या कमांड लाइन पर चलाएँ,
fieldshield /spec=CassShieldJob.fcl
आपके द्वारा बनाई गई CSV फ़ाइल में नया नकाबपोश और एन्क्रिप्ट किया गया डेटा होगा.
संरक्षित डेटा को कैसेंड्रा में आयात करना
परिवर्तित डेटा को वापस कैसेंड्रा में आयात करने के लिए, कैसेंड्रा CQL शेल में निम्न कमांड का उपयोग करें:
COPY <Table you are importing data to> (field1fromCSV, field2fromCSV, ...) FROM '<Path to CSV>';
कैसेंड्रा में सुरक्षित डेटा
फील्डशील्ड क्षमताओं के विवरण के लिए, http://www.iri.com/products/fieldshield/technical-details देखें।