बताओ कौन? हालांकि मुझे यकीन है कि आप में से अधिकांश लोग इस खेल को पुराने दिनों से जानते हैं, यहां एक संक्षिप्त पुनर्कथन है। खेल का लक्ष्य: 'हां' और 'नहीं' प्रश्न पूछकर अपने प्रतिद्वंद्वी द्वारा चुने गए कार्टून चरित्र का नाम खोजें, जैसे 'क्या व्यक्ति टोपी पहनता है?' या 'क्या व्यक्ति चश्मा पहनता है'? खिलाड़ी प्रतिद्वंद्वी की प्रतिक्रिया के आधार पर उम्मीदवारों को खत्म करते हैं और उन विशेषताओं को सीखते हैं जो उनके प्रतिद्वंद्वी के रहस्य चरित्र से संबंधित होती हैं। पहला खिलाड़ी जो दूसरे खिलाड़ी के रहस्य चरित्र का पता लगाता है वह खेल जीत जाता है।
आपको यह मिला। किसी व्यक्ति को केवल संबंधित विशेषताओं तक पहुंच के द्वारा डेटासेट से बाहर व्यक्ति की पहचान करनी चाहिए। वास्तव में, हम नियमित रूप से गेस हू की इस अवधारणा को व्यवहार में देखते हैं, लेकिन फिर वास्तविक लोगों की विशेषताओं वाले पंक्तियों और स्तंभों के साथ स्वरूपित डेटासेट पर नियोजित होते हैं। डेटा के साथ काम करते समय मुख्य अंतर यह है कि लोग उस सहजता को कम आंकते हैं जिसके द्वारा वास्तविक व्यक्तियों को केवल कुछ विशेषताओं तक पहुंच बनाकर बेनकाब किया जा सकता है।
जैसा कि गेस हू गेम दिखाता है, कोई व्यक्ति केवल कुछ विशेषताओं तक पहुंच के द्वारा व्यक्तियों की पहचान कर सकता है। यह एक सरल उदाहरण के रूप में कार्य करता है कि आपके डेटासेट से केवल 'नाम' (या अन्य प्रत्यक्ष पहचानकर्ता) को हटाना एक गुमनामी तकनीक के रूप में विफल क्यों है। इस ब्लॉग में, हम आपको डेटा गुमनामी के साधन के रूप में कॉलम को हटाने से जुड़े गोपनीयता जोखिमों के बारे में सूचित करने के लिए चार व्यावहारिक मामले प्रदान करते हैं।
लिंकेज हमलों का जोखिम सबसे महत्वपूर्ण कारण है कि केवल नाम हटाने से गुमनामी के लिए एक विधि के रूप में (अब) काम नहीं करता है। एक लिंकेज हमले के साथ, हमलावर किसी व्यक्ति की विशिष्ट पहचान करने और इस व्यक्ति के बारे में (अक्सर संवेदनशील) जानकारी सीखने के लिए मूल डेटा को अन्य सुलभ डेटा स्रोतों के साथ जोड़ता है।
यहां कुंजी अन्य डेटा संसाधनों की उपलब्धता है जो अभी मौजूद हैं, या भविष्य में मौजूद हो सकते हैं। अपने बारे में सोचो। फेसबुक, इंस्टाग्राम या लिंक्डइन पर आपका कितना व्यक्तिगत डेटा पाया जा सकता है जिसका संभावित रूप से एक लिंकेज हमले के लिए दुरुपयोग किया जा सकता है?
पहले के दिनों में, डेटा की उपलब्धता बहुत अधिक सीमित थी, जो आंशिक रूप से बताती है कि व्यक्तियों की गोपनीयता को बनाए रखने के लिए नामों को हटाना पर्याप्त क्यों था। कम उपलब्ध डेटा का अर्थ है डेटा लिंक करने के कम अवसर। हालांकि, अब हम डेटा-संचालित अर्थव्यवस्था में (सक्रिय) भागीदार हैं, जहां डेटा की मात्रा एक घातीय दर से बढ़ रही है। अधिक डेटा, और डेटा एकत्र करने के लिए प्रौद्योगिकी में सुधार से लिंकेज हमलों की संभावना बढ़ जाएगी। लिंकेज अटैक के जोखिम के बारे में 10 साल में कोई क्या लिखेगा?
चित्रण 1
स्वीनी (2002) ने एक अकादमिक पेपर में प्रदर्शित किया कि कैसे वह संयुक्त राज्य अमेरिका में सार्वजनिक रूप से उपलब्ध मतदान रजिस्ट्रार को 'अस्पताल यात्राओं' के सार्वजनिक उपलब्ध डेटा सेट को जोड़ने के आधार पर व्यक्तियों से संवेदनशील चिकित्सा डेटा की पहचान करने और पुनर्प्राप्त करने में सक्षम थी। दोनों डेटासेट जहां नाम और अन्य प्रत्यक्ष पहचानकर्ताओं को हटाने के माध्यम से उचित रूप से गुमनाम माना जाता है।
चित्रण 2
केवल तीन मापदंडों (1) ज़िप कोड, (2) लिंग और (3) जन्म तिथि के आधार पर, उसने दिखाया कि दोनों डेटासेट से उपरोक्त विशेषताओं का मिलान करके पूरी अमेरिकी आबादी का 87 प्रतिशत फिर से पहचाना जा सकता है। स्वीनी ने फिर 'ज़िप कोड' के विकल्प के रूप में 'देश' रखने के साथ अपना काम दोहराया। इसके अतिरिक्त, उसने प्रदर्शित किया कि संपूर्ण अमेरिकी आबादी के 18% की पहचान केवल (1) गृह देश, (2) लिंग और (3) जन्म तिथि के बारे में जानकारी वाले डेटासेट तक पहुंच के द्वारा की जा सकती है। फेसबुक, लिंक्डइन या इंस्टाग्राम जैसे उपरोक्त सार्वजनिक स्रोतों के बारे में सोचें। क्या आपका देश, लिंग और जन्मतिथि दिखाई दे रही है, या अन्य उपयोगकर्ता इसे काटने में सक्षम हैं?
चित्रण 3
अर्ध-पहचानकर्ता | अमेरिकी जनसंख्या का % विशिष्ट रूप से पहचाना गया (248 मिलियन) |
5-अंकीय ज़िप, लिंग, जन्म तिथि | 87% तक |
जगह, लिंग, जन्म तिथि | 53% तक |
देश, लिंग, जन्म तिथि | 18% तक |
यह उदाहरण दर्शाता है कि प्रतीत होता है कि गुमनाम डेटा में व्यक्तियों को डी-अनाम करना उल्लेखनीय रूप से आसान हो सकता है। सबसे पहले, यह अध्ययन जोखिम की एक बड़ी परिमाण को इंगित करता है, जैसा कि ८७% अमेरिकी आबादी को आसानी से पहचाना जा सकता है कुछ विशेषताएं. दूसरा, इस अध्ययन में उजागर चिकित्सा डेटा अत्यधिक संवेदनशील था। अस्पताल विज़िट डेटासेट से उजागर व्यक्तियों के डेटा के उदाहरणों में जातीयता, निदान और दवा शामिल हैं। विशेषताएँ कि कोई व्यक्ति गुप्त रख सकता है, उदाहरण के लिए, बीमा कंपनियों से।
केवल प्रत्यक्ष पहचानकर्ताओं को हटाने का एक और जोखिम, जैसे नाम, तब उत्पन्न होता है जब सूचित व्यक्तियों को डेटासेट में विशिष्ट व्यक्तियों के लक्षणों या व्यवहार के बारे में बेहतर जानकारी या जानकारी होती है. उनके ज्ञान के आधार पर, हमलावर तब विशिष्ट डेटा रिकॉर्ड को वास्तविक लोगों से जोड़ने में सक्षम हो सकता है।
बेहतर ज्ञान का उपयोग कर डेटासेट पर हमले का एक उदाहरण न्यूयॉर्क टैक्सी मामला है, जहां एटोकर (2014) विशिष्ट व्यक्तियों को बेनकाब करने में सक्षम था। नियोजित डेटासेट में न्यूयॉर्क में सभी टैक्सी यात्राएं शामिल थीं, जो बुनियादी विशेषताओं जैसे कि प्रारंभ निर्देशांक, अंत निर्देशांक, मूल्य और सवारी की नोक से समृद्ध थीं।
एक जानकार व्यक्ति जो जानता है कि न्यूयॉर्क वयस्क क्लब 'हसलर' के लिए टैक्सी यात्राएं प्राप्त करने में सक्षम था। 'अंतिम स्थान' को फ़िल्टर करके, उन्होंने सटीक प्रारंभ पतों का पता लगाया और इस प्रकार विभिन्न बार आने वाले आगंतुकों की पहचान की। इसी तरह, जब व्यक्ति के घर का पता पता हो तो टैक्सी की सवारी का अनुमान लगाया जा सकता है। गपशप साइटों पर कई सेलिब्रिटी फिल्म सितारों का समय और स्थान खोजा गया था। इस जानकारी को NYC टैक्सी डेटा से जोड़ने के बाद, उनकी टैक्सी की सवारी, उनके द्वारा भुगतान की गई राशि, और क्या उन्होंने इत्तला दी थी, प्राप्त करना आसान था।
चित्रण 4
ड्रॉप-ऑफ निर्देशांक हसलर
ब्राडली कूपर
जेसिका अल्बा
तर्क की एक सामान्य पंक्ति है 'यह डेटा बेकार है' या 'कोई भी इस डेटा के साथ कुछ नहीं कर सकता'। यह अक्सर गलत धारणा होती है। यहां तक कि सबसे निर्दोष डेटा भी एक अद्वितीय 'फिंगरप्रिंट' बना सकता है और व्यक्तियों को फिर से पहचानने के लिए उपयोग किया जा सकता है। यह इस विश्वास से प्राप्त जोखिम है कि डेटा ही बेकार है, जबकि ऐसा नहीं है।
डेटा, एआई, और अन्य टूल्स और एल्गोरिदम की वृद्धि के साथ पहचान का जोखिम बढ़ जाएगा जो डेटा में जटिल संबंधों को उजागर करने में सक्षम बनाता है। नतीजतन, भले ही आपका डेटासेट अभी खुला नहीं हो सकता है, और संभवत: आज अनधिकृत व्यक्तियों के लिए बेकार है, यह कल नहीं हो सकता है।
एक बेहतरीन उदाहरण वह मामला है जहां नेटफ्लिक्स ने अपनी मूवी अनुशंसा प्रणाली को बेहतर बनाने के लिए एक खुली नेटफ्लिक्स प्रतियोगिता शुरू करके अपने आर एंड डी विभाग को क्राउडसोर्स करने का इरादा किया था। 'जो फिल्मों के लिए उपयोगकर्ता रेटिंग की भविष्यवाणी करने के लिए सहयोगी फ़िल्टरिंग एल्गोरिदम में सुधार करता है वह यूएस $ 1,000,000 का पुरस्कार जीतता है'। भीड़ का समर्थन करने के लिए, नेटफ्लिक्स ने केवल निम्नलिखित मूल विशेषताओं वाला एक डेटासेट प्रकाशित किया: उपयोगकर्ता आईडी, मूवी, ग्रेड और ग्रेड की तारीख (इसलिए उपयोगकर्ता या फिल्म के बारे में कोई और जानकारी नहीं)।
चित्रण 5
यूज़र आईडी | चलचित्र | ग्रेड की तारीख | ग्रेड |
123456789 | असंभव मिशन | 10-12-2008 | 4 |
अलगाव में, डेटा व्यर्थ दिखाई दिया। यह पूछे जाने पर कि 'क्या डेटासेट में कोई ग्राहक जानकारी है जिसे निजी रखा जाना चाहिए?', उत्तर था:
'नहीं, ग्राहक की पहचान करने वाली सभी जानकारी हटा दी गई है; जो कुछ बचा है वह रेटिंग और तारीखें हैं। यह हमारी गोपनीयता नीति का अनुसरण करता है...'
हालांकि, ऑस्टिन में टेक्सास विश्वविद्यालय से नारायणन (2008) अन्यथा साबित हुए। किसी व्यक्ति के ग्रेड, ग्रेड की तारीख और मूवी का संयोजन एक अद्वितीय मूवी-फिंगरप्रिंट बनाता है। अपने खुद के नेटफ्लिक्स व्यवहार के बारे में सोचें। आपको क्या लगता है कि कितने लोगों ने एक ही तरह की फिल्में देखी हैं? कितने लोगों ने एक ही समय में एक ही तरह की फिल्में देखीं?
मुख्य प्रश्न, इस फिंगरप्रिंट का मिलान कैसे करें? यह अपेक्षाकृत सरल था। जाने-माने मूवी रेटिंग वेबसाइट IMDb (इंटरनेट मूवी डेटाबेस) से मिली जानकारी के आधार पर एक समान फिंगरप्रिंट बनाया जा सकता है। नतीजतन, व्यक्तियों की फिर से पहचान की जा सकती है।
जबकि फिल्म देखने के व्यवहार को संवेदनशील जानकारी के रूप में नहीं माना जा सकता है, अपने स्वयं के व्यवहार के बारे में सोचें - क्या आप बुरा मानेंगे यदि यह सार्वजनिक हो जाए? नारायणन ने अपने पेपर में जो उदाहरण दिए हैं, वे हैं राजनीतिक प्राथमिकताएं ('जीसस ऑफ नासरत' और 'द गॉस्पेल ऑफ जॉन' पर रेटिंग) और यौन प्राथमिकताएं ('बेंट' और 'क्वीर एज़ लोक' पर रेटिंग) जिन्हें आसानी से डिस्टिल्ड किया जा सकता है।
जीडीपीआर सुपर-रोमांचक नहीं हो सकता है, न ही ब्लॉग विषयों के बीच चांदी की गोली। फिर भी, व्यक्तिगत डेटा को संसाधित करते समय परिभाषाओं को सीधे प्राप्त करना सहायक होता है। चूंकि यह ब्लॉग डेटा को गुमनाम करने और आपको डेटा प्रोसेसर के रूप में शिक्षित करने के तरीके के रूप में कॉलम को हटाने की आम गलत धारणा के बारे में है, इसलिए हम जीडीपीआर के अनुसार गुमनामी की परिभाषा की खोज के साथ शुरू करते हैं।
जीडीपीआर के रिकेटल 26 के अनुसार, अनाम जानकारी को इस प्रकार परिभाषित किया गया है:
'ऐसी जानकारी जो किसी पहचाने गए या पहचाने जाने योग्य प्राकृतिक व्यक्ति से संबंधित नहीं है या व्यक्तिगत डेटा को इस तरह से गुमनाम कर दिया गया है कि डेटा विषय अब पहचानने योग्य नहीं है या नहीं।'
चूंकि कोई व्यक्ति व्यक्तिगत डेटा को संसाधित करता है जो एक प्राकृतिक व्यक्ति से संबंधित है, परिभाषा का केवल भाग 2 प्रासंगिक है। परिभाषा का पालन करने के लिए, किसी को यह सुनिश्चित करना होगा कि डेटा विषय (व्यक्तिगत) पहचान योग्य नहीं है या नहीं। जैसा कि इस ब्लॉग में बताया गया है, हालांकि, कुछ विशेषताओं के आधार पर व्यक्तियों की पहचान करना उल्लेखनीय रूप से सरल है। इसलिए, किसी डेटासेट से नाम हटाना गुमनामी की जीडीपीआर परिभाषा का पालन नहीं करता है।
हमने एक आम तौर पर मानी जाने वाली और, दुर्भाग्य से, डेटा गुमनामी के अभी भी अक्सर लागू दृष्टिकोण को चुनौती दी: नामों को हटाना। गेस हू गेम में और इसके बारे में चार अन्य उदाहरण:
यह दिखाया गया था कि नाम हटाना गुमनामी के रूप में विफल रहता है। हालांकि उदाहरण हड़ताली मामले हैं, प्रत्येक पुन: पहचान की सादगी को दर्शाता है और व्यक्तियों की गोपनीयता पर संभावित नकारात्मक प्रभाव।
अंत में, आपके डेटासेट से नामों को हटाने का परिणाम अनाम डेटा में नहीं होता है। इसलिए, बेहतर होगा कि हम दोनों शब्दों का परस्पर प्रयोग करने से बचें। मुझे पूरी उम्मीद है कि आप गुमनामी के लिए इस दृष्टिकोण को लागू नहीं करेंगे। और, यदि आप अभी भी ऐसा करते हैं, तो सुनिश्चित करें कि आप और आपकी टीम गोपनीयता जोखिमों को पूरी तरह से समझते हैं, और प्रभावित व्यक्तियों की ओर से उन जोखिमों को स्वीकार करने की अनुमति है।
संपर्क सिंथो और हमारे विशेषज्ञों में से एक सिंथेटिक डेटा के मूल्य का पता लगाने के लिए प्रकाश की गति से आपसे संपर्क करेगा!