अंदाज लगाओ कौन? 5 उदाहरण क्यों नाम हटाना कोई विकल्प नहीं है

गेस हू का परिचय

बताओ कौन? हालांकि मुझे यकीन है कि आप में से अधिकांश लोग इस खेल को पुराने दिनों से जानते हैं, यहां एक संक्षिप्त पुनर्कथन है। खेल का लक्ष्य: 'हां' और 'नहीं' प्रश्न पूछकर अपने प्रतिद्वंद्वी द्वारा चुने गए कार्टून चरित्र का नाम खोजें, जैसे 'क्या व्यक्ति टोपी पहनता है?' या 'क्या व्यक्ति चश्मा पहनता है'? खिलाड़ी प्रतिद्वंद्वी की प्रतिक्रिया के आधार पर उम्मीदवारों को खत्म करते हैं और उन विशेषताओं को सीखते हैं जो उनके प्रतिद्वंद्वी के रहस्य चरित्र से संबंधित होती हैं। पहला खिलाड़ी जो दूसरे खिलाड़ी के रहस्य चरित्र का पता लगाता है वह खेल जीत जाता है।

आपको यह मिला। किसी व्यक्ति को केवल संबंधित विशेषताओं तक पहुंच के द्वारा डेटासेट से बाहर व्यक्ति की पहचान करनी चाहिए। वास्तव में, हम नियमित रूप से गेस हू की इस अवधारणा को व्यवहार में देखते हैं, लेकिन फिर वास्तविक लोगों की विशेषताओं वाले पंक्तियों और स्तंभों के साथ स्वरूपित डेटासेट पर नियोजित होते हैं। डेटा के साथ काम करते समय मुख्य अंतर यह है कि लोग उस सहजता को कम आंकते हैं जिसके द्वारा वास्तविक व्यक्तियों को केवल कुछ विशेषताओं तक पहुंच बनाकर बेनकाब किया जा सकता है।

जैसा कि गेस हू गेम दिखाता है, कोई व्यक्ति केवल कुछ विशेषताओं तक पहुंच के द्वारा व्यक्तियों की पहचान कर सकता है। यह एक सरल उदाहरण के रूप में कार्य करता है कि आपके डेटासेट से केवल 'नाम' (या अन्य प्रत्यक्ष पहचानकर्ता) को हटाना एक गुमनामी तकनीक के रूप में विफल क्यों है। इस ब्लॉग में, हम आपको डेटा गुमनामी के साधन के रूप में कॉलम को हटाने से जुड़े गोपनीयता जोखिमों के बारे में सूचित करने के लिए चार व्यावहारिक मामले प्रदान करते हैं।

2) लिंकेज अटैक: आपका डेटासेट अन्य (सार्वजनिक) डेटा स्रोतों से जुड़ा हुआ है

लिंकेज हमलों का जोखिम सबसे महत्वपूर्ण कारण है कि केवल नाम हटाने से गुमनामी के लिए एक विधि के रूप में (अब) काम नहीं करता है। एक लिंकेज हमले के साथ, हमलावर किसी व्यक्ति की विशिष्ट पहचान करने और इस व्यक्ति के बारे में (अक्सर संवेदनशील) जानकारी सीखने के लिए मूल डेटा को अन्य सुलभ डेटा स्रोतों के साथ जोड़ता है।

यहां कुंजी अन्य डेटा संसाधनों की उपलब्धता है जो अभी मौजूद हैं, या भविष्य में मौजूद हो सकते हैं। अपने बारे में सोचो। फेसबुक, इंस्टाग्राम या लिंक्डइन पर आपका कितना व्यक्तिगत डेटा पाया जा सकता है जिसका संभावित रूप से एक लिंकेज हमले के लिए दुरुपयोग किया जा सकता है?

पहले के दिनों में, डेटा की उपलब्धता बहुत अधिक सीमित थी, जो आंशिक रूप से बताती है कि व्यक्तियों की गोपनीयता को बनाए रखने के लिए नामों को हटाना पर्याप्त क्यों था। कम उपलब्ध डेटा का अर्थ है डेटा लिंक करने के कम अवसर। हालांकि, अब हम डेटा-संचालित अर्थव्यवस्था में (सक्रिय) भागीदार हैं, जहां डेटा की मात्रा एक घातीय दर से बढ़ रही है। अधिक डेटा, और डेटा एकत्र करने के लिए प्रौद्योगिकी में सुधार से लिंकेज हमलों की संभावना बढ़ जाएगी। लिंकेज अटैक के जोखिम के बारे में 10 साल में कोई क्या लिखेगा?

चित्रण 1

तेजी से बढ़ रहा डेटा एक सच्चाई है

मामले का अध्ययन

स्वीनी (2002) ने एक अकादमिक पेपर में प्रदर्शित किया कि कैसे वह संयुक्त राज्य अमेरिका में सार्वजनिक रूप से उपलब्ध मतदान रजिस्ट्रार को 'अस्पताल यात्राओं' के सार्वजनिक उपलब्ध डेटा सेट को जोड़ने के आधार पर व्यक्तियों से संवेदनशील चिकित्सा डेटा की पहचान करने और पुनर्प्राप्त करने में सक्षम थी। दोनों डेटासेट जहां नाम और अन्य प्रत्यक्ष पहचानकर्ताओं को हटाने के माध्यम से उचित रूप से गुमनाम माना जाता है।

चित्रण 2

व्यवहार में लिंकेज हमला

केवल तीन मापदंडों (1) ज़िप कोड, (2) लिंग और (3) जन्म तिथि के आधार पर, उसने दिखाया कि दोनों डेटासेट से उपरोक्त विशेषताओं का मिलान करके पूरी अमेरिकी आबादी का 87 प्रतिशत फिर से पहचाना जा सकता है। स्वीनी ने फिर 'ज़िप कोड' के विकल्प के रूप में 'देश' रखने के साथ अपना काम दोहराया। इसके अतिरिक्त, उसने प्रदर्शित किया कि संपूर्ण अमेरिकी आबादी के 18% की पहचान केवल (1) गृह देश, (2) लिंग और (3) जन्म तिथि के बारे में जानकारी वाले डेटासेट तक पहुंच के द्वारा की जा सकती है। फेसबुक, लिंक्डइन या इंस्टाग्राम जैसे उपरोक्त सार्वजनिक स्रोतों के बारे में सोचें। क्या आपका देश, लिंग और जन्मतिथि दिखाई दे रही है, या अन्य उपयोगकर्ता इसे काटने में सक्षम हैं?

चित्रण 3

स्वीनी के परिणाम

अर्ध-पहचानकर्ता	अमेरिकी जनसंख्या का % विशिष्ट रूप से पहचाना गया (248 मिलियन)
5-अंकीय ज़िप, लिंग, जन्म तिथि	87% तक
जगह, लिंग, जन्म तिथि	53% तक
देश, लिंग, जन्म तिथि	18% तक

यह उदाहरण दर्शाता है कि प्रतीत होता है कि गुमनाम डेटा में व्यक्तियों को डी-अनाम करना उल्लेखनीय रूप से आसान हो सकता है। सबसे पहले, यह अध्ययन जोखिम की एक बड़ी परिमाण को इंगित करता है, जैसा कि ८७% अमेरिकी आबादी को आसानी से पहचाना जा सकता है कुछ विशेषताएं. दूसरा, इस अध्ययन में उजागर चिकित्सा डेटा अत्यधिक संवेदनशील था। अस्पताल विज़िट डेटासेट से उजागर व्यक्तियों के डेटा के उदाहरणों में जातीयता, निदान और दवा शामिल हैं। विशेषताएँ कि कोई व्यक्ति गुप्त रख सकता है, उदाहरण के लिए, बीमा कंपनियों से।

3) सूचित व्यक्ति

केवल प्रत्यक्ष पहचानकर्ताओं को हटाने का एक और जोखिम, जैसे नाम, तब उत्पन्न होता है जब सूचित व्यक्तियों को डेटासेट में विशिष्ट व्यक्तियों के लक्षणों या व्यवहार के बारे में बेहतर जानकारी या जानकारी होती है. उनके ज्ञान के आधार पर, हमलावर तब विशिष्ट डेटा रिकॉर्ड को वास्तविक लोगों से जोड़ने में सक्षम हो सकता है।

मामले का अध्ययन

बेहतर ज्ञान का उपयोग कर डेटासेट पर हमले का एक उदाहरण न्यूयॉर्क टैक्सी मामला है, जहां एटोकर (2014) विशिष्ट व्यक्तियों को बेनकाब करने में सक्षम था। नियोजित डेटासेट में न्यूयॉर्क में सभी टैक्सी यात्राएं शामिल थीं, जो बुनियादी विशेषताओं जैसे कि प्रारंभ निर्देशांक, अंत निर्देशांक, मूल्य और सवारी की नोक से समृद्ध थीं।

एक जानकार व्यक्ति जो जानता है कि न्यूयॉर्क वयस्क क्लब 'हसलर' के लिए टैक्सी यात्राएं प्राप्त करने में सक्षम था। 'अंतिम स्थान' को फ़िल्टर करके, उन्होंने सटीक प्रारंभ पतों का पता लगाया और इस प्रकार विभिन्न बार आने वाले आगंतुकों की पहचान की। इसी तरह, जब व्यक्ति के घर का पता पता हो तो टैक्सी की सवारी का अनुमान लगाया जा सकता है। गपशप साइटों पर कई सेलिब्रिटी फिल्म सितारों का समय और स्थान खोजा गया था। इस जानकारी को NYC टैक्सी डेटा से जोड़ने के बाद, उनकी टैक्सी की सवारी, उनके द्वारा भुगतान की गई राशि, और क्या उन्होंने इत्तला दी थी, प्राप्त करना आसान था।

चित्रण 4

एक सूचित व्यक्ति

ड्रॉप-ऑफ निर्देशांक हसलर

ब्राडली कूपर

जेसिका अल्बा

4) डेटा एक फिंगरप्रिंट के रूप में

तर्क की एक सामान्य पंक्ति है 'यह डेटा बेकार है' या 'कोई भी इस डेटा के साथ कुछ नहीं कर सकता'। यह अक्सर गलत धारणा होती है। यहां तक कि सबसे निर्दोष डेटा भी एक अद्वितीय 'फिंगरप्रिंट' बना सकता है और व्यक्तियों को फिर से पहचानने के लिए उपयोग किया जा सकता है। यह इस विश्वास से प्राप्त जोखिम है कि डेटा ही बेकार है, जबकि ऐसा नहीं है।

डेटा, एआई, और अन्य टूल्स और एल्गोरिदम की वृद्धि के साथ पहचान का जोखिम बढ़ जाएगा जो डेटा में जटिल संबंधों को उजागर करने में सक्षम बनाता है। नतीजतन, भले ही आपका डेटासेट अभी खुला नहीं हो सकता है, और संभवत: आज अनधिकृत व्यक्तियों के लिए बेकार है, यह कल नहीं हो सकता है।

मामले का अध्ययन

एक बेहतरीन उदाहरण वह मामला है जहां नेटफ्लिक्स ने अपनी मूवी अनुशंसा प्रणाली को बेहतर बनाने के लिए एक खुली नेटफ्लिक्स प्रतियोगिता शुरू करके अपने आर एंड डी विभाग को क्राउडसोर्स करने का इरादा किया था। 'जो फिल्मों के लिए उपयोगकर्ता रेटिंग की भविष्यवाणी करने के लिए सहयोगी फ़िल्टरिंग एल्गोरिदम में सुधार करता है वह यूएस $ 1,000,000 का पुरस्कार जीतता है'। भीड़ का समर्थन करने के लिए, नेटफ्लिक्स ने केवल निम्नलिखित मूल विशेषताओं वाला एक डेटासेट प्रकाशित किया: उपयोगकर्ता आईडी, मूवी, ग्रेड और ग्रेड की तारीख (इसलिए उपयोगकर्ता या फिल्म के बारे में कोई और जानकारी नहीं)।

चित्रण 5

डेटासेट संरचना नेटफ्लिक्स कीमत

यूज़र आईडी	चलचित्र	ग्रेड की तारीख	ग्रेड
123456789	असंभव मिशन	10-12-2008	4

अलगाव में, डेटा व्यर्थ दिखाई दिया। यह पूछे जाने पर कि 'क्या डेटासेट में कोई ग्राहक जानकारी है जिसे निजी रखा जाना चाहिए?', उत्तर था:

'नहीं, ग्राहक की पहचान करने वाली सभी जानकारी हटा दी गई है; जो कुछ बचा है वह रेटिंग और तारीखें हैं। यह हमारी गोपनीयता नीति का अनुसरण करता है...'

हालांकि, ऑस्टिन में टेक्सास विश्वविद्यालय से नारायणन (2008) अन्यथा साबित हुए। किसी व्यक्ति के ग्रेड, ग्रेड की तारीख और मूवी का संयोजन एक अद्वितीय मूवी-फिंगरप्रिंट बनाता है। अपने खुद के नेटफ्लिक्स व्यवहार के बारे में सोचें। आपको क्या लगता है कि कितने लोगों ने एक ही तरह की फिल्में देखी हैं? कितने लोगों ने एक ही समय में एक ही तरह की फिल्में देखीं?

मुख्य प्रश्न, इस फिंगरप्रिंट का मिलान कैसे करें? यह अपेक्षाकृत सरल था। जाने-माने मूवी रेटिंग वेबसाइट IMDb (इंटरनेट मूवी डेटाबेस) से मिली जानकारी के आधार पर एक समान फिंगरप्रिंट बनाया जा सकता है। नतीजतन, व्यक्तियों की फिर से पहचान की जा सकती है।

जबकि फिल्म देखने के व्यवहार को संवेदनशील जानकारी के रूप में नहीं माना जा सकता है, अपने स्वयं के व्यवहार के बारे में सोचें - क्या आप बुरा मानेंगे यदि यह सार्वजनिक हो जाए? नारायणन ने अपने पेपर में जो उदाहरण दिए हैं, वे हैं राजनीतिक प्राथमिकताएं ('जीसस ऑफ नासरत' और 'द गॉस्पेल ऑफ जॉन' पर रेटिंग) और यौन प्राथमिकताएं ('बेंट' और 'क्वीर एज़ लोक' पर रेटिंग) जिन्हें आसानी से डिस्टिल्ड किया जा सकता है।

5) सामान्य डेटा संरक्षण विनियमन (जीडीपीआर)

जीडीपीआर सुपर-रोमांचक नहीं हो सकता है, न ही ब्लॉग विषयों के बीच चांदी की गोली। फिर भी, व्यक्तिगत डेटा को संसाधित करते समय परिभाषाओं को सीधे प्राप्त करना सहायक होता है। चूंकि यह ब्लॉग डेटा को गुमनाम करने और आपको डेटा प्रोसेसर के रूप में शिक्षित करने के तरीके के रूप में कॉलम को हटाने की आम गलत धारणा के बारे में है, इसलिए हम जीडीपीआर के अनुसार गुमनामी की परिभाषा की खोज के साथ शुरू करते हैं।

जीडीपीआर के रिकेटल 26 के अनुसार, अनाम जानकारी को इस प्रकार परिभाषित किया गया है:

'ऐसी जानकारी जो किसी पहचाने गए या पहचाने जाने योग्य प्राकृतिक व्यक्ति से संबंधित नहीं है या व्यक्तिगत डेटा को इस तरह से गुमनाम कर दिया गया है कि डेटा विषय अब पहचानने योग्य नहीं है या नहीं।'

चूंकि कोई व्यक्ति व्यक्तिगत डेटा को संसाधित करता है जो एक प्राकृतिक व्यक्ति से संबंधित है, परिभाषा का केवल भाग 2 प्रासंगिक है। परिभाषा का पालन करने के लिए, किसी को यह सुनिश्चित करना होगा कि डेटा विषय (व्यक्तिगत) पहचान योग्य नहीं है या नहीं। जैसा कि इस ब्लॉग में बताया गया है, हालांकि, कुछ विशेषताओं के आधार पर व्यक्तियों की पहचान करना उल्लेखनीय रूप से सरल है। इसलिए, किसी डेटासेट से नाम हटाना गुमनामी की जीडीपीआर परिभाषा का पालन नहीं करता है।

निष्कर्ष के तौर पर

हमने एक आम तौर पर मानी जाने वाली और, दुर्भाग्य से, डेटा गुमनामी के अभी भी अक्सर लागू दृष्टिकोण को चुनौती दी: नामों को हटाना। गेस हू गेम में और इसके बारे में चार अन्य उदाहरण:

लिंकेज अटैक
सूचित व्यक्ति
फ़िंगरप्रिंट के रूप में डेटा
General Data Protection Regulation (GDPR)

यह दिखाया गया था कि नाम हटाना गुमनामी के रूप में विफल रहता है। हालांकि उदाहरण हड़ताली मामले हैं, प्रत्येक पुन: पहचान की सादगी को दर्शाता है और व्यक्तियों की गोपनीयता पर संभावित नकारात्मक प्रभाव।

अंत में, आपके डेटासेट से नामों को हटाने का परिणाम अनाम डेटा में नहीं होता है। इसलिए, बेहतर होगा कि हम दोनों शब्दों का परस्पर प्रयोग करने से बचें। मुझे पूरी उम्मीद है कि आप गुमनामी के लिए इस दृष्टिकोण को लागू नहीं करेंगे। और, यदि आप अभी भी ऐसा करते हैं, तो सुनिश्चित करें कि आप और आपकी टीम गोपनीयता जोखिमों को पूरी तरह से समझते हैं, और प्रभावित व्यक्तियों की ओर से उन जोखिमों को स्वीकार करने की अनुमति है।

डेटा कृत्रिम है, लेकिन हमारी टीम वास्तविक है!

संपर्क सिंथो और हमारे विशेषज्ञों में से एक सिंथेटिक डेटा के मूल्य का पता लगाने के लिए प्रकाश की गति से आपसे संपर्क करेगा!

डी. रीनसेल, जे. गैंट्ज़, जॉन राइडिंग. एज से कोर तक दुनिया का डिजिटलीकरण, डेटा आयु 2025, 2018
एल स्वीनी। के-गुमनाम: गोपनीयता की रक्षा के लिए एक मॉडल। अनिश्चितता, अस्पष्टता और ज्ञान-आधारित प्रणालियों पर अंतर्राष्ट्रीय जर्नल, १० (५), २००२: ५५७-५७०
एल स्वीनी। साधारण जनसांख्यिकी अक्सर लोगों को विशिष्ट रूप से पहचानते हैं। कार्नेगी मेलॉन यूनिवर्सिटी, डेटा प्राइवेसी वर्किंग पेपर 3. पिट्सबर्ग 2000
पी. सामरती. माइक्रोडेटा रिलीज़ में उत्तरदाताओं की पहचान की रक्षा करना। ज्ञान और डेटा इंजीनियरिंग पर आईईईई लेनदेन, १३ (६), २००१: १०१०-१०२७
अटोकर। राइडिंग विद द स्टार्स: पैसेंजर प्राइवेसी इन द एनवाईसी टैक्सीकैब डेटासेट, 2014
नारायणन, ए., और शमातिकोव, वी. (2008)। बड़े विरल डेटासेट का मजबूत डी-अनामीकरण। कार्यवाही में - 2008 सुरक्षा और गोपनीयता पर आईईईई संगोष्ठी, एसपी (पीपी। 111-125)
जनरल डेटा प्रोटेक्शन रेगुलेशन (GDPR), रिकिटल 26, बेनामी डेटा पर लागू नहीं

सिंथेटिक डेटा क्या है?

गुणवत्ता आश्वासन रिपोर्ट

एसएएस द्वारा बाहरी मूल्यांकन

समय श्रृंखला सिंथेटिक डेटा

पीआईआई स्कैनर

सिंथेटिक मॉक डेटा

लगातार मैपिंग

डी-आइडेंटिफिकेशन और सिंथेटाइजेशन

नियम-आधारित सिंथेटिक डेटा

सबसेटिंग

तैनाती और एकीकरण

कनेक्टर्स

विस्तारित सुविधाएँ

समर्थित डेटा

उपयोगकर्ता प्रलेखन

एक डेमो शेड्यूल करें

मूल्य निर्धारण

परीक्षण डेटा के रूप में सिंथेटिक डेटा

विश्लेषण के लिए सिंथेटिक डेटा

डेटा साझाकरण के लिए सिंथेटिक डेटा

उत्पाद डेमो के लिए सिंथेटिक डेटा

हेल्थकेयर

वित्त (फाइनेंस)

सार्वजनिक संगठन

उपयोगकर्ता प्रलेखन

श्वेतपत्र और मार्गदर्शिकाएँ

ब्लॉग

Webinars

प्रकरण अध्ययन

मूल्य निर्धारण

हमारे बारे में

करियर

अंदाज लगाओ कौन? 5 उदाहरण क्यों नाम हटाना कोई विकल्प नहीं है

गेस हू का परिचय

2) लिंकेज अटैक: आपका डेटासेट अन्य (सार्वजनिक) डेटा स्रोतों से जुड़ा हुआ है

तेजी से बढ़ रहा डेटा एक सच्चाई है

मामले का अध्ययन

व्यवहार में लिंकेज हमला

स्वीनी के परिणाम

3) सूचित व्यक्ति

मामले का अध्ययन

एक सूचित व्यक्ति

4) डेटा एक फिंगरप्रिंट के रूप में

मामले का अध्ययन

डेटासेट संरचना नेटफ्लिक्स कीमत

5) सामान्य डेटा संरक्षण विनियमन (जीडीपीआर)

निष्कर्ष के तौर पर

डेटा कृत्रिम है, लेकिन हमारी टीम वास्तविक है!

मुख्य मेनू