કોણ ધારી? 5 ઉદાહરણો શા માટે નામો દૂર કરવા એ વિકલ્પ નથી

કોણ રમત ધારી

અનુમાન કોનો પરિચય

ધારી કોણ? તેમ છતાં મને ખાતરી છે કે તમારામાંના મોટાભાગના લોકો આ રમતને પાછલા દિવસોથી જાણે છે, અહીં ટૂંકું સંક્ષિપ્ત વર્ણન છે. રમતનો ધ્યેય: 'હા' અને 'ના' પ્રશ્નો પૂછીને તમારા વિરોધી દ્વારા પસંદ કરાયેલા કાર્ટૂન પાત્રનું નામ શોધો, જેમ કે 'વ્યક્તિ ટોપી પહેરે છે?' અથવા 'વ્યક્તિ ચશ્મા પહેરે છે'? ખેલાડીઓ પ્રતિસ્પર્ધીના પ્રતિભાવના આધારે ઉમેદવારોને દૂર કરે છે અને તેમના વિરોધીના રહસ્ય પાત્ર સાથે સંબંધિત લક્ષણો શીખે છે. પહેલો ખેલાડી જે અન્ય ખેલાડીના રહસ્ય પાત્રને બહાર કાે છે તે રમત જીતે છે.

તને સમજાઈ ગયું. વ્યક્તિએ ડેટાસેટમાંથી ફક્ત સંબંધિત લક્ષણોની byક્સેસ મેળવીને ઓળખવી જોઈએ. હકીકતમાં, અમે નિયમિતપણે અનુમાન લગાવતા આ ખ્યાલને જોતા હોઈએ છીએ જે વ્યવહારમાં લાગુ થાય છે, પરંતુ પછી વાસ્તવિક લોકોના લક્ષણો ધરાવતી પંક્તિઓ અને કumલમ સાથે ફોર્મેટ કરેલા ડેટાસેટ્સ પર કાર્યરત છે. ડેટા સાથે કામ કરતી વખતે મુખ્ય તફાવત એ છે કે લોકો સરળતાને ઓછો અંદાજ આપે છે જેના દ્વારા વાસ્તવિક વ્યક્તિઓને માત્ર થોડા લક્ષણોની byક્સેસ આપીને છૂટા કરી શકાય છે.

જેમ ગેસ હૂ ગેમ બતાવે છે, કોઈ વ્યક્તિ માત્ર થોડા લક્ષણોની byક્સેસ દ્વારા વ્યક્તિઓને ઓળખી શકે છે. તે તમારા ડેટાસેટમાંથી માત્ર 'નામો' (અથવા અન્ય સીધા ઓળખકર્તાઓ) ને કા removingી નાખવાનું એક સરળ ઉદાહરણ તરીકે સેવા આપે છે, અનામીકરણ તકનીક તરીકે નિષ્ફળ જાય છે. આ બ્લોગમાં, ડેટા અનામીકરણના સાધન તરીકે ક colલમ દૂર કરવા સાથે સંકળાયેલા ગોપનીયતા જોખમો વિશે તમને જાણ કરવા માટે અમે ચાર પ્રાયોગિક કેસો પ્રદાન કરીએ છીએ.

2) જોડાણ હુમલાઓ: તમારું ડેટાસેટ અન્ય (જાહેર) ડેટા સ્રોતો સાથે જોડાયેલું છે

જોડાણના હુમલાનું જોખમ એ સૌથી મહત્વનું કારણ છે કે માત્ર નામ કા removingી નાખવું (હવે) અનામીકરણની પદ્ધતિ તરીકે કામ કરતું નથી. લિંકેજ એટેક સાથે, હુમલાખોર મૂળ માહિતીને અન્ય સુલભ ડેટા સ્રોતો સાથે જોડે છે જેથી વ્યક્તિને અનન્ય રીતે ઓળખવામાં આવે અને આ વ્યક્તિ વિશેની માહિતી (ઘણી વખત સંવેદનશીલ) શીખે.

અહીં મુખ્ય છે અન્ય ડેટા સંસાધનોની ઉપલબ્ધતા જે હાલમાં હાજર છે, અથવા ભવિષ્યમાં હાજર થઈ શકે છે. તમારા વિશે વિચારો. ફેસબુક, ઇન્સ્ટાગ્રામ અથવા લિંક્ડઇન પર તમારો કેટલો વ્યક્તિગત ડેટા મળી શકે છે જે સંભવિત રૂપે લિંકેજ હુમલા માટે દુરુપયોગ થઈ શકે?

પહેલાના દિવસોમાં, ડેટાની ઉપલબ્ધતા ઘણી વધારે મર્યાદિત હતી, જે અંશત સમજાવે છે કે વ્યક્તિઓની ગોપનીયતા જાળવવા માટે નામો કા removalી નાખવા કેમ પૂરતા હતા. ઓછા ઉપલબ્ધ ડેટા એટલે ડેટા લિંક કરવાની ઓછી તકો. જો કે, અમે હવે ડેટા આધારિત અર્થતંત્રમાં (સક્રિય) સહભાગીઓ છીએ, જ્યાં ડેટાનો જથ્થો ઘાતાંકીય દરે વધી રહ્યો છે. વધુ ડેટા, અને ડેટા એકત્રિત કરવા માટેની ટેકનોલોજીમાં સુધારો કરવાથી જોડાણના હુમલાની સંભાવના વધશે. લિન્કેજ એટેકના જોખમ વિશે 10 વર્ષમાં કોઈ શું લખશે?

ચિત્ર 1

ઝડપથી વધતો ડેટા એક હકીકત છે

ડેટાનો જથ્થો

કેસ સ્ટડી

સ્વીની (2002) એ એક શૈક્ષણિક પેપરમાં દર્શાવ્યું હતું કે તે યુનાઇટેડ સ્ટેટ્સમાં સાર્વજનિક રૂપે ઉપલબ્ધ વોટિંગ રજિસ્ટ્રાર સાથે 'હોસ્પિટલ મુલાકાતો' ના જાહેર ઉપલબ્ધ ડેટા સેટને જોડવાને આધારે વ્યક્તિઓ પાસેથી સંવેદનશીલ તબીબી ડેટાને ઓળખવા અને પુન retrieveપ્રાપ્ત કરવામાં સક્ષમ હતી. બંને ડેટાસેટ્સ જ્યાં નામો અને અન્ય સીધા ઓળખકર્તાઓને કા throughી નાખીને યોગ્ય રીતે અનામી હોવાનું માનવામાં આવે છે.

ચિત્ર 2

વ્યવહારમાં જોડાણ હુમલો

જોડાણ હુમલો

માત્ર ત્રણ પરિમાણો (1) પિન કોડ, (2) જાતિ અને (3) જન્મ તારીખના આધારે, તેણીએ દર્શાવ્યું કે સમગ્ર યુએસ વસ્તીના 87% બંને ડેટાસેટ્સમાંથી ઉપરોક્ત વિશેષતાઓ સાથે મેળ ખાતા ફરીથી ઓળખી શકાય છે. ત્યારબાદ સ્વીનીએ 'ઝિપ કોડ'ના વિકલ્પ તરીકે' દેશ 'ધરાવવાનું કામ પુનરાવર્તન કર્યું. વધુમાં, તેણીએ દર્શાવ્યું કે સમગ્ર યુ.એસ. વસ્તીના 18% (1) વતન દેશ, (2) લિંગ અને (3) જન્મ તારીખ વિશે માહિતી ધરાવતા ડેટાસેટની havingક્સેસ મેળવીને જ ઓળખી શકાય છે. ઉપરોક્ત જાહેર સ્રોતો, જેમ કે ફેસબુક, લિંક્ડઇન અથવા ઇન્સ્ટાગ્રામ વિશે વિચારો. શું તમારો દેશ, લિંગ અને જન્મ તારીખ દેખાય છે, અથવા અન્ય વપરાશકર્તાઓ તેને કાપી શકે છે?

ચિત્ર 3

સ્વીનીના પરિણામો

અર્ધ-ઓળખકર્તા

યુ.એસ. વસ્તીની વિશિષ્ટ રીતે ઓળખાતી % (248 મિલિયન)

5-અંકનું ઝીપ, લિંગ, જન્મ તારીખ

87%

સ્થળ, લિંગ, જન્મ તારીખ

53%

દેશ, લિંગ, જન્મ તારીખ

18%

આ ઉદાહરણ દર્શાવે છે કે મોટે ભાગે અનામી ડેટામાં વ્યક્તિઓને ડિ-અનામી રાખવું નોંધપાત્ર રીતે સરળ હોઈ શકે છે. પ્રથમ, આ અભ્યાસ જોખમની વિશાળ તીવ્રતા સૂચવે છે, જેમ કે 87% યુ.એસ. વસ્તીનો ઉપયોગ કરીને સરળતાથી ઓળખી શકાય છે થોડા લક્ષણો. બીજું, આ અભ્યાસમાં ખુલ્લી તબીબી માહિતી અત્યંત સંવેદનશીલ હતી. હોસ્પિટલની મુલાકાત ડેટાસેટમાંથી ખુલ્લા વ્યક્તિઓના ડેટાના ઉદાહરણોમાં વંશીયતા, નિદાન અને દવાઓનો સમાવેશ થાય છે. ગુણો કે જે કોઈ વ્યક્તિ ગુપ્ત રાખી શકે છે, ઉદાહરણ તરીકે, વીમા કંપનીઓ તરફથી.

3) જાણકાર વ્યક્તિઓ

માત્ર સીધા ઓળખકર્તાઓને દૂર કરવાનું બીજું જોખમ, જેમ કે નામો, જ્યારે જાણકાર વ્યક્તિઓ પાસે ડેટાસેટમાં વિશિષ્ટ વ્યક્તિઓના લક્ષણો અથવા વર્તન વિશે શ્રેષ્ઠ જ્ knowledgeાન અથવા માહિતી હોય ત્યારે ભી થાય છે.. તેમના જ્ knowledgeાનના આધારે, હુમલાખોર પછી ચોક્કસ ડેટા રેકોર્ડ્સને વાસ્તવિક લોકો સાથે લિંક કરી શકશે.

કેસ સ્ટડી

શ્રેષ્ઠ જ્ knowledgeાનનો ઉપયોગ કરીને ડેટાસેટ પર હુમલાનું ઉદાહરણ ન્યુ યોર્ક ટેક્સી કેસ છે, જ્યાં અટોકર (2014) ચોક્કસ વ્યક્તિઓને છૂટા કરવામાં સક્ષમ હતા. કાર્યરત ડેટાસેટમાં ન્યૂ યોર્કની તમામ ટેક્સી મુસાફરીઓ શામેલ છે, જે પ્રારંભિક કોઓર્ડિનેટ્સ, અંતિમ કોઓર્ડિનેટ્સ, રાઇડની કિંમત અને ટીપ જેવા મૂળભૂત લક્ષણોથી સમૃદ્ધ છે.

એક જાણકાર વ્યક્તિ જે ન્યુ યોર્ક જાણે છે તે પુખ્ત ક્લબ 'હસ્ટલર' માટે ટેક્સીની સફર કરવામાં સક્ષમ હતો. 'એન્ડ લોકેશન' ફિલ્ટર કરીને, તેણે શરૂઆતના ચોક્કસ સરનામાં કા ded્યા અને ત્યાંથી વારંવાર આવતા મુલાકાતીઓની ઓળખ કરી. તેવી જ રીતે, જ્યારે કોઈ વ્યક્તિનું ઘરનું સરનામું જાણીતું હોય ત્યારે કોઈ ટેક્સીની સવારી કાી શકે છે. ઘણા સેલિબ્રિટી મૂવી સ્ટાર્સનો સમય અને સ્થાન ગપસપ સાઇટ્સ પર શોધવામાં આવ્યું હતું. આ માહિતીને એનવાયસી ટેક્સી ડેટા સાથે લિંક કર્યા પછી, તેમની ટેક્સી સવારી, તેઓએ ચૂકવેલી રકમ અને તેઓએ ટિપ આપી હતી કે કેમ તે મેળવવાનું સરળ હતું.

ચિત્ર 4

જાણકાર વ્યક્તિ

ડ્રોપ-ઓફ કોઓર્ડિનેટ્સ હસ્ટલર

બ્રેડલી કૂપર

ટેક્સી અને નકશો

જેસિકા આલ્બા

નકશા ટ્રેકિંગ

4) ફિંગરપ્રિન્ટ તરીકે ડેટા

દલીલની સામાન્ય લાઇન છે 'આ ડેટા નકામો છે' અથવા 'આ ડેટા સાથે કોઈ પણ કંઈ કરી શકતું નથી'. આ ઘણી વખત ગેરસમજ છે. સૌથી નિર્દોષ ડેટા પણ અનન્ય 'ફિંગરપ્રિન્ટ' બનાવી શકે છે અને તેનો ઉપયોગ વ્યક્તિઓને ફરીથી ઓળખવા માટે કરી શકાય છે. તે ડેટા પોતે નકામું છે એવું માનવાથી ઉદ્ભવેલું જોખમ છે, જ્યારે તે નથી.

ડેટા, AI અને અન્ય સાધનો અને અલ્ગોરિધમ્સના વધારા સાથે ઓળખનું જોખમ વધશે જે ડેટામાં જટિલ સંબંધોને ઉજાગર કરવામાં સક્ષમ બનાવે છે. પરિણામે, જો તમારો ડેટાસેટ હમણાં ખુલ્લો કરી શકાતો નથી, અને આજે અનધિકૃત વ્યક્તિઓ માટે સંભવત use નકામું છે, તો તે કાલે ન પણ હોઈ શકે.

કેસ સ્ટડી

એક શ્રેષ્ઠ ઉદાહરણ એ છે કે જ્યાં નેટફ્લિક્સ તેના આર એન્ડ ડી વિભાગને તેમની ફિલ્મ ભલામણ પ્રણાલીમાં સુધારો કરવા માટે ખુલ્લી નેટફ્લિક્સ સ્પર્ધા રજૂ કરીને ક્રાઉડસોર્સ કરવાનો ઇરાદો ધરાવે છે. 'જે ફિલ્મો માટે યુઝર રેટિંગની આગાહી કરવા માટે સહયોગી ફિલ્ટરિંગ એલ્ગોરિધમમાં સુધારો કરે છે તે US $ 1,000,000 નું ઇનામ જીતે છે'. ભીડને ટેકો આપવા માટે, નેટફ્લિક્સે એક ડેટાસેટ પ્રકાશિત કર્યો છે જેમાં ફક્ત નીચેના મૂળભૂત લક્ષણો છે: યુઝર આઈડી, મૂવી, ગ્રેડની તારીખ અને ગ્રેડ (તેથી વપરાશકર્તા અથવા ફિલ્મ વિશે વધુ માહિતી નથી).

ચિત્ર 5

ડેટાસેટ માળખું નેટફ્લિક્સ કિંમત

યુઝરઆઈડી ફિલ્મ ગ્રેડની તારીખ ગ્રેડ
123456789 અશક્ય મિશન 10-12-2008 4

અલગતામાં, ડેટા નિરર્થક દેખાયો. પ્રશ્ન પૂછતી વખતે 'શું ડેટાસેટમાં કોઈ ગ્રાહક માહિતી છે જે ખાનગી રાખવી જોઈએ?', જવાબ હતો:

 'ના, ગ્રાહકની ઓળખ કરતી તમામ માહિતી દૂર કરવામાં આવી છે; રેટિંગ્સ અને તારીખો બાકી છે. આ અમારી ગોપનીયતા નીતિને અનુસરે છે ... '

જો કે, ઓસ્ટિન ખાતે ટેક્સાસ યુનિવર્સિટીના નારાયણન (2008) અન્યથા સાબિત થયા. ગ્રેડ, ગ્રેડની તારીખ અને વ્યક્તિની ફિલ્મનું સંયોજન એક અનન્ય મૂવી-ફિંગરપ્રિન્ટ બનાવે છે. તમારા પોતાના નેટફ્લિક્સ વર્તન વિશે વિચારો. તમારા મતે કેટલા લોકોએ સમાન ફિલ્મોનો સેટ જોયો છે? એક જ સમયે કેટલી ફિલ્મોનો સેટ જોયો?

મુખ્ય પ્રશ્ન, આ ફિંગરપ્રિન્ટને કેવી રીતે મેચ કરવી? તે એકદમ સરળ હતું. જાણીતી ફિલ્મ-રેટિંગ વેબસાઇટ IMDb (ઇન્ટરનેટ મૂવી ડેટાબેઝ) ની માહિતીના આધારે, સમાન ફિંગરપ્રિન્ટની રચના થઈ શકે છે. પરિણામે, વ્યક્તિઓને ફરીથી ઓળખી શકાય છે.

જ્યારે મૂવી જોવાની વર્તણૂક સંવેદનશીલ માહિતી તરીકે માનવામાં ન આવે, તમારા પોતાના વર્તન વિશે વિચારો-જો તે જાહેરમાં જાય તો તમને વાંધો છે? નારાયણને તેના પેપરમાં આપેલા ઉદાહરણો રાજકીય પસંદગીઓ ('ઈસુ ઓફ નાઝારેથ' અને 'ધ ગોસ્પેલ ઓફ જ્હોન' પર રેટિંગ્સ) અને જાતીય પસંદગીઓ ('બેન્ટ' અને 'ક્વીર એઝ ફોક') છે જે સરળતાથી નિસ્યંદિત થઈ શકે છે.

5) જનરલ ડેટા પ્રોટેક્શન રેગ્યુલેશન (GDPR)

જીડીપીઆર સુપર-રોમાંચક ન હોઈ શકે, ન તો બ્લોગ વિષયોમાં ચાંદીની બુલેટ. તેમ છતાં, વ્યક્તિગત ડેટાની પ્રક્રિયા કરતી વખતે સીધી વ્યાખ્યાઓ મેળવવામાં મદદરૂપ થાય છે. આ બ્લોગ ડેટાને અનામી રાખવા અને તમને ડેટા પ્રોસેસર તરીકે શિક્ષિત કરવાના માર્ગ તરીકે કumલમ દૂર કરવાની સામાન્ય ગેરસમજ વિશે હોવાથી, ચાલો જીડીપીઆર અનુસાર અનામીકરણની વ્યાખ્યા અન્વેષણ કરીએ. 

જીડીપીઆરના 26 પાઠ અનુસાર, અનામી માહિતીને આ રીતે વ્યાખ્યાયિત કરવામાં આવી છે:

'જે માહિતી ઓળખી શકાય તેવા અથવા ઓળખી શકાય તેવા કુદરતી વ્યક્તિ અથવા વ્યક્તિગત ડેટાને અનામી રીતે રજૂ કરવામાં આવી હોય તે રીતે સંબંધિત નથી કે માહિતીનો વિષય નથી અથવા હવે ઓળખી શકાતો નથી.'

કુદરતી વ્યક્તિ સાથે સંબંધિત વ્યક્તિગત ડેટા પર પ્રક્રિયા કરતી હોવાથી, વ્યાખ્યાનો માત્ર ભાગ 2 સંબંધિત છે. વ્યાખ્યાનું પાલન કરવા માટે, કોઈએ સુનિશ્ચિત કરવું પડશે કે ડેટા વિષય (વ્યક્તિગત) હવે ઓળખી શકાતો નથી અથવા નથી. આ બ્લોગમાં દર્શાવ્યા મુજબ, જો કે, કેટલાક લક્ષણોના આધારે વ્યક્તિઓને ઓળખવા માટે તે નોંધપાત્ર રીતે સરળ છે. તેથી, ડેટાસેટમાંથી નામો દૂર કરવાથી અનામીકરણની જીડીપીઆર વ્યાખ્યાનું પાલન થતું નથી.

નિષ્કર્ષ માં

અમે સામાન્ય રીતે માનવામાં આવતા એક અને, કમનસીબે, હજુ પણ ડેટા અનામીકરણના વારંવાર લાગુ પડતા અભિગમને પડકાર્યો: નામો દૂર કરવા. અનુમાન કોણ રમતમાં અને તેના વિશે ચાર અન્ય ઉદાહરણો:

  • જોડાણ હુમલાઓ
  • જાણકાર વ્યક્તિઓ
  • ફિંગરપ્રિન્ટ તરીકે ડેટા
  • જનરલ ડેટા પ્રોટેક્શન રેગ્યુલેશન (જીડીપીઆર)

તે બતાવવામાં આવ્યું હતું કે નામ કા removingી નાખવું અનામીકરણ તરીકે નિષ્ફળ જાય છે. જો કે ઉદાહરણો આઘાતજનક કિસ્સાઓ છે, દરેક ફરીથી ઓળખની સરળતા દર્શાવે છે અને વ્યક્તિઓની ગોપનીયતા પર સંભવિત નકારાત્મક અસર.

નિષ્કર્ષમાં, તમારા ડેટાસેટમાંથી નામો કા removalી નાખવાથી અનામી ડેટા મળતો નથી. તેથી, અમે બંને શબ્દો એકબીજાના બદલે વાપરવાનું ટાળીએ છીએ. હું નિષ્ઠાપૂર્વક આશા રાખું છું કે તમે અનામીકરણ માટે આ અભિગમ લાગુ કરશો નહીં. અને, જો તમે હજી પણ કરો છો, તો ખાતરી કરો કે તમે અને તમારી ટીમ ગોપનીયતાના જોખમોને સંપૂર્ણ રીતે સમજો છો, અને અસરગ્રસ્ત વ્યક્તિઓ વતી તે જોખમો સ્વીકારવાની મંજૂરી છે.

હસતા લોકોનું જૂથ

ડેટા કૃત્રિમ છે, પરંતુ અમારી ટીમ વાસ્તવિક છે!

સિન્થોનો સંપર્ક કરો અને અમારા એક નિષ્ણાત કૃત્રિમ ડેટાના મૂલ્યનું અન્વેષણ કરવા માટે પ્રકાશની ઝડપે તમારી સાથે સંપર્ક કરશે!

  • ડી. રેઇન્સેલ, જે. ગેન્ટ્ઝ, જ્હોન રાયડિંગ. એજ થી કોર સુધી વિશ્વનું ડિજિટાઇઝેશન, ડેટા એજ 2025, 2018
  • એલ. સ્વીની. કે-અનામીતા: ગોપનીયતાને સુરક્ષિત કરવા માટેનું એક મોડેલ. અનિશ્ચિતતા, અસ્પષ્ટતા અને જ્ledgeાન આધારિત સિસ્ટમો પર આંતરરાષ્ટ્રીય જર્નલ, 10 (5), 2002: 557-570
  • એલ. સ્વીની. સરળ વસ્તી વિષયક ઘણીવાર લોકોને અનન્ય રીતે ઓળખે છે. કાર્નેગી મેલોન યુનિવર્સિટી, ડેટા પ્રાઇવસી વર્કિંગ પેપર 3. પિટ્સબર્ગ 2000
  • પી. સમરતી. માઇક્રોડેટા પ્રકાશનમાં ઉત્તરદાતાઓની ઓળખનું રક્ષણ. IEEE ટ્રાન્ઝેક્શન ઓન નોલેજ એન્ડ ડેટા એન્જિનિયરિંગ, 13 (6), 2001: 1010-1027
  • અટોકર. સ્ટાર્સ સાથે સવારી: એનવાયસી ટેક્સીકabબ ડેટાસેટમાં પેસેન્જર ગોપનીયતા, 2014
  • નારાયણન, એ., અને શ્મતીકોવ, વી. (2008). મોટા છૂટાછવાયા ડેટાસેટ્સનું મજબૂત ડી-અનામીકરણ. કાર્યવાહીમાં-2008 સુરક્ષા અને ગોપનીયતા પર IEEE સિમ્પોઝિયમ, SP (pp. 111-125)
  • જનરલ ડેટા પ્રોટેક્શન રેગ્યુલેશન (જીડીપીઆર), રેસીટલ 26, અનામી ડેટાને લાગુ પડતું નથી