Uzmini kurš? 5 piemēri, kāpēc vārdu noņemšana nav iespējama

uzmini, kura spēle

Ievads Guess Who

Uzmini kurš? Lai gan esmu pārliecināts, ka lielākā daļa no jums zina šo spēli jau senos laikos, šeit ir īss kopsavilkums. Spēles mērķis: atklājiet pretinieka izvēlētā multfilmas varoņa vārdu, uzdodot “jā” un “nē” jautājumus, piemēram, “vai cilvēks valkā cepuri?” vai "cilvēks valkā brilles"? Spēlētāji likvidē kandidātus, pamatojoties uz pretinieka reakciju, un apgūst atribūtus, kas saistīti ar pretinieka noslēpumaino raksturu. Pirmais spēlētājs, kurš izdomā otra spēlētāja noslēpumaino raksturu, uzvar spēlē.

Tu saprati. Ir jāidentificē indivīds no datu kopas, piekļūstot tikai atbilstošajiem atribūtiem. Patiesībā mēs regulāri redzam šo Guess Who koncepciju, kas tika izmantota praksē, bet pēc tam tika izmantota datu kopās, kas formatētas ar rindām un kolonnām, kurās ir reālu cilvēku atribūti. Galvenā atšķirība, strādājot ar datiem, ir tā, ka cilvēki mēdz nenovērtēt, cik viegli ir atmaskot reālas personas, piekļūstot tikai dažiem atribūtiem.

Kā ilustrē spēle Guess Who, kāds var identificēt personas, piekļūstot tikai dažiem atribūtiem. Tas kalpo kā vienkāršs piemērs tam, kāpēc tikai “vārdu” (vai citu tiešo identifikatoru) noņemšana no datu kopas neizdodas kā anonimizācijas metode. Šajā emuārā mēs piedāvājam četrus praktiskus gadījumus, lai informētu jūs par privātuma riskiem, kas saistīti ar sleju noņemšanu kā datu anonimizācijas līdzekli.

2) Saikņu uzbrukumi: jūsu datu kopa ir saistīta ar citiem (publiskiem) datu avotiem

Saikņu uzbrukumu risks ir vissvarīgākais iemesls, kāpēc tikai vārdu noņemšana nedarbojas (vairs) kā anonimizācijas metode. Saistībā ar uzbrukumu uzbrucējs apvieno sākotnējos datus ar citiem pieejamiem datu avotiem, lai unikāli identificētu personu un uzzinātu (bieži vien sensitīvu) informāciju par šo personu.

Galvenais šeit ir citu datu resursu pieejamība, kas atrodas pašreiz vai var parādīties nākotnē. Padomā par sevi. Cik daudz jūsu personīgo datu var atrast Facebook, Instagram vai LinkedIn, kurus varētu ļaunprātīgi izmantot saiknes uzbrukumā?

Iepriekšējās dienās datu pieejamība bija daudz ierobežotāka, kas daļēji izskaidro, kāpēc vārdu noņemšana bija pietiekama, lai saglabātu personu privātumu. Mazāk pieejamo datu nozīmē mazāk iespēju saistīt datus. Tomēr tagad mēs esam (aktīvi) dalībnieki uz datiem balstītā ekonomikā, kur datu apjoms pieaug eksponenciāli. Vairāk datu un uzlabota datu vākšanas tehnoloģija palielinās saikņu uzbrukumu potenciālu. Ko 10 gadu laikā rakstītu par saiknes uzbrukuma risku?

1 ilustrācija

Eksponenciāli pieaugošie dati ir fakts

Datu daudzums

Gadījuma izpēte

Svīnija (2002) akadēmiskā rakstā parādīja, kā viņa spēj identificēt un izgūt sensitīvus medicīniskos datus no indivīdiem, pamatojoties uz publiski pieejamu “slimnīcas apmeklējumu” datu kopas saistīšanu ar publiski pieejamo balsošanas reģistratūru ASV. Tiek uzskatīts, ka abas datu kopas ir pienācīgi anonimizētas, dzēšot vārdus un citus tiešos identifikatorus.

2 ilustrācija

Savienojumu uzbrukums praksē

Savienojuma uzbrukums

Pamatojoties tikai uz trim parametriem (1) pasta indekss, (2) dzimums un (3) dzimšanas datums, viņa parādīja, ka 87% no visiem ASV iedzīvotājiem var atkārtoti identificēt, saskaņojot iepriekš minētos atribūtus no abām datu kopām. Svīnijs pēc tam atkārtoja savu darbu ar “valsti” kā alternatīvu “pasta indeksam”. Turklāt viņa parādīja, ka 18% no visiem ASV iedzīvotājiem var identificēt tikai ar piekļuvi datu kopai, kas satur informāciju par (1) mītnes valsti, (2) dzimumu un (3) dzimšanas datumu. Padomājiet par iepriekš minētajiem publiskajiem avotiem, piemēram, Facebook, LinkedIn vai Instagram. Vai ir redzama jūsu valsts, dzimums un dzimšanas datums, vai arī citi lietotāji to var atskaitīt?

3 ilustrācija

Svīnija rezultāti

Kvazi identifikatori

% unikāli identificēti ASV iedzīvotāji (248 miljoni)

5 ciparu ZIP, dzimums, dzimšanas datums

87%

vieta, dzimums, dzimšanas datums

53%

valsts, dzimums, dzimšanas datums

18%

Šis piemērs parāda, ka šķietami anonīmos datos var būt ārkārtīgi viegli atslēgt personu anonimitāti. Pirmkārt, šis pētījums norāda uz milzīgu risku, kā 87% ASV iedzīvotāju var viegli identificēt, izmantojot dažas īpašības. Otrkārt, šajā pētījumā atklātie medicīniskie dati bija ļoti jutīgi. Atklātās personas datu piemēri no slimnīcas apmeklējumu datu kopas ietver etnisko piederību, diagnozi un medikamentus. Atribūti, kurus drīzāk var slēpt, piemēram, no apdrošināšanas sabiedrībām.

3) Informētas personas

Vēl viens risks noņemt tikai tiešos identifikatorus, piemēram, vārdus, rodas, ja informētām personām ir augstākas zināšanas vai informācija par konkrētu personu iezīmēm vai uzvedību datu kopā. Pamatojoties uz viņu zināšanām, uzbrucējs, iespējams, varēs saistīt konkrētus datu ierakstus ar reāliem cilvēkiem.

Gadījuma izpēte

Datu kopas uzbrukuma piemērs, izmantojot augstākās zināšanas, ir Ņujorkas taksometru gadījums, kurā Atockar (2014) spēja atmaskot konkrētas personas. Izmantotā datu kopa ietvēra visus taksometru braucienus Ņujorkā, kas tika papildināta ar tādiem pamatatribūtiem kā sākuma koordinātas, beigu koordinātas, cena un brauciena gals.

Informēta persona, kas zina Ņujorku, varēja iegūt taksometra braucienus uz pieaugušo klubu "Hustler". Filtrējot “beigu vietu”, viņš secināja precīzas sākuma adreses un tādējādi identificēja dažādus biežus apmeklētājus. Līdzīgi varētu secināt braucienus ar taksometriem, kad bija zināma personas mājas adrese. Tenku vietnēs tika atklāts vairāku slavenību filmu zvaigžņu laiks un atrašanās vieta. Pēc šīs informācijas saistīšanas ar NYC taksometru datiem bija viegli iegūt informāciju par viņu braucieniem ar taksometru, samaksāto summu un to, vai viņi ir saņēmuši dzeramnaudu.

4 ilustrācija

Informēta persona

nolaišanās koordinātas Hustlers

Bradley Cooper

taksometrs un karte

Jessica Alba

karšu izsekošana

4) Dati kā pirkstu nospiedumi

Kopējā argumentācija ir “šie dati ir bezvērtīgi” vai “neviens neko nevar darīt ar šiem datiem”. Tas bieži ir nepareizs priekšstats. Pat nevainīgākie dati var veidot unikālu “pirkstu nospiedumu” un tos izmantot, lai atkārtoti identificētu personas. Tas ir risks, kas izriet no uzskata, ka paši dati ir bezvērtīgi, bet tā nav.

Identifikācijas risks palielināsies, palielinoties datiem, AI un citiem rīkiem un algoritmiem, kas ļauj atklāt sarežģītas datu attiecības. Līdz ar to, pat ja jūsu datu kopu nevar atklāt tagad un, iespējams, tā šodien ir bezjēdzīga nepiederošām personām, tā var nebūt rīt.

Gadījuma izpēte

Lielisks piemērs ir gadījums, kad Netflix plānoja piesaistīt savu pētniecības un attīstības nodaļu, ieviešot atklātu Netflix konkursu, lai uzlabotu savu filmu ieteikumu sistēmu. “Tas, kurš uzlabo sadarbības filtrēšanas algoritmu, lai prognozētu lietotāju vērtējumus filmām, iegūst 1,000,000 XNUMX XNUMX ASV dolāru balvu”. Lai atbalstītu pūli, Netflix publicēja datu kopu, kurā bija tikai šādi pamata atribūti: userID, filma, pakāpes datums un pakāpe (tātad nav papildu informācijas par lietotāju vai pašu filmu).

5 ilustrācija

Datu kopas struktūra Netflix cena

Lietotāja ID Filma Novērtējuma datums Pakāpe
123456789 Neiespējamā misija 10-12-2008 4

Atsevišķi dati šķita veltīgi. Uzdodot jautājumu “Vai datu kopā ir kāda klienta informācija, kas būtu jātur privāta?”, Atbilde bija šāda:

 “Nē, visa klienta identifikācijas informācija ir noņemta; atliek tikai reitingi un datumi. Tas atbilst mūsu konfidencialitātes politikai… ”

Tomēr Narajanans (2008) no Teksasas universitātes Ostinā pierādīja pretējo. Novērtējumu, atzīmes datuma un filmas kombinācija veido unikālu filmas pirkstu nospiedumu. Padomājiet par savu Netflix uzvedību. Kā jūs domājat, cik cilvēku skatījās vienu un to pašu filmu komplektu? Cik skatījās vienu un to pašu filmu komplektu vienlaikus?

Galvenais jautājums, kā saskaņot šo pirkstu nospiedumu? Tas bija diezgan vienkārši. Pamatojoties uz informāciju no plaši pazīstamās filmu vērtēšanas vietnes IMDb (interneta filmu datu bāze), varētu izveidot līdzīgu pirkstu nospiedumu. Līdz ar to indivīdus varētu atkārtoti identificēt.

Lai gan filmu skatīšanās uzvedību nevar uzskatīt par sensitīvu informāciju, padomājiet par savu uzvedību-vai jūs neiebilstu, ja tā tiktu publiskota? Piemēri, ko Narajanans sniedza savā dokumentā, ir politiskās preferences (vērtējumi par “Jēzu no Nācaretes” un “Jāņa evaņģēlijs”) un seksuālās izvēles (vērtējumi “Bent” un “Queer as folk”), ko varētu viegli destilēt.

5) Vispārīgā datu aizsardzības regula (VDAR)

VDAR varētu nebūt īpaši aizraujoša, ne arī sudraba aizzīme starp emuāra tēmām. Tomēr, apstrādājot personas datus, ir lietderīgi iegūt precīzas definīcijas. Tā kā šajā emuārā ir izplatīts nepareizs priekšstats par sleju noņemšanu kā veidu, kā anonimizēt datus un izglītot jūs kā datu apstrādātāju, sāksim ar anonimizācijas definīcijas izpēti saskaņā ar VDAR. 

Saskaņā ar VDAR 26. apsvērumu anonimizēta informācija tiek definēta šādi:

“informācija, kas nav saistīta ar identificētu vai identificējamu fizisku personu, vai personas dati, kas padarīti anonīmi tādā veidā, ka datu subjekts nav vai vairs nav identificējams.”

Tā kā tiek apstrādāti personas dati, kas attiecas uz fizisku personu, ir svarīga tikai definīcijas 2. daļa. Lai atbilstu definīcijai, ir jānodrošina, ka datu subjekts (indivīds) nav vai vairs nav identificējams. Tomēr, kā norādīts šajā emuārā, ir ārkārtīgi vienkārši identificēt personas, pamatojoties uz dažiem atribūtiem. Tātad vārdu noņemšana no datu kopas neatbilst VDAR anonimizācijas definīcijai.

Noslēgumā

Mēs apstrīdējām vienu plaši izplatītu un diemžēl joprojām bieži lietotu pieeju datu anonimizēšanai: vārdu noņemšanu. Spēlē Guess Who un četros citos piemēros par:

  • Savienojumu uzbrukumi
  • Informētas personas
  • Dati kā pirkstu nospiedumi
  • Vispārējā datu aizsardzības regula (GDPR)

tika parādīts, ka vārdu noņemšana neizdodas kā anonimizācija. Lai gan piemēri ir pārsteidzoši gadījumi, katrs parāda atkārtotas identifikācijas vienkāršību un iespējamo negatīvo ietekmi uz personu privātumu.

Visbeidzot, vārdu noņemšana no jūsu datu kopas nerada anonīmus datus. Tāpēc labāk izvairīties no abu terminu aizstāšanas. Es patiesi ceru, ka jūs neizmantosit šo pieeju anonimizācijai. Un, ja jūs joprojām to darāt, pārliecinieties, ka jūs un jūsu komanda pilnībā saprotat privātuma riskus, un jums ir atļauts pieņemt šos riskus skarto personu vārdā.

smaidošu cilvēku grupa

Dati ir sintētiski, bet mūsu komanda ir reāla!

Sazinieties ar Syntho un kāds no mūsu ekspertiem sazināsies ar jums gaismas ātrumā, lai izpētītu sintētisko datu vērtību!

  • D. Reinsel, J. Gantz, John Rydning. Pasaules digitalizācija no malas līdz kodolam, datu laikmets 2025, 2018
  • L. Svīnijs. k-anonimitāte: privātuma aizsardzības modelis. Starptautiskais žurnāls par nenoteiktību, izplūšanu un uz zināšanām balstītām sistēmām, 10 (5), 2002: 557-570
  • L. Svīnijs. Vienkārša demogrāfija bieži vien identificē cilvēkus unikāli. Carnegie Mellon University, datu privātuma darba dokuments 3. Pitsburga 2000
  • P. Samarati. Respondentu identitātes aizsardzība mikrodatu atbrīvošanā. IEEE Transactions on Knowledge and Data Engineering, 13 (6), 2001: 1010-1027
  • Atokārs. Brauciens ar zvaigznēm: pasažieru privātums NYC Taxicab datu kopā, 2014
  • Narayanan, A., & Shmatikov, V. (2008). Spēcīga lielu retu datu kopu anonimizācija. In Proceedings-2008. gada IEEE simpozijs par drošību un privātumu, SP (111.-125. Lpp.)
  • Vispārīgās datu aizsardzības regulas (VDAR) 26. apsvērums, neattiecas uz anonīmiem datiem