Divenu kiu? 5 ekzemploj kial forigi nomojn ne estas eblo

divenu kiu ludas

Enkonduko al Guess Who

Divenu kiu? Kvankam mi certas, ke plej multaj el vi konas ĉi tiun ludon de tiam, jen mallonga resumigo. La celo de la ludo: malkovri la nomon de la karikatura rolulo elektita de via kontraŭulo per demandoj "jes" kaj "ne", kiel "ĉu la persono portas ĉapelon?" aŭ 'ĉu la persono portas okulvitrojn'? Ludantoj eliminas kandidatojn laŭ la respondo de la kontraŭulo kaj lernas atributojn rilatantajn al la mistera karaktero de sia kontraŭulo. La unua ludanto, kiu eltrovas la misteran rolulon de la alia ludanto, gajnas la ludon.

Vi akiris ĝin. Oni devas identigi la individuon el datumbazo havante nur aliron al la respondaj atributoj. Fakte, ni regule vidas ĉi tiun koncepton de Diveno Kiu aplikita praktike, sed poste uzata en datumaroj formatitaj per vicoj kaj kolumnoj enhavantaj atributojn de veraj homoj. La ĉefa diferenco, kiam oni laboras kun datumoj, estas, ke homoj emas subtaksi la facilecon, per kiu realaj individuoj povas esti senmaskigitaj, havante aliron al nur kelkaj atributoj.

Kiel la ludo Divenu Kiu ilustras, iu povas identigi individuojn havante aliron al nur kelkaj atributoj. Ĝi funkcias kiel simpla ekzemplo, kial forigi nur 'nomojn' (aŭ aliajn rektajn identigilojn) de via datumaro malsukcesas kiel anonimiga tekniko. En ĉi tiu blogo, ni provizas kvar praktikajn kazojn por informi vin pri la privatecaj riskoj asociitaj kun la forigo de kolumnoj kiel rimedo por anonimigi datumojn.

2) Ligaj atakoj: via datumaro ligita al aliaj (publikaj) datumfontoj

La risko de ligaj atakoj estas la plej grava kialo, ke nur forigi nomojn ne funkcias (plu) kiel metodo por anonimigo. Kun liga atako, la atakanto kombinas la originalajn datumojn kun aliaj alireblaj datumfontoj por unike identigi individuon kaj lerni (ofte sentemajn) informojn pri ĉi tiu persono.

Ŝlosilo ĉi tie estas la havebleco de aliaj datumaj rimedoj, kiuj ĉeestas nun aŭ eble estonte. Pensu pri vi mem. Kiom da viaj propraj personaj datumoj troveblas ĉe Facebook, Instagram aŭ LinkedIn, kiuj eble povus esti misuzataj pro liga atako?

En pli fruaj tagoj, la havebleco de datumoj estis multe pli limigita, kio parte klarigas kial la forigo de nomoj sufiĉis por konservi la privatecon de individuoj. Malpli haveblaj datumoj signifas malpli da ŝancoj por ligi datumojn. Tamen ni nun estas (aktivaj) partoprenantoj en datuma ekonomio, kie la kvanto de datumoj kreskas kun eksponenta rapideco. Pli da datumoj kaj pliboniga teknologio por kolekti datumojn kondukos al pliigita potencialo por ligaj atakoj. Kion oni skribus post 10 jaroj pri la risko de liga atako?

Ilustraĵo 1

Eksponente kreskantaj datumoj estas fakto

Kvanto da datumoj

Kaza studo

Sweeney (2002) montris en akademia artikolo, kiel ŝi povis identigi kaj retrovi sentemajn medicinajn datumojn de individuoj bazitaj sur ligado de publika havebla datumaro de "hospitalaj vizitoj" al la publike disponebla voĉdonanta registristo en Usono. Ambaŭ datumaroj estis supozataj taŭge anonimigitaj per forigo de nomoj kaj aliaj rektaj identigiloj.

Ilustraĵo 2

Liga atako praktike

Ligo-Atako

Surbaze de nur la tri parametroj (1) Poŝtkodo, (2) Sekso kaj (3) Naskiĝdato, ŝi montris, ke 87% de la tuta usona loĝantaro povus esti reidentigita per kongruado de menciitaj atributoj de ambaŭ datenserioj. Sweeney tiam ripetis sian laboron kun "lando" kiel alternativo al "Poŝtkodo". Aldone, ŝi pruvis, ke 18% de la tuta usona loĝantaro povus esti identigita nur havante aliron al datumbazo enhavanta informojn pri la (1) hejmlando, (2) sekso kaj (3) naskiĝdato. Pensu pri la menciitaj publikaj fontoj, kiel Facebook, LinkedIn aŭ Instagram. Ĉu via lando, sekso kaj naskiĝdato estas videblaj, aŭ ĉu aliaj uzantoj povas subtrahi ĝin?

Ilustraĵo 3

La rezultoj de Sweeney

Kvazaŭidentigiloj

% unike identigita de usona loĝantaro (248 milionoj)

5-cifera poŝtkodo, sekso, naskiĝdato

87%

loko, sekso, naskiĝdato

53%

lando, sekso, naskiĝdato

18%

Ĉi tiu ekzemplo montras, ke povas esti rimarkinde facile senanonimigi individuojn en ŝajne anonimaj datumoj. Unue, ĉi tiu studo indikas grandegan riskon, kiel 87% de la usona loĝantaro facile identigeblas malmultaj karakterizaĵoj. Due, la elmontritaj medicinaj datumoj en ĉi tiu studo estis tre sentemaj. Ekzemploj de la datumoj de elmontritaj individuoj de la datumaro pri hospitalaj vizitoj inkluzivas etnecon, diagnozon kaj medikamenton. Atributoj, kiujn oni prefere povas konservi sekretaj, ekzemple, de asekuraj kompanioj.

3) Informitaj individuoj

Alia risko forigi nur rektajn identigilojn, kiel nomojn, ekestas kiam informitaj individuoj havas superajn sciojn aŭ informojn pri trajtoj aŭ konduto de specifaj individuoj en la datumbazo.. Surbaze de ilia scio, la atakanto eble povos ligi specifajn datumajn registrojn al realaj homoj.

Kaza studo

Ekzemplo de atako kontraŭ datumbazo uzanta superajn sciojn estas la novjorka taksio, kie Atockar (2014) povis riveli specifajn individuojn. La dungita datumaro enhavis ĉiujn taksiajn vojaĝojn en Novjorko, riĉigitaj per bazaj atributoj kiel komencaj koordinatoj, finaj koordinatoj, prezo kaj konsilo de la veturo.

Informita individuo, kiu scias, ke Novjorko, povis venigi taksiojn al plenkreska klubo 'Hustler'. Filtrante la "finan lokon", li deduktis la ĝustajn komencajn adresojn kaj per tio identigis diversajn oftajn vizitantojn. Simile, oni povus dedukti taksiajn veturojn kiam la hejma adreso de la individuo estis konata. La tempo kaj loko de pluraj famaj filmsteluloj estis malkovritaj sur klaĉejoj. Post ligi ĉi tiujn informojn al la taksiaj datumoj de Novjorko, estis facile akiri iliajn taksiajn veturojn, la sumon, kiun ili pagis, kaj ĉu ili donis trinkmonon.

Ilustraĵo 4

Informita individuo

faligaj koordinatoj Hustler

Bradley Cooper

taksio kaj mapo

Jessica Alba

spurado de mapoj

4) Datumoj kiel fingrospuro

Ofta argumentlinio estas 'ĉi tiuj datumoj estas senvaloraj' aŭ 'neniu povas fari ion ajn per ĉi tiuj datumoj'. Ĉi tio ofte estas miskompreno. Eĉ la plej senkulpaj datumoj povas formi unikan "fingrospuron" kaj esti uzataj por reidentigi individuojn. Ĝi estas la risko derivita de la kredo, ke la datumoj mem estas senvaloraj, dum ĝi ne estas.

La risko de identigo pliiĝos kun la pliiĝo de datumoj, AI, kaj aliaj iloj kaj algoritmoj, kiuj ebligas malkovri kompleksajn rilatojn en datumoj. Sekve, eĉ se via datumaro ne povas esti malkovrita nun, kaj supozeble estas senutila por neaŭtorizitaj homoj hodiaŭ, ĝi eble ne morgaŭ.

Kaza studo

Bonega ekzemplo estas la kazo, kiam Netflix intencis kunfluigi sian departementon pri R&D per enkonduko de malferma Netflix-konkurso por plibonigi sian filman rekomendan sistemon. "Tiu, kiu plibonigas la kunlaboran filtradan algoritmon por antaŭdiri uzantajn taksojn por filmoj, gajnas premion de US $ 1,000,000". Por subteni la homamason, Netflix publikigis datumaron enhavantan nur la jenajn bazajn atributojn: uzantoID, filmo, dato de grado kaj grado (do neniuj pliaj informoj pri la uzanto aŭ filmo mem).

Ilustraĵo 5

Datumbaza strukturo Netflix-prezo

Uzanta ID movie Dato de grado lernojaro
123456789 Misio neebla 10-12-2008 4

Izole, la datumoj aperis vanaj. Dum la demando 'Ĉu estas iuj klientaj informoj en la datumaro, kiuj devas esti privataj?', La respondo estis:

 'Ne, ĉiuj identigaj informoj de kliento estis forigitaj; restas nur taksoj kaj datoj. Ĉi tio sekvas nian privatecan politikon ... '

Tamen Narayanan (2008) de la Universitato de Teksaso en Aŭstino pruvis alie. La kombinaĵo de notoj, dato de grado kaj filmo de individuo formas unikan filmon-fingrospuron. Pensu pri via propra Netflix-konduto. Kiom da homoj laŭ vi rigardis la saman filmon? Kiom multaj spektis la saman filmon samtempe?

Ĉefa demando, kiel egali ĉi tiun fingrospuron? Ĝi estis sufiĉe simpla. Surbaze de informoj de la konata filmo-rangiga retejo IMDb (Interreta filma datumbazo), simila fingrospuro povus esti formita. Sekve, individuoj povus esti re-identigitaj.

Dum filma spektado-konduto eble ne estas supozata kiel sentema informo, pensu pri via propra konduto - ĉu vi ĝenus, se ĝi publikiĝus? Ekzemploj, kiujn Narayanan provizis en sia artikolo, estas politikaj preferoj (rangigoj pri 'Jesuo de Nazareto' kaj 'La Evangelio laŭ Johano') kaj seksaj preferoj (rangigoj pri 'Bent' kaj 'Queer as folk') facile distileblaj.

5) Ĝenerala Regularo pri Protektado de Datumoj (GDPR)

GDPR eble ne tre ekscitas, nek la arĝenta kuglo inter blogaj temoj. Tamen estas utile rektigi la difinojn dum prilaborado de personaj datumoj. Ĉar ĉi tiu blogo temas pri la ofta miskompreno forigi kolumnojn kiel maniero anonimigi datumojn kaj eduki vin kiel datumprilaborilon, ni komencu per esplorado de la difino de anonimigo laŭ GDPR. 

Laŭ la recitalo 26 de la GDPR, anonimigitaj informoj estas difinitaj kiel:

'informoj, kiuj ne rilatas al identigita aŭ identigebla natura persono aŭ personaj datumoj, anonimigitaj tiel, ke la datumato ne aŭ ne plu estas identigebla.'

Ĉar oni prilaboras personajn datumojn rilatajn al natura persono, nur parto 2 de la difino gravas. Por plenumi la difinon, oni devas certigi, ke la datumato (individuo) ne estas aŭ ne plu estas identigebla. Kiel indikite en ĉi tiu blogo, tamen estas rimarkinde simple identigi individuojn surbaze de kelkaj ecoj. Do, forigi nomojn de datumbazo ne konformas al la GDPR-difino de anonimigo.

Konklude

Ni defiis unu ofte pripensitan kaj, bedaŭrinde, ankoraŭ ofte aplikatan aliron de datumoj anonimigi: forigi nomojn. En la ludo Divenu Kiu kaj kvar aliaj ekzemploj pri:

  • Ligaj atakoj
  • Informitaj individuoj
  • Datumoj kiel fingrospuro
  • Regulara Protekto pri Ĝeneralaj Datumoj (GDPR)

montriĝis, ke forigo de nomoj malsukcesas kiel anonimigo. Kvankam la ekzemploj estas okulfrapaj kazoj, ĉiu montras la simplecon de reidentigo kaj la ebla negativa efiko al la privateco de individuoj.

Konklude, la forigo de nomoj de via datumaro ne rezultigas anonimajn datumojn. Tial ni pli bone evitas uzi ambaŭ esprimojn interŝanĝeblajn. Mi sincere esperas, ke vi ne aplikos ĉi tiun aliron al anonimigo. Kaj, se vi ankoraŭ faros tion, certigu, ke vi kaj via teamo plene komprenas la privatecajn riskojn, kaj rajtas akcepti tiujn riskojn nome de la tuŝitaj individuoj.

grupo da homoj ridetantaj

Datumoj estas sintezaj, sed nia teamo estas reala!

Kontaktu Syntho kaj unu el niaj spertuloj kontaktos vin kun la lumrapideco por esplori la valoron de sintezaj datumoj!

  • D. Reinsel, J. Gantz, John Rydning. La Ciferecigo de la Mondo De Rando ĝis Kerno, Datuma Epoko 2025, 2018
  • L. Sweeney. k-anonimeco: modelo por protekti privatecon. Internacia Revuo pri Necerteco, Malklarkontura kaj Scio-bazitaj Sistemoj, 10 (5), 2002: 557-570
  • L. Sweeney. Simpla Demografio Ofte Identigas Homojn Unike. Carnegie Mellon University, Datuma Privateca Laborpapero 3. Pittsburgh 2000
  • P. Samarati. Protektante la Identecojn de Respondantoj en Eldono de Mikrodatumoj. IEEE-Transakcioj pri Scio kaj Datuma Inĝenierado, 13 (6), 2001: 1010-1027
  • Atockar. Rajdante kun la Steloj: Pasaĝera Privateco en la Datumbazo de Taksio de Novjorko, 2014
  • Narayanan, A., kaj Shmatikov, V. (2008). Fortika senanonimigo de grandaj malabundaj datenserioj. In Proceedings - 2008 IEEE-Simpozio pri Sekureco kaj Privateco, SP (pp. 111-125)
  • Ĝenerala Regularo pri Protektado de Datumoj (GDPR), Recitalo 26, Ne aplikebla al Anonimaj Datumoj