Arva, kes? 5 näidet, miks nimede eemaldamine pole valik

arvake ära, kes mäng

Sissejuhatus Guess Who

Arva, kes? Kuigi olen kindel, et enamik teist teab seda mängu juba aegadest, on siin lühike kokkuvõte. Mängu eesmärk: avastage vastase valitud koomiksitegelase nimi, esitades jah ja ei küsimusi, näiteks „kas inimene kannab mütsi?” või "kas inimene kannab prille"? Mängijad kõrvaldavad kandidaadid vastase vastuse põhjal ja õpivad atribuute, mis on seotud vastase salapärase iseloomuga. Mängu võidab esimene mängija, kes selgitab välja teise mängija salapärase tegelase.

Said pihta. Üksikisik tuleb andmestikust tuvastada, omades juurdepääsu ainult vastavatele atribuutidele. Tegelikult näeme seda Guess Who kontseptsiooni regulaarselt praktikas, kuid seejärel kasutati andmekogumites, mis olid vormistatud rea- ja atribuute sisaldavate ridade ja veergudega. Peamine erinevus andmetega töötamisel on see, et inimesed alahindavad seda, kui lihtne on tõelisi üksikisikuid paljastada, omades juurdepääsu vaid mõnele atribuudile.

Nagu illustreerib mäng Guess Who, võib keegi tuvastada üksikisikuid, omades juurdepääsu vaid mõnele atribuudile. See on lihtne näide sellest, miks ainult nimede (või muude otseste identifikaatorite) eemaldamine andmestikust ebaõnnestub anonüümseks muutmise meetodina. Selles ajaveebis pakume nelja praktilist juhtumit, et teavitada teid privaatsusriskidest, mis on seotud veergude eemaldamisega andmete anonüümseks muutmise vahendina.

2) Seoste rünnakud: teie andmekogum on lingitud teiste (avalike) andmeallikatega

Sidurünnakute oht on kõige olulisem põhjus, miks ainuüksi nimede eemaldamine ei toimi (enam) anonüümseks muutmise meetodina. Lingirünnakuga ühendab ründaja algandmed teiste juurdepääsetavate andmeallikatega, et üksikisik unikaalselt tuvastada ja selle isiku kohta (sageli tundlikku) teavet teada saada.

Siin on võtmetähtsusega muude praegu või tulevikus saadaolevate andmete kättesaadavus. Mõtle enda peale. Kui palju teie isiklikke andmeid võib leida Facebookist, Instagramist või LinkedInist, mida võidakse sidurünnaku korral kuritarvitada?

Varasematel päevadel oli andmete kättesaadavus palju piiratum, mis osalt seletab, miks nimede eemaldamisest piisas üksikisikute privaatsuse säilitamiseks. Vähem kättesaadavad andmed tähendavad vähem võimalusi andmete linkimiseks. Nüüd oleme aga (aktiivsed) osalejad andmepõhises majanduses, kus andmete hulk kasvab hüppeliselt. Rohkem andmeid ja andmete kogumise tehnoloogia täiustamine suurendab seostamisrünnakute potentsiaali. Mida kirjutaks 10 aasta pärast sidurünnaku ohust?

Joonis 1

Eksponentsiaalselt kasvavad andmed on fakt

Andmete kogus

Juhtumiuuring

Sweeney (2002) demonstreeris akadeemilises dokumendis, kuidas ta suutis tuvastada ja hankida tundlikke meditsiinilisi andmeid üksikisikutelt, tuginedes avalikult kättesaadavate haiglakülastuste andmekogumite sidumisele Ameerika Ühendriikide avalikult kättesaadava hääletusregistripidajaga. Mõlemad andmekogumid eeldati, et need on nimede ja muude otseste identifikaatorite kustutamise abil nõuetekohaselt anonüümseks muudetud.

Joonis 2

Lülirünnak praktikas

Sideme rünnak

Tuginedes ainult kolmele parameetrile (1) Postiindeks, (2) Sugu ja (3) Sünnikuupäev, näitas ta, et 87% kogu USA elanikkonnast saab uuesti tuvastada, sobitades mõlemast andmekogumist eespool nimetatud atribuudid. Seejärel kordas Sweeney oma tööd, pakkudes sihtnumbrile alternatiivi „riik”. Lisaks näitas ta, et 18% kogu USA elanikkonnast on võimalik tuvastada ainult siis, kui neil on juurdepääs andmekogumile, mis sisaldab teavet (1) koduriigi, (2) soo ja (3) sünnikuupäeva kohta. Mõelge ülalnimetatud avalikele allikatele, nagu Facebook, LinkedIn või Instagram. Kas teie riik, sugu ja sünniaeg on nähtavad või on teistel kasutajatel võimalik see maha arvata?

Joonis 3

Sweeney tulemused

Kvaasi-identifikaatorid

% unikaalselt tuvastatud USA elanikkonnast (248 miljonit)

5-kohaline ZIP, sugu, sünniaeg

87%

koht, sugu, sünniaeg

53%

riik, sugu, sünniaeg

18%

See näide näitab, et üksikisikute anonüümseks muutmine näiliselt anonüümsetes andmetes võib olla märkimisväärselt lihtne. Esiteks näitab see uuring tohutut riski, nagu 87% USA elanikkonnast saab hõlpsasti tuvastada, kasutades vähe omadusi. Teiseks olid selles uuringus avaldatud meditsiinilised andmed väga tundlikud. Haiglakülastuste andmekogumis olevate isikute andmete hulka kuuluvad näiteks rahvus, diagnoos ja ravimid. Atribuudid, mida võib pigem saladuses hoida näiteks kindlustusseltside eest.

3) informeeritud isikud

Teine oht, et eemaldatakse ainult otsesed identifikaatorid, näiteks nimed, tekib siis, kui informeeritud isikutel on andmekogumis konkreetsete isikute omaduste või käitumise kohta paremad teadmised või teave.. Nende teadmiste põhjal võib ründaja seejärel siduda konkreetsed andmekirjed tegelike inimestega.

Juhtumiuuring

Näide rünnakust andmekogumile, mis kasutab kõrgemaid teadmisi, on New Yorgi taksojuhtum, kus Atockar (2014) suutis paljastada konkreetseid isikuid. Kasutatud andmekogum sisaldas kõiki taksosõite New Yorgis, rikastatud selliste põhiatribuutidega nagu alguskoordinaadid, lõppkoordinaadid, hind ja sõiduots.

Teadlik inimene, kes teab New Yorki, suutis taksoreise tuletada täiskasvanute klubisse "Hustler". Filtreerides „lõpp -asukohta”, järeldas ta täpsed algusaadressid ja tuvastas seeläbi mitmesugused sagedased külastajad. Samamoodi võiks tuletada taksosõite, kui oli teada isiku kodune aadress. Kuulujuttude saitidelt avastati mitme kuulsuse filmitähe aeg ja asukoht. Pärast selle teabe linkimist NYC taksoandmetega oli lihtne tuletada nende taksosõite, makstud summat ja kas nad olid jootraha andnud.

Joonis 4

Teadlik inimene

väljalangemise koordinaadid Hustler

Bradley Cooper

takso ja kaart

Jessica Alba

kaartide jälgimine

4) Andmed sõrmejäljena

Tavaline argumentatsioon on „need andmed on väärtusetud” või „keegi ei saa nende andmetega midagi teha”. See on sageli eksiarvamus. Isegi kõige süütumad andmed võivad moodustada ainulaadse sõrmejälje ja neid saab kasutada üksikisikute uuesti tuvastamiseks. See on risk, mis tuleneb arvamusest, et andmed ise on väärtusetud, kuigi see pole nii.

Identifitseerimise oht suureneb andmete, tehisintellekti ning muude tööriistade ja algoritmide suurenemisega, mis võimaldavad andmetes keerukaid seoseid avastada. Järelikult, isegi kui teie andmekogumit ei saa praegu avastada ja see on volitamata isikute jaoks täna arvatavasti kasutu, ei pruugi see olla homme.

Juhtumiuuring

Suurepärane näide on juhtum, kus Netflix kavatses oma teadus- ja arendusosakonda koondada, käivitades avatud Netflixi konkursi oma filmide soovitussüsteemi täiustamiseks. "See, mis parandab koostööfiltreerimisalgoritmi filmide kasutajate hinnangute ennustamiseks, võidab 1,000,000 XNUMX XNUMX USA dollari suuruse auhinna." Rahvahulga toetamiseks avaldas Netflix andmekogumi, mis sisaldas ainult järgmisi põhiatribuute: kasutaja ID, film, hinde kuupäev ja hinne (seega ei lisateavet kasutaja ega filmi enda kohta).

Joonis 5

Andmekogumi struktuur Netflixi hind

Kasutaja ID film Hinne Klass
123456789 võimatu missioon 10-12-2008 4

Eraldi tundusid andmed asjata. Küsimusele „Kas andmekogus on mõni klienditeave, mida tuleks privaatsena hoida?”, Vastati:

 „Ei, kogu kliendi identifitseerimisteave on eemaldatud; alles on ainult reitingud ja kuupäevad. See järgib meie privaatsuspoliitikat… ”

Narayanan (2008) Austini Texase ülikoolist tõestas aga vastupidist. Hinnete, hinde kuupäeva ja filmi kombinatsioon koostab ainulaadse filmi sõrmejälje. Mõelge oma Netflixi käitumisele. Mis te arvate, kui palju inimesi vaatas sama filmi? Kui paljud vaatasid sama filmi korraga?

Põhiküsimus, kuidas seda sõrmejälge sobitada? See oli pigem lihtne. Tuntud filmide reitinguveebisaidi IMDb (Internet Movie Database) teabe põhjal võiks moodustada sarnase sõrmejälje. Järelikult võis üksikisikud uuesti tuvastada.

Kuigi filmide vaatamise käitumist ei pruugi eeldada tundliku teabena, mõelge oma käitumisele-kas te ei pahanda, kui see avalikuks tuleks? Näited, mida Narayanan oma töös esitas, on poliitilised eelistused (hinnangud „Jeesus Naatsaretist” ja „Johannese evangeelium”) ja seksuaalsed eelistused (hinnangud „Bent” ja „Queer as folk”), mida saab kergesti destilleerida.

5) Üldine andmekaitse määrus (GDPR)

GDPR ei pruugi olla ülipõnev ega ka hõbedane kuul blogiteemade hulgas. Siiski on kasulik isikuandmete töötlemisel mõisted selgeks saada. Kuna see ajaveeb räägib levinud väärarusaamast veergude eemaldamisest andmete anonüümseks muutmise ja teie andmetöötleja harimise viisina, alustame GDPR -i kohase anonüümsuse määratluse uurimisega. 

GDPR -i põhjenduse 26 kohaselt määratletakse anonüümseks muudetud teave järgmiselt:

„teave, mis ei ole seotud tuvastatud või tuvastatava füüsilise isikuga, või isikuandmed, mis on muudetud anonüümseks nii, et andmesubjekti ei ole enam võimalik tuvastada.”

Kuna töödeldakse isikuandmeid, mis on seotud füüsilise isikuga, on asjakohane ainult määratluse 2. osa. Määratlusele vastamiseks tuleb tagada, et andmesubjekt (üksikisik) ei ole või ei ole enam tuvastatav. Kuid nagu selles ajaveebis märgitud, on üksikute isikute tuvastamine mõne atribuudi põhjal märkimisväärselt lihtne. Seega ei vasta nimede eemaldamine andmestikust GDPR -i anonüümseks muutmise definitsioonile.

Kokkuvõttes

Me vaidlustasime ühe üldtuntud ja kahjuks endiselt sageli kasutatava lähenemisviisi andmete anonüümseks muutmiseks: nimede eemaldamise. Mängus Guess Who ja veel neljas näites:

  • Sidemete rünnakud
  • Teadlikud isikud
  • Andmed sõrmejäljena
  • Andmekaitse üldmäärus (GDPR)

näidati, et nimede eemaldamine ebaõnnestub anonüümseks muutmisena. Kuigi näited on silmatorkavad juhtumid, näitab igaüks uuesti tuvastamise lihtsust ja võimalikku negatiivset mõju üksikisikute privaatsusele.

Kokkuvõtteks võib öelda, et nimede eemaldamisel teie andmestikust ei tule anonüümseid andmeid. Seetõttu hoidume parem mõlema termini vaheldumisi kasutamisest. Loodan siiralt, et te ei kasuta seda lähenemisviisi anonüümseks muutmiseks. Ja kui te seda siiski teete, veenduge, et teie ja teie meeskond mõistate täielikult privaatsusriske ning teil on lubatud neid riske mõjutatud isikute nimel aktsepteerida.

naeratavate inimeste rühm

Andmed on sünteetilised, kuid meie meeskond on tõeline!

Võtke ühendust Synthoga ja üks meie ekspertidest võtab teiega valguse kiirusel ühendust, et uurida sünteetiliste andmete väärtust!

  • D. Reinsel, J. Gantz, John Rydning. Maailma digitaliseerimine servast tuumani, andmete ajastu 2025, 2018
  • L. Sweeney. k-anonüümsus: privaatsuse kaitsmise mudel. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 10 (5), 2002: 557-570
  • L. Sweeney. Lihtne demograafia tuvastab inimesed sageli unikaalselt. Carnegie Melloni ülikool, andmete privaatsuse töödokument 3. Pittsburgh 2000
  • P. Samarati. Vastajate identiteedi kaitsmine mikroandmete avaldamisel. IEEE Transactions on Knowledge and Data Engineering, 13 (6), 2001: 1010-1027
  • Atockar. Tähtedega sõitmine: reisijate privaatsus NYC Taxicabi andmekogumis, 2014
  • Narayanan, A., & Shmatikov, V. (2008). Suurte hõredate andmekogumite tugev anonüümseks muutmine. In Proceedings-2008 IEEE Symposium on Security and Privacy, SP (lk 111-125)
  • Üldine andmekaitsemäärus (GDPR), põhjendus 26, ei kehti anonüümsete andmete kohta