Hádaj kto? 5 príkladov, prečo nie je možné odstrániť mená

hádaj koho hra

Úvod do hry Hádaj kto

Hádaj kto? Aj keď som si istý, že väčšina z vás pozná túto hru z minulosti, tu je stručná rekapitulácia. Cieľ hry: Odhaľte meno kreslenej postavičky, ktorú vám vybral súper, a položte otázky typu „áno“ a „nie“, napríklad „nosí človek klobúk?“ alebo „nosí osoba okuliare“? Hráči eliminujú kandidátov na základe reakcie súpera a učia sa atribúty, ktoré súvisia s tajomným charakterom ich protivníka. Víťazom hry je prvý hráč, ktorý zistil záhadnú postavu druhého hráča.

Máš to. Jednotlivca z množiny údajov je potrebné identifikovať tak, že bude mať prístup iba k zodpovedajúcim atribútom. V skutočnosti tento koncept Guess Who pravidelne používame v praxi, ale potom sme použili súbory údajov formátované pomocou riadkov a stĺpcov obsahujúcich atribúty skutočných ľudí. Hlavný rozdiel pri práci s údajmi je ten, že ľudia majú tendenciu podceňovať jednoduchosť, s akou môžu byť skutoční jednotlivci odhalení tým, že majú prístup iba k niektorým atribútom.

Ako ukazuje hra Hádaj, kto môže identifikovať jednotlivcov tým, že má prístup iba k niekoľkým atribútom. Slúži ako jednoduchý príklad toho, prečo odstránenie iba „mien“ (alebo iných priamych identifikátorov) z vášho súboru údajov zlyhá ako anonymizačná technika. V tomto blogu uvádzame štyri praktické prípady, ktoré vás majú informovať o rizikách ochrany osobných údajov spojených s odstraňovaním stĺpcov ako prostriedkom anonymizácie údajov.

2) Útoky na prepojenie: váš súbor údajov prepojený s inými (verejnými) zdrojmi údajov

Riziko väzbových útokov je najdôležitejším dôvodom, prečo iba odstraňovanie mien nefunguje (už) ako metóda anonymizácie. Pri prepojovacom útoku útočník skombinuje pôvodné údaje s inými prístupnými zdrojmi údajov, aby jedinečne identifikoval jednotlivca a dozvedel sa (často citlivé) informácie o tejto osobe.

Kľúčová je tu dostupnosť ďalších dátových zdrojov, ktoré sú v súčasnosti prítomné alebo môžu byť prítomné v budúcnosti. Mysli na seba. Koľko vašich osobných údajov je možné nájsť na Facebooku, Instagrame alebo na LinkedIn a ktoré by bolo potenciálne možné zneužiť na prepojovací útok?

V minulosti bola dostupnosť údajov oveľa obmedzenejšia, čo čiastočne vysvetľuje, prečo bolo odstránenie mien dostatočné na ochranu súkromia jednotlivcov. Menej dostupných údajov znamená menej príležitostí na prepojenie údajov. Teraz sme však (aktívni) účastníci ekonomiky založenej na dátach, kde množstvo dát exponenciálne rastie. Viac údajov a zlepšovanie technológie na zber údajov povedie k zvýšenému potenciálu prepojovacích útokov. Čo by človek napísal o 10 rokov o riziku spojovacieho útoku?

Ilustrácia 1

Exponenciálne rastúce údaje sú skutočnosťou

Množstvo údajov

Prípadová štúdia

Sweeney (2002) v akademickej práci demonštrovala, ako bola schopná identifikovať a získať citlivé lekárske údaje od jednotlivcov na základe prepojenia verejne dostupného súboru údajov „návštev v nemocnici“ s verejne dostupným registrátorom hlasov v USA. Oba súbory údajov sa považovali za správne anonymizované odstránením mien a iných priamych identifikátorov.

Ilustrácia 2

Prepojovací útok v praxi

Útok na prepojenie

Na základe iba troch parametrov (1) PSČ, (2) pohlavia a (3) dátumu narodenia ukázala, že 87% celej populácie v USA je možné znova identifikovať pomocou zhody vyššie uvedených atribútov z oboch súborov údajov. Sweeney potom zopakovala svoju prácu s alternatívou k „krajine“ ako „PSČ“. Okrem toho predviedla, že 18% celej populácie USA možno identifikovať iba prístupom k množine údajov obsahujúcej informácie o (1) domovskej krajine, (2) pohlaví a (3) dátume narodenia. Zamyslite sa nad vyššie uvedenými verejnými zdrojmi, ako sú Facebook, LinkedIn alebo Instagram. Je vaša krajina, pohlavie a dátum narodenia viditeľná, alebo si ju môžu ostatní užívatelia odpočítať?

Ilustrácia 3

Sweeneyho výsledky

Kvázi identifikátory

% jednoznačne identifikovaných z populácie USA (248 miliónov)

5-miestne ZIP, pohlavie, dátum narodenia

87%

miesto, pohlavie, dátum narodenia

53%

krajiny, pohlavie, dátum narodenia

18%

Tento príklad ukazuje, že anonymizácia jednotlivcov v zdanlivo anonymných údajoch môže byť veľmi jednoduchá. Po prvé, táto štúdia naznačuje obrovský rozsah rizika, pretože 87% americkej populácie možno ľahko identifikovať pomocou málo charakteristík. Za druhé, exponované lekárske údaje v tejto štúdii boli vysoko citlivé. Medzi príklady údajov exponovaných osôb z množiny údajov o návštevách nemocníc patrí etnicita, diagnostika a lieky. Atribúty, ktoré možno človek skôr zatají, napríklad od poisťovacích spoločností.

3) Informovaní jednotlivci

Ďalšie riziko odstránenia iba priamych identifikátorov, ako sú mená, vzniká, ak informovaní jednotlivci majú v súbore údajov vynikajúce znalosti alebo informácie o vlastnostiach alebo správaní konkrétnych osôb.. Na základe ich znalostí môže byť potom útočník schopný prepojiť konkrétne dátové záznamy so skutočnými ľuďmi.

Prípadová štúdia

Príkladom útoku na množinu údajov s využitím vynikajúcich znalostí je prípad taxi v New Yorku, kde Atockar (2014) dokázal odhaliť konkrétnych jednotlivcov. Použitý súbor údajov obsahoval všetky cesty taxíkom v New Yorku, obohatený o základné atribúty, ako sú súradnice začiatku, súradnice konca, cena a tip jazdy.

Informovaný jedinec, ktorý vie, že New York bol schopný odvodiť výlety taxíkom do klubu dospelých 'Hustler'. Filtrovaním „konečného umiestnenia“ odvodil presné počiatočné adresy a identifikoval tak rôznych častých návštevníkov. Podobne by sa dalo odvodiť, že ide o jazdu taxíkom, keď bola známa domáca adresa jednotlivca. Na stránkach klebiet sa zistil čas a miesto niekoľkých hviezd filmových celebrít. Po prepojení týchto informácií s údajmi NYC o taxíku bolo ľahké odvodiť ich jazdy taxíkom, sumu, ktorú zaplatili, a či dali sprepitné.

Ilustrácia 4

Informovaná osoba

drop-off súradnice Hustler

Bradley Cooper

taxi a mapa

Jessica Alba

sledovanie máp

4) Údaje ako odtlačok prsta

Bežná argumentácia je „tieto údaje sú bezcenné“ alebo „nikto s týmito údajmi nemôže nič urobiť“. Toto je často mylná predstava. Aj tie najnevinnejšie údaje môžu vytvoriť jedinečný „odtlačok prsta“ a môžu byť použité na opätovnú identifikáciu jednotlivcov. Je to riziko vyplývajúce z presvedčenia, že samotné údaje sú bezcenné, aj keď nie sú.

Riziko identifikácie sa zvýši s nárastom údajov, AI a ďalších nástrojov a algoritmov, ktoré umožňujú odhaľovať zložité vzťahy v dátach. V dôsledku toho, aj keď váš súbor údajov nemožno teraz odhaliť a v dnešnej dobe je pre neoprávnené osoby pravdepodobne nepoužiteľný, nemusí byť zajtra.

Prípadová štúdia

Skvelým príkladom je prípad, keď spoločnosť Netflix zamýšľala zhromaždiť zdroje pre svoje oddelenie výskumu a vývoja zavedením otvorenej súťaže Netflix s cieľom zlepšiť systém odporúčaní filmov. „Ten, ktorý zdokonalí algoritmus kolaboratívneho filtrovania na predpovedanie hodnotení používateľov filmov, získava cenu 1,000,000 XNUMX XNUMX USD“. Aby podporil dav, Netflix zverejnil súbor údajov, ktorý obsahoval iba tieto základné atribúty: ID používateľa, film, dátum známky a známku (takže žiadne ďalšie informácie o používateľovi alebo samotnom filme).

Ilustrácia 5

Štruktúra množiny údajov Cena Netflix

userid film Dátum známky Stupeň
123456789 Misia nemožná 10-12-2008 4

Izolovane sa údaje zdali zbytočné. Na otázku „Sú v súbore údajov nejaké informácie o zákazníkoch, ktoré by mali byť uchovávané ako súkromné?“ Odpovedali:

 „Nie, všetky informácie identifikujúce zákazníka boli odstránené; zostávajú len hodnotenia a dátumy. Toto sa riadi našimi zásadami ochrany osobných údajov ... “

Narayanan (2008) z Texaskej univerzity v Austine však dokázal opak. Kombinácia známok, dátumu známky a filmu jednotlivca tvorí jedinečný filmový odtlačok prsta. Zamyslite sa nad svojim vlastným správaním Netflixu. Čo myslíte, koľko ľudí pozeralo rovnakú sadu filmov? Koľkí sledovali rovnakú skupinu filmov súčasne?

Hlavná otázka, ako sa zhoduje s týmto odtlačkom prsta? Bolo to dosť jednoduché. Na základe informácií zo známeho webového servera s hodnotením filmov IMDb (Internet Movie Database) by mohol byť vytvorený podobný odtlačok prsta. V dôsledku toho bolo možné opätovne identifikovať jednotlivcov.

Aj keď správanie pri sledovaní filmov nemožno považovať za citlivé informácie, zamyslite sa nad svojim vlastným správaním-vadilo by vám, keby sa dostalo na verejnosť? Príklady, ktoré Narayanan vo svojom dokumente uviedol, sú politické preferencie (hodnotenia „Ježiša z Nazareta“ a „Evanjelia podľa Jána“) a sexuálne preferencie (hodnotenia pre „ohnuté“ a „čudnejšie ako ľudové“), ktoré je možné ľahko destilovať.

5) Všeobecné nariadenie o ochrane údajov (GDPR)

GDPR nemusí byť super vzrušujúce ani strieborná guľka medzi blogovými témami. Pri spracovaní osobných údajov je však užitočné získať definície. Pretože tento blog je o bežnom mylnom názore odstraňovania stĺpcov ako spôsobu anonymizácie údajov a výchovy vás ako spracovateľa údajov, začnime s skúmaním definície anonymizácie podľa GDPR. 

Podľa odôvodnenia 26 GDPR sú anonymizované informácie definované ako:

„informácie, ktoré sa netýkajú identifikovanej alebo identifikovateľnej fyzickej osoby alebo osobných údajov anonymizovaných takým spôsobom, že dotknutá osoba nie je alebo už nie je identifikovateľná.“

Pretože niekto spracúva osobné údaje, ktoré sa týkajú fyzickej osoby, je relevantná iba časť 2 definície. Aby bola definícia v súlade, je potrebné zabezpečiť, aby dotknutá osoba (fyzická osoba) nebola alebo už nebola identifikovateľná. Ako je uvedené v tomto blogu, je však pozoruhodne jednoduché identifikovať jednotlivcov na základe niekoľkých atribútov. Odstránenie mien z množiny údajov teda nie je v súlade s definíciou anonymizácie GDPR.

Na záver

Spochybnili sme jeden bežne zvažovaný a bohužiaľ stále často používaný prístup k anonymizácii údajov: odstraňovanie mien. V hre Hádaj kto a v ďalších štyroch príkladoch o:

  • Útočné väzby
  • Informovaní jednotlivci
  • Údaje ako odtlačok prsta
  • Všeobecné nariadenie o ochrane údajov (GDPR)

ukázalo sa, že odstraňovanie mien zlyhá ako anonymizácia. Aj keď sú príklady nápadnými prípadmi, každý ukazuje jednoduchosť opätovnej identifikácie a potenciálny negatívny vplyv na súkromie jednotlivcov.

Na záver, odstránenie mien z vášho súboru údajov nemá za následok anonymné údaje. Preto sa radšej vyhýbajme používaniu oboch výrazov zameniteľne. Dúfam, že tento prístup nepoužijete na anonymizáciu. A ak to aj napriek tomu urobíte, uistite sa, že vy a váš tím úplne porozumiete rizikám ochrany osobných údajov a že tieto riziká môžete prijať v mene dotknutých osôb.

skupina ľudí s úsmevom

Dáta sú syntetické, ale náš tím je skutočný!

Kontaktujte Syntho a jeden z našich odborníkov sa s vami spojí rýchlosťou svetla, aby preskúmal hodnotu syntetických údajov!

  • D. Reinsel, J. Gantz, John Rydning. Digitalizácia sveta od okraja po jadro, dátový vek 2025, 2018
  • L. Sweeney. k-anonymita: model na ochranu súkromia. Medzinárodný časopis o neistote, nejasnostiach a znalostných systémoch, 10 (5), 2002: 557-570
  • L. Sweeney. Jednoduchá demografia často identifikuje ľudí jedinečne. Univerzita Carnegie Mellon, pracovný dokument o ochrane osobných údajov 3. Pittsburgh 2000
  • P. Samarati. Ochrana identít respondentov pri vydávaní mikrodát. IEEE Transactions on Knowledge and Data Engineering, 13 (6), 2001: 1010-1027
  • Atockar. Riding with the Stars: Privacy Passenger Privacy in NYC Taxicab Dataset, 2014
  • Narayanan, A., & Shmatikov, V. (2008). Robustná de-anonymizácia veľkých riedkych súborov údajov. In Proceedings-2008 IEEE Symposium on Security and Privacy, SP (s. 111-125)
  • Všeobecné nariadenie o ochrane údajov (GDPR), odôvodnenie 26, nevzťahuje sa na anonymné údaje