Hádaj kto? Aj keď som si istý, že väčšina z vás pozná túto hru z minulosti, tu je stručná rekapitulácia. Cieľ hry: Odhaľte meno kreslenej postavičky, ktorú vám vybral súper, a položte otázky typu „áno“ a „nie“, napríklad „nosí človek klobúk?“ alebo „nosí osoba okuliare“? Hráči eliminujú kandidátov na základe reakcie súpera a učia sa atribúty, ktoré súvisia s tajomným charakterom ich protivníka. Víťazom hry je prvý hráč, ktorý zistil záhadnú postavu druhého hráča.
Máš to. Jednotlivca z množiny údajov je potrebné identifikovať tak, že bude mať prístup iba k zodpovedajúcim atribútom. V skutočnosti tento koncept Guess Who pravidelne používame v praxi, ale potom sme použili súbory údajov formátované pomocou riadkov a stĺpcov obsahujúcich atribúty skutočných ľudí. Hlavný rozdiel pri práci s údajmi je ten, že ľudia majú tendenciu podceňovať jednoduchosť, s akou môžu byť skutoční jednotlivci odhalení tým, že majú prístup iba k niektorým atribútom.
Ako ukazuje hra Hádaj, kto môže identifikovať jednotlivcov tým, že má prístup iba k niekoľkým atribútom. Slúži ako jednoduchý príklad toho, prečo odstránenie iba „mien“ (alebo iných priamych identifikátorov) z vášho súboru údajov zlyhá ako anonymizačná technika. V tomto blogu uvádzame štyri praktické prípady, ktoré vás majú informovať o rizikách ochrany osobných údajov spojených s odstraňovaním stĺpcov ako prostriedkom anonymizácie údajov.
Riziko väzbových útokov je najdôležitejším dôvodom, prečo iba odstraňovanie mien nefunguje (už) ako metóda anonymizácie. Pri prepojovacom útoku útočník skombinuje pôvodné údaje s inými prístupnými zdrojmi údajov, aby jedinečne identifikoval jednotlivca a dozvedel sa (často citlivé) informácie o tejto osobe.
Kľúčová je tu dostupnosť ďalších dátových zdrojov, ktoré sú v súčasnosti prítomné alebo môžu byť prítomné v budúcnosti. Mysli na seba. Koľko vašich osobných údajov je možné nájsť na Facebooku, Instagrame alebo na LinkedIn a ktoré by bolo potenciálne možné zneužiť na prepojovací útok?
V minulosti bola dostupnosť údajov oveľa obmedzenejšia, čo čiastočne vysvetľuje, prečo bolo odstránenie mien dostatočné na ochranu súkromia jednotlivcov. Menej dostupných údajov znamená menej príležitostí na prepojenie údajov. Teraz sme však (aktívni) účastníci ekonomiky založenej na dátach, kde množstvo dát exponenciálne rastie. Viac údajov a zlepšovanie technológie na zber údajov povedie k zvýšenému potenciálu prepojovacích útokov. Čo by človek napísal o 10 rokov o riziku spojovacieho útoku?
Ilustrácia 1
Sweeney (2002) v akademickej práci demonštrovala, ako bola schopná identifikovať a získať citlivé lekárske údaje od jednotlivcov na základe prepojenia verejne dostupného súboru údajov „návštev v nemocnici“ s verejne dostupným registrátorom hlasov v USA. Oba súbory údajov sa považovali za správne anonymizované odstránením mien a iných priamych identifikátorov.
Ilustrácia 2
Na základe iba troch parametrov (1) PSČ, (2) pohlavia a (3) dátumu narodenia ukázala, že 87% celej populácie v USA je možné znova identifikovať pomocou zhody vyššie uvedených atribútov z oboch súborov údajov. Sweeney potom zopakovala svoju prácu s alternatívou k „krajine“ ako „PSČ“. Okrem toho predviedla, že 18% celej populácie USA možno identifikovať iba prístupom k množine údajov obsahujúcej informácie o (1) domovskej krajine, (2) pohlaví a (3) dátume narodenia. Zamyslite sa nad vyššie uvedenými verejnými zdrojmi, ako sú Facebook, LinkedIn alebo Instagram. Je vaša krajina, pohlavie a dátum narodenia viditeľná, alebo si ju môžu ostatní užívatelia odpočítať?
Ilustrácia 3
Kvázi identifikátory | % jednoznačne identifikovaných z populácie USA (248 miliónov) |
5-miestne ZIP, pohlavie, dátum narodenia | 87% |
miesto, pohlavie, dátum narodenia | 53% |
krajiny, pohlavie, dátum narodenia | 18% |
Tento príklad ukazuje, že anonymizácia jednotlivcov v zdanlivo anonymných údajoch môže byť veľmi jednoduchá. Po prvé, táto štúdia naznačuje obrovský rozsah rizika, pretože 87% americkej populácie možno ľahko identifikovať pomocou málo charakteristík. Za druhé, exponované lekárske údaje v tejto štúdii boli vysoko citlivé. Medzi príklady údajov exponovaných osôb z množiny údajov o návštevách nemocníc patrí etnicita, diagnostika a lieky. Atribúty, ktoré možno človek skôr zatají, napríklad od poisťovacích spoločností.
Ďalšie riziko odstránenia iba priamych identifikátorov, ako sú mená, vzniká, ak informovaní jednotlivci majú v súbore údajov vynikajúce znalosti alebo informácie o vlastnostiach alebo správaní konkrétnych osôb.. Na základe ich znalostí môže byť potom útočník schopný prepojiť konkrétne dátové záznamy so skutočnými ľuďmi.
Príkladom útoku na množinu údajov s využitím vynikajúcich znalostí je prípad taxi v New Yorku, kde Atockar (2014) dokázal odhaliť konkrétnych jednotlivcov. Použitý súbor údajov obsahoval všetky cesty taxíkom v New Yorku, obohatený o základné atribúty, ako sú súradnice začiatku, súradnice konca, cena a tip jazdy.
Informovaný jedinec, ktorý vie, že New York bol schopný odvodiť výlety taxíkom do klubu dospelých 'Hustler'. Filtrovaním „konečného umiestnenia“ odvodil presné počiatočné adresy a identifikoval tak rôznych častých návštevníkov. Podobne by sa dalo odvodiť, že ide o jazdu taxíkom, keď bola známa domáca adresa jednotlivca. Na stránkach klebiet sa zistil čas a miesto niekoľkých hviezd filmových celebrít. Po prepojení týchto informácií s údajmi NYC o taxíku bolo ľahké odvodiť ich jazdy taxíkom, sumu, ktorú zaplatili, a či dali sprepitné.
Ilustrácia 4
drop-off súradnice Hustler
Bradley Cooper
Jessica Alba
Bežná argumentácia je „tieto údaje sú bezcenné“ alebo „nikto s týmito údajmi nemôže nič urobiť“. Toto je často mylná predstava. Aj tie najnevinnejšie údaje môžu vytvoriť jedinečný „odtlačok prsta“ a môžu byť použité na opätovnú identifikáciu jednotlivcov. Je to riziko vyplývajúce z presvedčenia, že samotné údaje sú bezcenné, aj keď nie sú.
Riziko identifikácie sa zvýši s nárastom údajov, AI a ďalších nástrojov a algoritmov, ktoré umožňujú odhaľovať zložité vzťahy v dátach. V dôsledku toho, aj keď váš súbor údajov nemožno teraz odhaliť a v dnešnej dobe je pre neoprávnené osoby pravdepodobne nepoužiteľný, nemusí byť zajtra.
Skvelým príkladom je prípad, keď spoločnosť Netflix zamýšľala zhromaždiť zdroje pre svoje oddelenie výskumu a vývoja zavedením otvorenej súťaže Netflix s cieľom zlepšiť systém odporúčaní filmov. „Ten, ktorý zdokonalí algoritmus kolaboratívneho filtrovania na predpovedanie hodnotení používateľov filmov, získava cenu 1,000,000 XNUMX XNUMX USD“. Aby podporil dav, Netflix zverejnil súbor údajov, ktorý obsahoval iba tieto základné atribúty: ID používateľa, film, dátum známky a známku (takže žiadne ďalšie informácie o používateľovi alebo samotnom filme).
Ilustrácia 5
userid | film | Dátum známky | Stupeň |
123456789 | Misia nemožná | 10-12-2008 | 4 |
Izolovane sa údaje zdali zbytočné. Na otázku „Sú v súbore údajov nejaké informácie o zákazníkoch, ktoré by mali byť uchovávané ako súkromné?“ Odpovedali:
„Nie, všetky informácie identifikujúce zákazníka boli odstránené; zostávajú len hodnotenia a dátumy. Toto sa riadi našimi zásadami ochrany osobných údajov ... “
Narayanan (2008) z Texaskej univerzity v Austine však dokázal opak. Kombinácia známok, dátumu známky a filmu jednotlivca tvorí jedinečný filmový odtlačok prsta. Zamyslite sa nad svojim vlastným správaním Netflixu. Čo myslíte, koľko ľudí pozeralo rovnakú sadu filmov? Koľkí sledovali rovnakú skupinu filmov súčasne?
Hlavná otázka, ako sa zhoduje s týmto odtlačkom prsta? Bolo to dosť jednoduché. Na základe informácií zo známeho webového servera s hodnotením filmov IMDb (Internet Movie Database) by mohol byť vytvorený podobný odtlačok prsta. V dôsledku toho bolo možné opätovne identifikovať jednotlivcov.
Aj keď správanie pri sledovaní filmov nemožno považovať za citlivé informácie, zamyslite sa nad svojim vlastným správaním-vadilo by vám, keby sa dostalo na verejnosť? Príklady, ktoré Narayanan vo svojom dokumente uviedol, sú politické preferencie (hodnotenia „Ježiša z Nazareta“ a „Evanjelia podľa Jána“) a sexuálne preferencie (hodnotenia pre „ohnuté“ a „čudnejšie ako ľudové“), ktoré je možné ľahko destilovať.
GDPR nemusí byť super vzrušujúce ani strieborná guľka medzi blogovými témami. Pri spracovaní osobných údajov je však užitočné získať definície. Pretože tento blog je o bežnom mylnom názore odstraňovania stĺpcov ako spôsobu anonymizácie údajov a výchovy vás ako spracovateľa údajov, začnime s skúmaním definície anonymizácie podľa GDPR.
Podľa odôvodnenia 26 GDPR sú anonymizované informácie definované ako:
„informácie, ktoré sa netýkajú identifikovanej alebo identifikovateľnej fyzickej osoby alebo osobných údajov anonymizovaných takým spôsobom, že dotknutá osoba nie je alebo už nie je identifikovateľná.“
Pretože niekto spracúva osobné údaje, ktoré sa týkajú fyzickej osoby, je relevantná iba časť 2 definície. Aby bola definícia v súlade, je potrebné zabezpečiť, aby dotknutá osoba (fyzická osoba) nebola alebo už nebola identifikovateľná. Ako je uvedené v tomto blogu, je však pozoruhodne jednoduché identifikovať jednotlivcov na základe niekoľkých atribútov. Odstránenie mien z množiny údajov teda nie je v súlade s definíciou anonymizácie GDPR.
Spochybnili sme jeden bežne zvažovaný a bohužiaľ stále často používaný prístup k anonymizácii údajov: odstraňovanie mien. V hre Hádaj kto a v ďalších štyroch príkladoch o:
ukázalo sa, že odstraňovanie mien zlyhá ako anonymizácia. Aj keď sú príklady nápadnými prípadmi, každý ukazuje jednoduchosť opätovnej identifikácie a potenciálny negatívny vplyv na súkromie jednotlivcov.
Na záver, odstránenie mien z vášho súboru údajov nemá za následok anonymné údaje. Preto sa radšej vyhýbajme používaniu oboch výrazov zameniteľne. Dúfam, že tento prístup nepoužijete na anonymizáciu. A ak to aj napriek tomu urobíte, uistite sa, že vy a váš tím úplne porozumiete rizikám ochrany osobných údajov a že tieto riziká môžete prijať v mene dotknutých osôb.
Kontaktujte Syntho a jeden z našich odborníkov sa s vami spojí rýchlosťou svetla, aby preskúmal hodnotu syntetických údajov!