Ugani kdo? 5 primerov, zakaj odstranjevanje imen ni možnost

igra ugani kdo

Uvod v Ugani kdo

Ugani kdo? Čeprav sem prepričan, da večina od vas to igro pozna že od nekdaj, tukaj je kratek povzetek. Cilj igre: odkrijte ime risanega junaka, ki ga je izbral vaš nasprotnik, tako da postavite vprašanja "da" in "ne", na primer "ali ima oseba klobuk?" ali "ali oseba nosi očala"? Igralci izločijo kandidate na podlagi nasprotnikovega odziva in se naučijo lastnosti, ki so povezane s skrivnostnim značajem nasprotnika. Prvi igralec, ki odkrije skrivnostni lik drugega igralca, zmaga v igri.

Razumeš. Posameznika je treba iz nabora podatkov identificirati tako, da ima le dostop do ustreznih atributov. Pravzaprav redno vidimo ta koncept Ugani, kdo se je uporabljal v praksi, nato pa se je uporabljal na naborih podatkov, oblikovanih z vrsticami in stolpci, ki vsebujejo atribute resničnih ljudi. Glavna razlika pri delu s podatki je, da ljudje ponavadi podcenjujejo enostavnost, s katero je resnične posameznike mogoče razkriti z dostopom le do nekaj atributov.

Kot ponazarja igra Ugani kdo, lahko nekdo identificira posameznike tako, da ima dostop le do nekaj atributov. Služi kot preprost primer, zakaj odstranitev samo 'imen' (ali drugih neposrednih identifikatorjev) iz nabora podatkov ne uspe kot tehnika anonimizacije. V tem spletnem dnevniku ponujamo štiri praktične primere, ki vas obveščajo o tveganjih glede zasebnosti, povezanih z odstranitvijo stolpcev kot načinom anonimizacije podatkov.

2) Napadi povezav: vaš nabor podatkov, povezan z drugimi (javnimi) viri podatkov

Nevarnost napadov povezave je najpomembnejši razlog, zakaj izključno odstranjevanje imen (več) ne deluje kot metoda za anonimizacijo. Z napadom povezovanja napadalec združi izvirne podatke z drugimi dostopnimi viri podatkov, da bi enolično identificiral posameznika in izvedel (pogosto občutljive) podatke o tej osebi.

Ključno pri tem je razpoložljivost drugih podatkovnih virov, ki so prisotni zdaj ali bi lahko bili prisotni v prihodnosti. Pomisli nase. Koliko vaših osebnih podatkov lahko najdete na Facebooku, Instagramu ali LinkedInu, ki bi jih lahko zlorabili za napad na povezavo?

V prejšnjih dneh je bila razpoložljivost podatkov veliko bolj omejena, kar deloma pojasnjuje, zakaj je odstranitev imen zadostovala za ohranitev zasebnosti posameznikov. Manj razpoložljivih podatkov pomeni manj priložnosti za povezovanje podatkov. Vendar smo zdaj (aktivni) udeleženci v gospodarstvu, ki temelji na podatkih, kjer količina podatkov raste eksponentno hitro. Več podatkov in izboljšanje tehnologije zbiranja podatkov bosta povečala možnost napadov povezav. Kaj bi v 10 letih napisali o nevarnosti napada povezave?

Ilustracija 1

Eksponentno naraščajoči podatki so dejstvo

Veliko podatkov

Študija primera

Sweeney (2002) je v akademskem prispevku pokazala, kako je lahko identificirala in pridobila občutljive medicinske podatke od posameznikov na podlagi povezovanja javno dostopnega nabora podatkov o "bolnišničnih obiskih" z javno dostopnim registrom za glasovanje v Združenih državah. Za oba nabora podatkov je bilo predvideno, da sta ustrezno izbrisana z izbrisom imen in drugih neposrednih identifikatorjev.

Ilustracija 2

Napad povezav v praksi

Napad povezav

Na podlagi samo treh parametrov (1) poštne številke, (2) spola in (3) datuma rojstva je pokazala, da je mogoče 87% celotnega prebivalstva ZDA ponovno identificirati z ujemanjem prej omenjenih atributov iz obeh naborov podatkov. Sweeney je nato ponovila svoje delo z "državo" kot alternativo "poštni številki". Poleg tega je pokazala, da je 18% celotnega prebivalstva ZDA mogoče identificirati le z dostopom do nabora podatkov, ki vsebuje podatke o (1) matični državi, (2) spolu in (3) datumu rojstva. Pomislite na zgoraj omenjene javne vire, kot so Facebook, LinkedIn ali Instagram. Ali so vidni vaša država, spol in datum rojstva ali pa jih lahko drugi uporabniki odštejejo?

Ilustracija 3

Sweeneyjevi rezultati

Navidezni identifikatorji

% edinstveno identificiranih prebivalcev ZDA (248 milijonov)

5-mestni ZIP, spol, datum rojstva

87%

mesto, spol, datum rojstva

53%

država, spol, datum rojstva

18%

Ta primer dokazuje, da je lahko izjemno enostavno odstraniti anonimizacijo posameznikov v navidezno anonimnih podatkih. Prvič, ta študija kaže na ogromno tveganje, kot je 87% prebivalstva ZDA je mogoče zlahka identificirati z uporabo nekaj značilnosti. Drugič, izpostavljeni medicinski podatki v tej študiji so bili zelo občutljivi. Primeri podatkov o izpostavljenih posameznikih iz nabora podatkov o obiskih bolnišnic vključujejo narodnost, diagnozo in zdravila. Lastnosti, ki jih lahko raje skrivate, na primer od zavarovalnic.

3) Obveščeni posamezniki

Drugo tveganje odstranjevanja le neposrednih identifikatorjev, na primer imen, nastane, ko imajo obveščeni posamezniki vrhunsko znanje ali informacije o lastnostih ali vedenju določenih posameznikov v naboru podatkov. Na podlagi njihovega znanja bo napadalcu morda uspelo povezati posebne zapise podatkov z dejanskimi ljudmi.

Študija primera

Primer napada na niz podatkov z uporabo vrhunskega znanja je primer taksija v New Yorku, kjer je Atockarju (2014) uspelo razkriti posebne posameznike. Zaposleni nabor podatkov je vseboval vsa taksi potovanja v New Yorku, obogatena z osnovnimi atributi, kot so začetne koordinate, končne koordinate, cena in nasvet vožnje.

Obveščen posameznik, ki ve, da je New York, je lahko izpeljal taksi v klub za odrasle 'Hustler'. S filtriranjem "končne lokacije" je izvedel natančne začetne naslove in s tem identificiral različne pogoste obiskovalce. Podobno bi lahko sklepali o vožnji s taksijem, ko bi bil znan domači naslov posameznika. Na spletnih mestih za trače so odkrili čas in lokacijo več zvezdnikov. Ko smo te podatke povezali s podatki o taksiju v New Yorku, je bilo enostavno ugotoviti njihove vožnje s taksijem, znesek, ki so ga plačali, in ali so dali napitnino.

Ilustracija 4

Obveščen posameznik

odhodne koordinate Hustler

Bradley Cooper

taksi in zemljevid

Jessica Alba

sledenje zemljevidom

4) Podatki kot prstni odtis

Skupna argumentacija je "ti podatki so ničvredni" ali "nihče ne more storiti ničesar s temi podatki". To je pogosto napačno prepričanje. Tudi najbolj nedolžni podatki lahko tvorijo edinstven "prstni odtis" in se uporabijo za ponovno identifikacijo posameznikov. To je tveganje, ki izhaja iz prepričanja, da so podatki sami ničvredni, medtem ko niso.

Tveganje identifikacije se bo povečalo s povečanjem podatkov, umetne inteligence in drugih orodij in algoritmov, ki omogočajo odkrivanje zapletenih razmerij v podatkih. Četudi vašega nabora podatkov zdaj ni mogoče odkriti in je danes za nepooblaščene osebe verjetno neuporaben, morda ne bo jutri.

Študija primera

Odličen primer je primer, ko je Netflix nameraval množično pridobiti svoj oddelek za raziskave in razvoj z uvedbo odprtega natečaja Netflix za izboljšanje sistema priporočil filmov. "Tisti, ki izboljša algoritem skupnega filtriranja za napoved ocen uporabnikov filmov, prejme nagrado v višini 1,000,000 USD". Da bi podprl množico, je Netflix objavil nabor podatkov, ki vsebuje le naslednje osnovne atribute: ID uporabnika, film, datum ocene in ocene (zato ni več informacij o uporabniku ali filmu samem).

Ilustracija 5

Struktura nabora podatkov Cena Netflixa

Uporabniški ID Film Datum ocene Razred
123456789 Misija nemogoče 10-12-2008 4

Posamično so se podatki zdeli jalovi. Na vprašanje "Ali so v naboru podatkov o strankah podatki, ki bi jih morali hraniti zasebno?", Je bil odgovor:

 „Ne, vsi podatki za identifikacijo stranke so bili odstranjeni; ostanejo le ocene in datumi. To sledi naši politiki zasebnosti… «

Narayanan (2008) z Univerze v Teksasu v Austinu pa je dokazal nasprotno. Kombinacija ocen, datuma ocene in filma posameznika tvori edinstven filmski prstni odtis. Pomislite na svoje vedenje na Netflixu. Kaj mislite, koliko ljudi je gledalo isti niz filmov? Koliko jih je gledalo isti niz filmov hkrati?

Glavno vprašanje, kako ujemati ta prstni odtis? Bilo je precej preprosto. Na podlagi informacij z znane spletne strani za ocenjevanje filmov IMDb (Internet Movie Database) bi lahko nastali podobni prstni odtis. Posledično bi lahko posameznike ponovno identificirali.

Čeprav obnašanje gledanja filmov morda ne velja za občutljivo informacijo, pomislite na svoje vedenje-bi vas motilo, če bi postalo javno? Primeri, ki jih je Narayanan navedel v svojem prispevku, so politične preference (ocene o »Jezusu iz Nazareta« in »Evangeliju po Janezu«) in spolne preference (ocene o »Bent« in »Queer as folk«), ki bi jih bilo mogoče zlahka destilirati.

5) Splošna uredba o varstvu podatkov (GDPR)

Splošna uredba o varstvu podatkov morda ni super vznemirljiva, niti srebrna točka med temami spletnega dnevnika. Kljub temu je pri obdelavi osebnih podatkov koristno natančno opredeliti definicije. Ker ta blog govori o pogosti napačni predstavi o odstranjevanju stolpcev kot o načinu anonimizacije podatkov in o izobraževanju za obdelovalca podatkov, začnimo z raziskovanjem definicije anonimizacije v skladu z GDPR. 

V skladu z uvodno izjavo 26 GDPR so anonimni podatki opredeljeni kot:

„podatki, ki se ne nanašajo na identificirano ali določljivo fizično osebo, ali osebni podatki, ki so anonimni na tak način, da posameznika, na katerega se nanašajo osebni podatki, ni ali ni več mogoče identificirati.“

Ker se obdelujejo osebni podatki, ki se nanašajo na fizično osebo, je pomemben le drugi del opredelitve. Za uskladitev z opredelitvijo je treba zagotoviti, da posameznika, na katerega se nanašajo osebni podatki (posameznika), ni ali ni več mogoče identificirati. Kot je navedeno v tem blogu, pa je izjemno preprosto prepoznati posameznike na podlagi nekaj lastnosti. Odstranjevanje imen iz nabora podatkov torej ni v skladu z definicijo anonimizacije GDPR.

V zaključku

Izpodbijali smo enega pogosto obravnavanega in na žalost še vedno pogosto uporabljenega pristopa anonimizacije podatkov: odstranitev imen. V igri Ugani kdo in še štirje primeri o:

  • Napadi povezav
  • Obveščeni posamezniki
  • Podatki kot prstni odtis
  • Splošna uredba o varstvu podatkov (GDPR)

pokazalo se je, da odstranitev imen ne uspe kot anonimizacija. Čeprav so primeri presenetljivi primeri, vsak prikazuje preprostost ponovne identifikacije in potencialnega negativnega vpliva na zasebnost posameznikov.

Skratka, odstranitev imen iz nabora podatkov ne povzroči anonimnih podatkov. Zato se raje izogibajmo uporabi obeh izrazov. Iskreno upam, da tega pristopa ne boste uporabili za anonimizacijo. In če to še vedno storite, se prepričajte, da vi in ​​vaša ekipa v celoti razumete tveganja za zasebnost in da lahko v imenu prizadetih posameznikov sprejmete ta tveganja.

skupina nasmejanih ljudi

Podatki so sintetični, naša ekipa pa je resnična!

Obrnite se na Syntho in eden od naših strokovnjakov bo stopil v stik z vami s svetlobno hitrostjo in raziskal vrednost sintetičnih podatkov!

  • D. Reinsel, J. Gantz, John Rydning. Digitalizacija sveta od roba do jedra, Data Age 2025, 2018
  • L. Sweeney. k-anonimnost: model za zaščito zasebnosti. Mednarodni časopis o negotovosti, nejasnosti in sistemih, ki temeljijo na znanju, 10 (5), 2002: 557-570
  • L. Sweeney. Enostavna demografija pogosto identificira ljudi edinstveno. Univerza Carnegie Mellon, Delovni dokument o zasebnosti podatkov 3. Pittsburgh 2000
  • P. Samarati. Zaščita identitete anketirancev pri objavi mikropodatkov. IEEE Transactions on Knowledge and Data Engineering, 13 (6), 2001: 1010-1027
  • Atockar. Jahanje z zvezdami: zasebnost potnikov v naboru podatkovnih taksistov v New Yorku, 2014
  • Narayanan, A., & Shmatikov, V. (2008). Robustna de-anonimizacija velikih redkih naborov podatkov. V zborniku-2008 IEEE simpozij o varnosti in zasebnosti, SP (str. 111-125)
  • Splošna uredba o varstvu podatkov (GDPR), uvodna izjava 26, se ne uporablja za anonimne podatke