Spėk kas? 5 pavyzdžiai, kodėl negalima pašalinti vardų

atspėk, kuris žaidimas

Įvadas į „Atspėk kas“

Spėk kas? Nors esu tikras, kad dauguma iš jūsų pažįsta šį žaidimą dar anais laikais, čia yra trumpa santrauka. Žaidimo tikslas: atraskite priešininko pasirinktą animacinio filmo veikėjo vardą, užduodami klausimus „taip“ ir „ne“, pvz., „Ar žmogus nešioja skrybėlę“? arba „ar žmogus nešioja akinius“? Žaidėjai pašalina kandidatus pagal oponento atsaką ir išmoksta atributų, susijusių su priešininko paslaptingu charakteriu. Pirmasis žaidėjas, išsiaiškinęs kito žaidėjo paslaptingą personažą, laimi žaidimą.

Supratai. Asmuo turi būti identifikuojamas iš duomenų rinkinio, turint tik prieigą prie atitinkamų atributų. Tiesą sakant, mes reguliariai matome šią „Guess Who“ koncepciją, kuri buvo taikoma praktikoje, bet vėliau panaudota duomenų rinkiniuose, suformatuotuose eilutėmis ir stulpeliais, kuriuose yra realių žmonių atributų. Pagrindinis skirtumas dirbant su duomenimis yra tas, kad žmonės linkę neįvertinti to, kaip lengvai galima demaskuoti tikrus asmenis, turint prieigą tik prie kelių atributų.

Kaip iliustruoja žaidimas „Atspėk kas“, kas nors gali atpažinti asmenis, turėdamas prieigą tik prie kelių atributų. Tai paprastas pavyzdys, kodėl iš duomenų rinkinio pašalinti tik „vardus“ (ar kitus tiesioginius identifikatorius) nepavyksta kaip anonimiškumo metodo. Šiame tinklaraštyje pateikiame keturis praktinius atvejus, kuriais norime jus informuoti apie privatumo riziką, susijusią su stulpelių pašalinimu kaip duomenų anonimizavimo priemone.

2) Susiejimo atakos: jūsų duomenų rinkinys susietas su kitais (viešais) duomenų šaltiniais

Ryšio atakų rizika yra svarbiausia priežastis, kodėl vien tik vardų pašalinimas neveikia (nebėra) kaip anonimiškumo metodas. Su užpuolimo ataka užpuolikas sujungia pradinius duomenis su kitais prieinamais duomenų šaltiniais, kad galėtų unikaliai identifikuoti asmenį ir sužinoti (dažnai jautrią) informaciją apie šį asmenį.

Svarbiausia čia yra kitų duomenų išteklių, kurie yra dabar arba gali atsirasti ateityje, prieinamumas. Pagalvokite apie save. Kiek jūsų asmeninių duomenų galima rasti „Facebook“, „Instagram“ ar „LinkedIn“, kurie gali būti piktnaudžiaujami ryšių ataka?

Ankstesnėmis dienomis duomenų prieinamumas buvo daug ribotas, o tai iš dalies paaiškina, kodėl pavardžių pašalinimo pakako, kad būtų išsaugotas asmenų privatumas. Mažiau turimų duomenų reiškia mažiau galimybių susieti duomenis. Tačiau dabar (aktyviai) dalyvaujame duomenimis pagrįstoje ekonomikoje, kur duomenų kiekis auga eksponentiniu greičiu. Daugiau duomenų ir patobulinta duomenų rinkimo technologija padidins ryšių atakų galimybes. Ką per 10 metų parašytumėte apie ryšių atakos riziką?

1 iliustracija

Eksponentiškai augantys duomenys yra faktas

Duomenų kiekis

Atvejo analizė

Sweeney (2002) akademiniame darbe pademonstravo, kaip ji sugebėjo atpažinti ir iš asmenų gauti slaptus medicininius duomenis, remdamasi viešai prieinamų „apsilankymų ligoninėje“ duomenų rinkinio susiejimu su viešai prieinamu balsavimo registruotoju JAV. Buvo manoma, kad abu duomenų rinkiniai tinkamai anonimizuojami ištrinant vardus ir kitus tiesioginius identifikatorius.

2 iliustracija

Sujungimo ataka praktikoje

Sujungimo ataka

Remdamasi tik trimis parametrais (1) Pašto kodas, (2) Lytis ir (3) Gimimo data, ji parodė, kad 87% visų JAV gyventojų galima iš naujo identifikuoti, suderinus pirmiau minėtus abiejų duomenų rinkinių atributus. Tuomet Sweeney pakartojo savo darbą, nurodydama „šalį“ kaip „pašto kodo“ alternatyvą. Be to, ji parodė, kad 18% visų JAV gyventojų buvo galima identifikuoti tik turint prieigą prie duomenų rinkinio, kuriame yra informacijos apie (1) gimtąją šalį, (2) lytį ir (3) gimimo datą. Pagalvokite apie minėtus viešus šaltinius, tokius kaip „Facebook“, „LinkedIn“ ar „Instagram“. Ar matoma jūsų šalis, lytis ir gimimo data, ar kiti vartotojai gali ją atskaityti?

3 iliustracija

Sweeney rezultatai

Kvazi identifikatoriai

% unikaliai identifikuotų JAV gyventojų (248 mln.)

5 skaitmenų ZIP, lytis, gimimo data

87%

vieta, lytis, gimimo data

53%

šalis, lytis, gimimo data

18%

Šis pavyzdys parodo, kad gali būti nepaprastai lengva panaikinti asmenų anonimiškumą, atrodant anoniminiais duomenimis. Pirma, šis tyrimas rodo didžiulę riziką, kaip 87% JAV gyventojų galima lengvai atpažinti naudojant mažai savybių. Antra, šiame tyrime atskleisti medicininiai duomenys buvo labai jautrūs. Ligoninių apsilankymų duomenų rinkinyje veikiančių asmenų duomenų pavyzdžiai yra etninė kilmė, diagnozė ir vaistai. Atributai, kuriuos verčiau galima laikyti paslaptyje, pavyzdžiui, nuo draudimo bendrovių.

3) Informuoti asmenys

Kita rizika pašalinti tik tiesioginius identifikatorius, pvz., Vardus, kyla tada, kai informuoti asmenys turi geresnių žinių arba informacijos apie konkrečių asmenų bruožus ar elgesį duomenų rinkinyje. Remdamasis savo žiniomis, užpuolikas gali susieti konkrečius duomenų įrašus su tikrais žmonėmis.

Atvejo analizė

Duomenų rinkinio atakos, naudojant aukščiausias žinias, pavyzdys yra Niujorko taksi atvejis, kai Atockar (2014) sugebėjo demaskuoti konkrečius asmenis. Į naudojamą duomenų rinkinį buvo įtrauktos visos taksi kelionės Niujorke, praturtintas pagrindiniais atributais, tokiais kaip pradžios koordinatės, pabaigos koordinatės, kaina ir kelionės patarimas.

Sąžiningas žmogus, pažįstantis Niujorką, galėjo išvykti taksi į suaugusiųjų klubą „Hustler“. Filtruodamas „galutinę vietą“, jis nustatė tikslius pradžios adresus ir taip nustatė įvairius dažnus lankytojus. Panašiai būtų galima daryti išvadas apie važiavimą taksi, kai buvo žinomas asmens namų adresas. Apkalbų svetainėse buvo aptiktas kelių garsenybių kino žvaigždžių laikas ir vieta. Susiejus šią informaciją su Niujorko taksi duomenimis, buvo lengva apskaičiuoti jų važiavimą taksi, sumą, kurią jie sumokėjo, ir ar jie davė arbatpinigių.

4 iliustracija

Informuotas asmuo

nusileidimo koordinatės Hustleris

Bradley Cooperis

taksi ir žemėlapis

Jessica Alba

žemėlapių sekimas

4) Duomenys kaip pirštų atspaudai

Įprasta argumentacija yra „šie duomenys yra beverčiai“ arba „niekas negali nieko padaryti su šiais duomenimis“. Dažnai tai yra klaidinga nuomonė. Net patys nekalčiausi duomenys gali sudaryti unikalų „pirštų atspaudą“ ir būti naudojami asmenims iš naujo nustatyti. Tai rizika, kylanti tikint, kad patys duomenys yra beverčiai, nors taip nėra.

Identifikavimo rizika padidės didėjant duomenų, AI ir kitų priemonių bei algoritmų, leidžiančių atskleisti sudėtingus duomenų ryšius. Taigi, net jei jūsų duomenų rinkinio nepavyks atskleisti dabar ir manoma, kad jis šiandien nenaudingas pašaliniams asmenims, rytoj to gali nebūti.

Atvejo analizė

Puikus pavyzdys yra atvejis, kai „Netflix“ ketino sutelkti savo mokslinių tyrimų ir plėtros skyrių, paskelbdama atvirą „Netflix“ konkursą, kad patobulintų savo filmų rekomendacijų sistemą. „Tas, kuris patobulina bendradarbiavimo filtravimo algoritmą, kad būtų galima numatyti filmų naudotojų įvertinimus, laimi 1,000,000 XNUMX XNUMX JAV dolerių prizą“. Siekdamas paremti minią, „Netflix“ paskelbė duomenų rinkinį, kuriame yra tik šie pagrindiniai atributai: vartotojo ID, filmas, pažymio data ir laipsnis (taigi jokios papildomos informacijos apie naudotoją ar patį filmą).

5 iliustracija

„Netflix“ duomenų rinkinio struktūra

Vartotojo ID Filmas Įvertinimo data Klasė
123456789 Misija neįmanoma 10-12-2008 4

Atskirai duomenys pasirodė beprasmiški. Užduodant klausimą „Ar duomenų rinkinyje yra kliento informacijos, kuri turėtų būti privati?“, Atsakymas buvo toks:

 „Ne, visa klientų identifikavimo informacija buvo pašalinta; lieka tik reitingai ir datos. Tai atitinka mūsų privatumo politiką… “

Tačiau Narayananas (2008) iš Teksaso universiteto Austine įrodė priešingai. Pažymių, pažymio datos ir filmo derinys sudaro unikalų filmo pirštų atspaudą. Pagalvokite apie savo „Netflix“ elgesį. Kaip manote, kiek žmonių žiūrėjo tą patį filmų rinkinį? Kiek žiūrėjo tą patį filmų rinkinį vienu metu?

Pagrindinis klausimas, kaip suderinti šį piršto atspaudą? Tai buvo gana paprasta. Remiantis informacija iš žinomos filmų reitingų svetainės IMDb (interneto filmų duomenų bazė), būtų galima sukurti panašų piršto atspaudą. Taigi asmenys gali būti iš naujo nustatyti.

Nors filmų žiūrėjimo elgesys negali būti laikomas slapta informacija, pagalvokite apie savo elgesį-ar neprieštarautumėte, jei jis būtų viešai paskelbtas? Pavyzdžiai, kuriuos Narayananas pateikė savo darbe, yra politinės nuostatos („Jėzaus Nazariečio“ ir „Jono Evangelijos“ įvertinimai) ir seksualinės nuostatos (įvertinimai „Išlenkta“ ir „Queer as folk“), kurias būtų galima lengvai distiliuoti.

5) Bendrasis duomenų apsaugos reglamentas (BDAR)

BDAR gali būti ne itin jaudinantis, nei sidabrinė kulka tarp tinklaraščio temų. Tačiau tvarkant asmens duomenis naudinga išsiaiškinti apibrėžtis. Kadangi šiame tinklaraštyje kalbama apie įprastą klaidingą nuomonę apie stulpelių pašalinimą kaip būdą anonimizuoti duomenis ir išmokyti jus kaip duomenų tvarkytoją, pradėkime nuo anonimiškumo apibrėžimo pagal BDAR tyrimo. 

Pagal BDAR 26 konstatuojamąją dalį anoniminė informacija apibrėžiama taip:

„informacija, nesusijusi su identifikuotu ar identifikuojamu fiziniu asmeniu, arba asmens duomenys, paversti anoniminiais taip, kad duomenų subjektas nebegali būti identifikuojamas.“

Kadangi tvarkomi asmens duomenys, susiję su fiziniu asmeniu, aktuali tik 2 apibrėžimo dalis. Norint atitikti apibrėžimą, reikia užtikrinti, kad duomenų subjektas (asmuo) nebūtų identifikuojamas arba nebebūtų identifikuojamas. Tačiau, kaip nurodyta šiame tinklaraštyje, nepaprastai paprasta atpažinti asmenis pagal kelis požymius. Taigi, vardų pašalinimas iš duomenų rinkinio neatitinka BDAR anonimiškumo apibrėžimo.

Užbaigiant

Mes užginčijome vieną dažniausiai pasitaikančią ir, deja, vis dar dažnai taikomą duomenų anonimizavimo metodą: vardų pašalinimą. Žaidime „Atspėk kas“ ir dar keturi pavyzdžiai apie:

  • Sujungimo atakos
  • Informuoti asmenys
  • Duomenys kaip pirštų atspaudai
  • Bendrasis duomenų apsaugos reglamentas (GDPR)

buvo įrodyta, kad pašalinti vardus nepavyksta kaip anonimiškumo. Nors pavyzdžiai yra ryškūs, kiekvienas iš jų rodo pakartotinio identifikavimo paprastumą ir galimą neigiamą poveikį asmenų privatumui.

Apibendrinant galima pasakyti, kad pašalinus vardus iš jūsų duomenų rinkinio, anoniminiai duomenys nėra gaunami. Todėl geriau vengti vartoti abu terminus pakaitomis. Nuoširdžiai tikiuosi, kad šio metodo netaikysite anonimizavimui. Ir jei vis tiek tai darote, įsitikinkite, kad jūs ir jūsų komanda visiškai suprantate privatumo riziką ir jums leidžiama priimti šią riziką paveiktų asmenų vardu.

besišypsančių žmonių grupė

Duomenys yra sintetiniai, bet mūsų komanda tikra!

Susisiekite su Syntho ir vienas iš mūsų ekspertų susisieks su jumis šviesos greičiu, kad ištirtų sintetinių duomenų vertę!

  • D. Reinsel, J. Gantz, John Rydning. Pasaulio skaitmeninimas nuo krašto iki pagrindo, duomenų amžius 2025 m., 2018 m
  • L. Svynis. k-anonimiškumas: privatumo apsaugos modelis. Tarptautinis žurnalas apie netikrumą, neryškumą ir žiniomis pagrįstas sistemas, 10 (5), 2002: 557-570
  • L. Svynis. Paprasti demografiniai rodikliai dažnai atpažįsta žmones unikaliai. Carnegie Mellon University, Duomenų privatumo darbo dokumentas 3. Pitsburgas, 2000 m
  • P. Samarati. Respondentų tapatybės apsauga naudojant išleidžiamus mikroduomenis. IEEE Transactions on Knowledge and Data Engineering, 13 (6), 2001: 1010-1027
  • Atockar. Važiavimas su žvaigždėmis: keleivių privatumas NYC „Taxicab“ duomenų rinkinyje, 2014 m
  • Narayanan, A., & Shmatikov, V. (2008). Tvirtas didelių retų duomenų rinkinių anonimizavimas. In Proceedings-2008 IEEE simpoziumas apie saugumą ir privatumą, SP (p. 111-125)
  • Bendrojo duomenų apsaugos reglamento (BDAR) 26 konstatuojamoji dalis, netaikoma anoniminiams duomenims