Ghici cine? 5 exemple de ce eliminarea numelor nu este o opțiune

ghici cine joc

O introducere la Ghici cine

Ghici cine? Deși sunt sigur că majoritatea dintre voi știți acest joc de pe vremuri, iată o scurtă recapitulare. Scopul jocului: descoperiți numele personajului de desene animate selectat de adversarul dvs. punând întrebări „da” și „nu”, precum „persoana poartă pălărie?” sau „persoana poartă ochelari”? Jucătorii elimină candidații pe baza răspunsului adversarului și învață atribute care țin de caracterul mister al adversarului. Primul jucător care își dă seama de caracterul mister al celuilalt jucător câștigă jocul.

Ai inteles. Trebuie identificat individul dintr-un set de date având acces doar la atributele corespunzătoare. De fapt, vedem în mod regulat acest concept de Ghici cine s-a aplicat în practică, dar apoi folosit pe seturi de date formatate cu rânduri și coloane care conțin atribute ale oamenilor reali. Principala diferență atunci când lucrează cu date este că oamenii tind să subestimeze ușurința prin care persoanele reale pot fi demascate, având acces la doar câteva atribute.

După cum ilustrează jocul Ghici cine, cineva poate identifica indivizii accesând doar câteva atribute. Acesta servește ca un exemplu simplu de ce eliminarea doar „nume” (sau alți identificatori direcți) din setul de date nu reușește ca tehnică de anonimizare. În acest blog, oferim patru cazuri practice pentru a vă informa despre riscurile de confidențialitate asociate cu eliminarea coloanelor ca mijloc de anonimizare a datelor.

2) Atacuri de legătură: setul de date conectat la alte surse de date (publice)

Riscul atacurilor de legătură este cel mai important motiv pentru care eliminarea exclusivă a numelor nu mai funcționează (mai mult) ca metodă de anonimizare. Cu un atac de legătură, atacatorul combină datele originale cu alte surse de date accesibile pentru a identifica în mod unic o persoană și a învăța informații (adesea sensibile) despre această persoană.

Cheia aici este disponibilitatea altor resurse de date care sunt prezente acum sau care pot deveni prezente în viitor. Gândește-te la tine. Cât de multe din datele dvs. personale pot fi găsite pe Facebook, Instagram sau LinkedIn care ar putea fi abuzate pentru un atac de legătură?

În zilele anterioare, disponibilitatea datelor era mult mai limitată, ceea ce explică parțial de ce eliminarea numelor era suficientă pentru a păstra confidențialitatea persoanelor. Mai puține date disponibile înseamnă mai puține oportunități pentru conectarea datelor. Cu toate acestea, suntem acum participanți (activi) la o economie bazată pe date, în care cantitatea de date crește cu o rată exponențială. Mai multe date și îmbunătățirea tehnologiei de colectare a datelor vor duce la un potențial crescut de atacuri de legătură. Ce s-ar scrie în 10 ani despre riscul unui atac de legătură?

Ilustrație 1

Creșterea exponențială a datelor este un fapt

Cantitatea de date

Studiu de caz

Sweeney (2002) a demonstrat într-o lucrare academică cum a reușit să identifice și să recupereze date medicale sensibile de la indivizi pe baza legării unui set de date disponibile publice de „vizite la spital” la registratorul de vot disponibil public din Statele Unite. Ambele seturi de date au fost presupuse a fi corect anonimizate prin ștergerea numelor și a altor identificatori direcți.

Ilustrație 2

Atac de legătură în practică

Atac de legătură

Bazându-se doar pe cei trei parametri (1) Cod poștal, (2) Sex și (3) Data nașterii, ea a arătat că 87% din întreaga populație din SUA ar putea fi re-identificată prin potrivirea atributelor menționate mai sus din ambele seturi de date. Sweeney și-a repetat apoi munca cu „țara” ca alternativă la „codul poștal”. În plus, ea a demonstrat că 18% din întreaga populație americană ar putea fi identificată doar prin acces la un set de date care conține informații despre (1) țara de origine, (2) sex și (3) data nașterii. Gândiți-vă la sursele publice menționate anterior, cum ar fi Facebook, LinkedIn sau Instagram. Este vizibilă țara, sexul și data nașterii dvs. sau alți utilizatori sunt capabili să o deducă?

Ilustrație 3

Rezultatele lui Sweeney

Cvasi-identificatori

% identificat în mod unic al populației SUA (248 milioane)

ZIP cu 5 cifre, sex, data nașterii

87%

loc, sex, data nașterii

53%

ţară, sex, data nașterii

18%

Acest exemplu demonstrează că poate fi extrem de ușor să dezanonimăm indivizii în date aparent anonime. În primul rând, acest studiu indică o magnitudine imensă a riscului, precum 87% din populația SUA poate fi ușor identificată folosind puține caracteristici. În al doilea rând, datele medicale expuse în acest studiu au fost extrem de sensibile. Exemple de date ale persoanelor expuse din setul de date despre vizitele la spital includ etnie, diagnostic și medicamente. Atribute pe care le puteți păstra mai degrabă secrete, de exemplu, de la companiile de asigurări.

3) Persoane informate

Un alt risc de eliminare a identificatorilor direcți, cum ar fi numele, apare atunci când indivizii informați au cunoștințe sau informații superioare despre trăsăturile sau comportamentul anumitor indivizi din setul de date. Pe baza cunoștințelor lor, atacatorul poate fi capabil să conecteze înregistrări de date specifice la persoane reale.

Studiu de caz

Un exemplu de atac asupra unui set de date folosind cunoștințe superioare este cazul taxiului din New York, în care Atockar (2014) a reușit să demasceze persoane specifice. Setul de date utilizat conținea toate călătoriile cu taxiul în New York, îmbogățite cu atribute de bază, cum ar fi coordonatele de început, coordonatele de sfârșit, prețul și vârful călătoriei.

O persoană informată care știe că New York a reușit să facă excursii cu taxiul la clubul pentru adulți „Hustler”. Prin filtrarea „locației finale”, el a dedus adresele de început exacte și astfel a identificat diferiți vizitatori frecvenți. În mod similar, s-ar putea deduce plimbări cu taxiul atunci când se știe adresa de domiciliu a persoanei. Ora și locația mai multor vedete de film celebre au fost descoperite pe site-urile de bârfe. După ce au legat aceste informații de datele taxiurilor din New York, a fost ușor să obțină plimbările cu taxiul, suma plătită și dacă au dat bacșiș.

Ilustrație 4

Un individ informat

drop-off coordonează Hustler

Bradley Cooper

taxi și hartă

Jessica Alba

urmărirea hărților

4) Date ca amprentă

O linie obișnuită de argumentare este „aceste date nu valorează nimic” sau „nimeni nu poate face nimic cu aceste date”. Aceasta este adesea o concepție greșită. Chiar și cele mai inocente date pot forma o „amprentă digitală” unică și pot fi utilizate pentru reidentificarea persoanelor. Este riscul derivat din credința că datele în sine nu sunt inutile, în timp ce nu.

Riscul de identificare va crește odată cu creșterea datelor, AI și a altor instrumente și algoritmi care permit descoperirea unor relații complexe în date. În consecință, chiar dacă setul dvs. de date nu poate fi descoperit acum și este probabil inutil pentru persoanele neautorizate astăzi, este posibil să nu fie mâine.

Studiu de caz

Un exemplu excelent este cazul în care Netflix intenționa să-și surseze departamentul de cercetare și dezvoltare prin introducerea unui concurs deschis Netflix pentru a-și îmbunătăți sistemul de recomandare a filmelor. „Cel care îmbunătățește algoritmul de filtrare colaborativă pentru a prezice evaluările utilizatorilor pentru filme câștigă un premiu de 1,000,000 USD”. Pentru a susține mulțimea, Netflix a publicat un set de date care conține doar următoarele atribute de bază: userID, film, data clasei și nota (deci nu există informații suplimentare despre utilizator sau film în sine).

Ilustrație 5

Structura setului de date Preț Netflix

Numele de utilizator Film Data notei Calitate
123456789 Misiune imposibilă 10-12-2008 4

În mod izolat, datele păreau inutile. Când ați pus întrebarea „Există informații despre clienți în setul de date care ar trebui păstrate private?”, Răspunsul a fost:

 „Nu, toate informațiile de identificare ale clienților au fost eliminate; rămân doar ratinguri și date. Aceasta urmează politica noastră de confidențialitate ... ”

Cu toate acestea, Narayanan (2008) de la Universitatea Texas din Austin a dovedit contrariul. Combinația de note, data clasei și filmul unei persoane formează o amprentă unică de film. Gândiți-vă la propriul comportament Netflix. Câți oameni credeți că au urmărit același set de filme? Câți au urmărit același set de filme în același timp?

Întrebare principală, cum să se potrivească această amprentă digitală? A fost destul de simplu. Pe baza informațiilor de pe binecunoscutul site de evaluare a filmelor IMDb (Internet Movie Database), s-ar putea forma o amprentă similară. În consecință, indivizii ar putea fi re-identificați.

În timp ce comportamentul de vizionare a filmelor s-ar putea să nu fie presupus ca o informație sensibilă, gândiți-vă la propriul comportament - v-ar deranja dacă a devenit public? Exemple pe care Narayanan le-a furnizat în lucrarea sa sunt preferințele politice (evaluări pentru „Isus din Nazaret” și „Evanghelia după Ioan”) și preferințele sexuale (evaluări pentru „Bent” și „Queer as folk”) care ar putea fi ușor distilate.

5) Regulamentul general privind protecția datelor (GDPR)

GDPR s-ar putea să nu fie super-interesant, nici glonțul de argint printre subiectele blogului. Cu toate acestea, este util să obțineți definițiile corecte atunci când prelucrați date cu caracter personal. Deoarece acest blog este despre concepția greșită obișnuită a eliminării coloanelor ca o modalitate de a anonimiza datele și de a vă educa ca procesor de date, să începem cu explorarea definiției anonimizării conform GDPR. 

Conform considerentului 26 din GDPR, informațiile anonimizate sunt definite ca:

„informații care nu se referă la o persoană fizică identificată sau identificabilă sau date cu caracter personal redate anonim, astfel încât persoana vizată să nu fie sau să nu mai fie identificabilă.”

Întrucât cineva prelucrează date cu caracter personal care se referă la o persoană fizică, doar partea 2 din definiție este relevantă. Pentru a respecta definiția, trebuie să ne asigurăm că persoana vizată (individul) nu este sau nu mai poate fi identificată. Așa cum se indică în acest blog, totuși, este remarcabil de simplu să identificați persoane pe baza câtorva atribute. Deci, eliminarea numelor dintr-un set de date nu respectă definiția GDPR a anonimizării.

În concluzie

Am provocat o abordare luată în considerare în mod obișnuit și, din păcate, încă aplicată frecvent de anonimizare a datelor: eliminarea numelor. În jocul Ghici cine și alte patru exemple despre:

  • Atacuri de legătură
  • Persoane informate
  • Datele ca amprentă
  • Regulamentul general privind protecția datelor (GDPR)

s-a arătat că eliminarea numelor eșuează ca anonimizare. Deși exemplele sunt cazuri izbitoare, fiecare arată simplitatea reidentificării și potențialul impact negativ asupra confidențialității persoanelor.

În concluzie, eliminarea numelor din setul de date nu duce la date anonime. Prin urmare, este mai bine să evităm să folosim ambii termeni în mod interschimbabil. Sper sincer că nu veți aplica această abordare pentru anonimizare. Și, dacă tot o faceți, asigurați-vă că dvs. și echipa dvs. înțelegeți pe deplin riscurile de confidențialitate și vi se permite să acceptați aceste riscuri în numele persoanelor afectate.

grup de oameni zâmbind

Datele sunt sintetice, dar echipa noastră este reală!

Contactați Syntho iar unul dintre experții noștri vă va contacta cu viteza luminii pentru a explora valoarea datelor sintetice!

  • D. Reinsel, J. Gantz, John Rydning. Digitalizarea lumii de la margine la bază, Data Age 2025, 2018
  • L. Sweeney. k-anonimat: un model pentru protejarea confidențialității. Jurnalul internațional privind incertitudinea, neclaritatea și sistemele bazate pe cunoaștere, 10 (5), 2002: 557-570
  • L. Sweeney. Demografia simplă identifică adesea oamenii în mod unic. Universitatea Carnegie Mellon, Document de lucru privind confidențialitatea datelor 3. Pittsburgh 2000
  • P. Samarati. Protejarea identităților respondenților în lansarea microdatelor. IEEE Transactions on Knowledge and Data Engineering, 13 (6), 2001: 1010-1027
  • Atockar. Riding with the Stars: Passenger Privacy in NYC Taxicab Dataset, 2014
  • Narayanan, A. și Shmatikov, V. (2008). Dezanonimizare robustă a seturilor de date mari, rare. In Proceedings - Simpozion IEEE 2008 privind securitatea și confidențialitatea, SP (pp. 111-125)
  • Regulamentul general privind protecția datelor (GDPR), considerentul 26, nu se aplică datelor anonime