Indovina chi? 5 esempi del perché rimuovere i nomi non è un'opzione

indovina chi gioca

Un'introduzione a Indovina chi

Indovina chi? Anche se sono sicuro che la maggior parte di voi conosce questo gioco da qualche tempo, ecco un breve riassunto. L'obiettivo del gioco: scoprire il nome del personaggio dei cartoni selezionato dal tuo avversario facendo domande "sì" e "no", come "la persona indossa un cappello?" o 'la persona porta gli occhiali'? I giocatori eliminano i candidati in base alla risposta dell'avversario e apprendono attributi che si riferiscono al personaggio misterioso dell'avversario. Il primo giocatore che scopre il personaggio misterioso dell'altro giocatore vince la partita.

Avete capito bene. Si deve identificare l'individuo da un set di dati avendo solo accesso agli attributi corrispondenti. Infatti, vediamo regolarmente questo concetto di Indovina chi applicato nella pratica, ma poi impiegato su dataset formattati con righe e colonne contenenti attributi di persone reali. La differenza principale quando si lavora con i dati è che le persone tendono a sottovalutare la facilità con cui gli individui reali possono essere smascherati avendo accesso solo a pochi attributi.

Come illustra il gioco Indovina chi, qualcuno può identificare gli individui avendo accesso solo a pochi attributi. Serve come semplice esempio del motivo per cui la rimozione dei soli "nomi" (o altri identificatori diretti) dal set di dati non riesce come tecnica di anonimizzazione. In questo blog, forniamo quattro casi pratici per informarti sui rischi per la privacy associati alla rimozione delle colonne come mezzo di anonimizzazione dei dati.

2) Attacchi di collegamento: il tuo set di dati collegato ad altre fonti di dati (pubbliche)

Il rischio di attacchi di collegamento è il motivo più importante per cui la sola rimozione dei nomi non funziona (più) come metodo per l'anonimizzazione. Con un attacco di collegamento, l'attaccante combina i dati originali con altre fonti di dati accessibili al fine di identificare in modo univoco un individuo e apprendere informazioni (spesso sensibili) su questa persona.

La chiave qui è la disponibilità di altre risorse di dati che sono presenti ora o potrebbero diventarlo in futuro. Pensa a te stesso. Quanti dei tuoi dati personali possono essere trovati su Facebook, Instagram o LinkedIn che potrebbero essere potenzialmente abusati per un attacco di collegamento?

In precedenza, la disponibilità dei dati era molto più limitata, il che spiega in parte perché la rimozione dei nomi fosse sufficiente per preservare la privacy delle persone. Meno dati disponibili significa meno opportunità per il collegamento dei dati. Tuttavia, ora siamo partecipanti (attivi) in un'economia basata sui dati, in cui la quantità di dati sta crescendo a un ritmo esponenziale. Più dati e il miglioramento della tecnologia per la raccolta dei dati porteranno a un aumento del potenziale per gli attacchi di collegamento. Cosa si scriverebbe tra 10 anni sul rischio di un attacco di linkage?

Illustrazione 1

I dati in crescita esponenziale sono un dato di fatto

Quantità di dati

Caso di studio

Sweeney (2002) ha dimostrato in un documento accademico come è stata in grado di identificare e recuperare dati medici sensibili da individui sulla base del collegamento di un insieme di dati disponibili al pubblico di "visite ospedaliere" al registro di voto pubblicamente disponibile negli Stati Uniti. Si presumeva che entrambi i set di dati fossero adeguatamente resi anonimi mediante la cancellazione di nomi e altri identificatori diretti.

Illustrazione 2

Attacco di collegamento in pratica

Attacco di collegamento

Basandosi solo sui tre parametri (1) CAP, (2) Sesso e (3) Data di nascita, ha mostrato che l'87% dell'intera popolazione degli Stati Uniti potrebbe essere re-identificato abbinando gli attributi di cui sopra da entrambi i set di dati. Sweeney ha quindi ripetuto il suo lavoro con l'avere 'paese' come alternativa a 'CAP'. Inoltre, ha dimostrato che il 18% dell'intera popolazione degli Stati Uniti poteva essere identificato solo avendo accesso a un set di dati contenente informazioni su (1) paese di origine, (2) sesso e (3) data di nascita. Pensa alle suddette fonti pubbliche, come Facebook, LinkedIn o Instagram. Il tuo paese, sesso e data di nascita sono visibili o altri utenti possono detrarlo?

Illustrazione 3

I risultati di Sweeney

Quasi-identificatori

% identificata in modo univoco della popolazione statunitense (248 milioni)

CAP a 5 cifre, sesso, data di nascita

87%

posto, sesso, data di nascita

53%

nazione, sesso, data di nascita

18%

Questo esempio dimostra che può essere molto facile rendere anonimi gli individui in dati apparentemente anonimi. In primo luogo, questo studio indica un'enorme entità di rischio, poiché L'87% della popolazione degli Stati Uniti può essere facilmente identificato utilizzando poche caratteristiche. In secondo luogo, i dati medici esposti in questo studio erano altamente sensibili. Esempi di dati degli individui esposti dal set di dati sulle visite ospedaliere includono etnia, diagnosi e farmaci. Attributi che si preferisce tenere segreti, ad esempio, alle compagnie di assicurazione.

3) Individui informati

Un altro rischio di rimuovere solo gli identificatori diretti, come i nomi, si verifica quando gli individui informati hanno una conoscenza o informazioni superiori sui tratti o sul comportamento di individui specifici nel set di dati. In base alle proprie conoscenze, l'autore dell'attacco potrebbe quindi essere in grado di collegare record di dati specifici a persone reali.

Caso di studio

Un esempio di attacco a un set di dati utilizzando una conoscenza superiore è il caso dei taxi di New York, in cui Atockar (2014) è stato in grado di smascherare individui specifici. Il set di dati utilizzato conteneva tutti i viaggi in taxi a New York, arricchito con attributi di base come coordinate di inizio, coordinate di fine, prezzo e mancia della corsa.

Un individuo informato che conosce New York è stato in grado di ricavare viaggi in taxi per il club per adulti "Hustler". Filtrando la "posizione finale", ha dedotto gli indirizzi di partenza esatti e ha quindi identificato vari visitatori frequenti. Allo stesso modo, si potrebbero dedurre le corse in taxi quando si conosce l'indirizzo di casa dell'individuo. L'ora e la posizione di diverse celebrità del cinema sono state scoperte su siti di gossip. Dopo aver collegato queste informazioni ai dati dei taxi di New York, è stato facile ricavare le loro corse in taxi, l'importo che hanno pagato e se avevano lasciato la mancia.

Illustrazione 4

Un individuo informato

coordinate di riconsegna Hustler

Bradley Cooper

taxi e mappa

Jessica Alba

tracciamento delle mappe

4) Dati come impronte digitali

Una linea di argomentazione comune è "questi dati non hanno valore" o "nessuno può fare nulla con questi dati". Questo è spesso un equivoco. Anche i dati più innocenti possono formare un'unica "impronta digitale" ed essere utilizzati per identificare nuovamente gli individui. È il rischio che deriva dalla convinzione che il dato stesso sia senza valore, mentre non lo è.

Il rischio di identificazione aumenterà con l'aumento dei dati, dell'intelligenza artificiale e di altri strumenti e algoritmi che consentono di scoprire relazioni complesse nei dati. Di conseguenza, anche se il tuo set di dati non può essere scoperto ora ed è presumibilmente inutile per le persone non autorizzate oggi, potrebbe non essere domani.

Caso di studio

Un ottimo esempio è il caso in cui Netflix intendeva fare crowdsourcing per il proprio dipartimento di ricerca e sviluppo introducendo un concorso Netflix aperto per migliorare il proprio sistema di raccomandazione dei film. "Quello che migliora l'algoritmo di filtraggio collaborativo per prevedere le valutazioni degli utenti per i film vince un premio di US $ 1,000,000". Per supportare la folla, Netflix ha pubblicato un set di dati contenente solo i seguenti attributi di base: userID, film, data del voto e voto (quindi nessuna ulteriore informazione sull'utente o sul film stesso).

Illustrazione 5

Struttura del set di dati Prezzo Netflix

ID utente Film Data del voto Classe
123456789 Mission impossible 10-12-2008 4

Isolati, i dati sembravano inutili. Alla domanda "Esistono informazioni sui clienti nel set di dati che dovrebbero essere mantenute private?", la risposta è stata:

 'No, tutte le informazioni di identificazione del cliente sono state rimosse; tutto ciò che rimane sono valutazioni e date. Questo segue la nostra politica sulla privacy …'

Tuttavia, Narayanan (2008) dell'Università del Texas ad Austin ha dimostrato il contrario. La combinazione di voti, data del voto e film di un individuo forma un'impronta digitale unica. Pensa al tuo comportamento su Netflix. Quante persone pensi abbiano visto lo stesso set di film? Quanti hanno visto lo stesso set di film contemporaneamente?

Domanda principale, come abbinare questa impronta digitale? Era piuttosto semplice. Sulla base delle informazioni del noto sito web di valutazione dei film IMDb (Internet Movie Database), si potrebbe formare un'impronta digitale simile. Di conseguenza, gli individui potrebbero essere re-identificati.

Anche se il comportamento di guardare un film potrebbe non essere considerato un'informazione sensibile, pensa al tuo comportamento: ti dispiacerebbe se diventasse pubblico? Esempi che Narayanan ha fornito nel suo articolo sono le preferenze politiche (valutazioni su "Gesù di Nazareth" e "Il Vangelo di Giovanni") e le preferenze sessuali (valutazioni su "Bent" e "Queer as folk") che potrebbero essere facilmente distillate.

5) Regolamento generale sulla protezione dei dati (GDPR)

Il GDPR potrebbe non essere super eccitante, né il proiettile d'argento tra gli argomenti dei blog. Tuttavia, è utile chiarire le definizioni durante l'elaborazione dei dati personali. Poiché questo blog riguarda l'idea sbagliata comune di rimuovere le colonne come un modo per anonimizzare i dati e per educarti come responsabile del trattamento, iniziamo con l'esplorare la definizione di anonimizzazione secondo GDPR. 

Secondo il considerando 26 del GDPR, le informazioni anonime sono definite come:

«informazioni che non riguardano una persona fisica identificata o identificabile o dati personali resi anonimi in modo tale che l'interessato non sia o non sia più identificabile».

Poiché si trattano dati personali che si riferiscono a una persona fisica, è pertinente solo la parte 2 della definizione. Per conformarsi alla definizione, è necessario garantire che l'interessato (individuo) non sia o non sia più identificabile. Come indicato in questo blog, tuttavia, è straordinariamente semplice identificare gli individui in base a pochi attributi. Pertanto, la rimozione di nomi da un set di dati non è conforme alla definizione di anonimizzazione del GDPR.

Insomma

Abbiamo messo in discussione un approccio di anonimizzazione dei dati comunemente considerato e, purtroppo, ancora applicato di frequente: la rimozione dei nomi. Nel gioco Indovina chi e in altri quattro esempi su:

  • Attacchi di collegamento
  • Individui informati
  • Dati come impronte digitali
  • Regolamento generale sulla protezione dei dati (GDPR)

è stato dimostrato che la rimozione dei nomi non riesce come anonimizzazione. Sebbene gli esempi siano casi eclatanti, ognuno mostra la semplicità della reidentificazione e il potenziale impatto negativo sulla privacy degli individui.

In conclusione, la rimozione dei nomi dal tuo set di dati non comporta dati anonimi. Quindi, è meglio evitare di usare entrambi i termini in modo intercambiabile. Spero sinceramente che non applicherai questo approccio per l'anonimizzazione. E, se lo fai ancora, assicurati che tu e il tuo team comprendiate appieno i rischi per la privacy e che siate autorizzati ad accettare tali rischi per conto delle persone interessate.

gruppo di persone che sorridono

I dati sono sintetici, ma il nostro team è reale!

Contatta Syntho e un nostro esperto si metterà in contatto con te alla velocità della luce per esplorare il valore dei dati sintetici!

  • D. Reinsel, J. Gantz, John Rydning. La digitalizzazione del mondo dall'edge al core, Data Age 2025, 2018
  • L. Sweety. k-anonimato: un modello per la tutela della privacy. Rivista internazionale sull'incertezza, la confusione e i sistemi basati sulla conoscenza, 10 (5), 2002: 557-570
  • L. Sweety. I dati demografici semplici spesso identificano le persone in modo univoco. Carnegie Mellon University, Documento di lavoro sulla privacy dei dati 3. Pittsburgh 2000
  • P. Samarati. Protezione delle identità degli intervistati nel rilascio di microdati. IEEE Transactions on Knowledge and Data Engineering, 13 (6), 2001: 1010-1027
  • Atockar. Riding with the Stars: la privacy dei passeggeri nel set di dati sui taxi di New York, 2014
  • Narayanan, A., & Shmatikov, V. (2008). Deanonimizzazione robusta di grandi set di dati sparsi. In Proceedings – 2008 IEEE Symposium on Security and Privacy, SP (pp. 111-125)
  • Regolamento generale sulla protezione dei dati (GDPR), considerando 26, non applicabile ai dati anonimi