Perché l'anonimizzazione classica (e la pseudonimizzazione) non produce dati anonimi

Che cos'è l'anonimizzazione classica?

Con l'anonimizzazione classica, intendiamo tutte le metodologie in cui si manipola o distorce un set di dati originale per ostacolare il rintracciamento degli individui.

Esempi tipici di anonimizzazione classica che vediamo nella pratica sono generalizzazione, soppressione/cancellazione, pseudonimizzazione e rimescolamento di righe e colonne.

Con la presente quelle tecniche con esempi corrispondenti.

Tecnica Dati originali Dati manipolati
Generalizzazione Anni 27 anni Tra 25 e 30 anni
Soppressione/pulizia info@syntho.ai xxxx@xxxxxx.xx
Pseudonimizzazione Amsterdam hVFD6td3jdHHj78ghdgrewui6
Rimescolamento di righe e colonne Allineati Mescolato

Quali sono gli svantaggi dell'anonimizzazione classica?

La manipolazione di un set di dati con tecniche di anonimizzazione classiche comporta 2 svantaggi chiave:

  1. La distorsione di un set di dati comporta una riduzione della qualità dei dati (ovvero l'utilità dei dati). Questo introduce il classico principio del garbage-in garbage-out.
  2. Rischio per la privacy sarà ridotto, ma sarà sempre presente. Rimane e versione manipolata del set di dati originale con relazioni 1-1.

Dimostriamo questi 2 svantaggi chiave, l'utilità dei dati e la protezione della privacy. Lo facciamo con la seguente illustrazione con soppressione e generalizzazione applicate.

Nota: usiamo le immagini a scopo illustrativo. Lo stesso principio vale per i set di dati strutturati.

L'anonimizzazione classica fallisce
  • Sinistra: la scarsa applicazione dell'anonimizzazione classica risulta in un'illustrazione rappresentativa. Tuttavia, l'individuo può essere facilmente identificato e il rischio per la privacy è significativo.

 

  • A destra: l'applicazione severa dell'anonimizzazione classica si traduce in una forte protezione della privacy. Tuttavia, l'illustrazione diventa inutile.

Le classiche tecniche di anonimizzazione offrono una combinazione non ottimale tra utilità dei dati e protezione della privacy.

Questo introduce il compromesso tra utilità dei dati e protezione della privacy, dove le classiche tecniche di anonimizzazione offrono sempre una combinazione non ottimale di entrambi. 

curva di utilità dell’anonimizzazione classica

La rimozione di tutti gli identificatori diretti (come i nomi) dal set di dati è una soluzione?

No. Questo è un grande equivoco e non si traduce in dati anonimi. Applichi ancora questo come modo per anonimizzare il tuo set di dati? Allora questo blog è una lettura obbligata per te.

In cosa differiscono i dati sintetici?

Syntho sviluppa software per generare un set di dati completamente nuovo di record di dati freschi. Le informazioni per identificare individui reali semplicemente non sono presenti in un set di dati sintetico. Poiché i dati sintetici contengono record di dati artificiali generati dal software, i dati personali semplicemente non sono presenti, risultando in una situazione senza rischi per la privacy.

La differenza fondamentale in Syntho: applichiamo l'apprendimento automatico. Di conseguenza, la nostra soluzione riproduce la struttura e le proprietà del set di dati originale nel set di dati sintetico con conseguente utilità dei dati massimizzata. Di conseguenza, sarà possibile ottenere gli stessi risultati quando si analizzano i dati sintetici rispetto all'utilizzo dei dati originali.

Questo caso di studio dimostra i punti salienti del nostro rapporto sulla qualità contenente varie statistiche da dati sintetici generati tramite il nostro motore Syntho rispetto ai dati originali.

In conclusione, i dati sintetici sono la soluzione preferita per superare il tipico trade-off sub-ottimale tra data-utility e privacy-protection, che tutte le classiche tecniche di anonimizzazione ti offrono.

curva di utilità dell’anonimizzazione classica

Quindi, perché utilizzare dati reali (sensibili) quando è possibile utilizzare dati sintetici?

In conclusione, dal punto di vista dell'utilità dei dati e della protezione della privacy, si dovrebbe sempre optare per dati sintetici quando il proprio caso d'uso lo consente.

 Valore per l'analisiRischio per la privacy
Dati sinteticiAltaNessuna
Dati reali (personali)AltaAlta
Dati manipolati (tramite la classica 'anonimizzazione')Basso-medioMedia altezza
idea

I dati sintetici di Syntho colmano le lacune in cui le tecniche di anonimizzazione classiche non sono all'altezza massimizzando entrambe utilità dei dati ed Protezione della privacy.

Interessato?

Esplora con noi il valore aggiunto dei dati sintetici