Perché l'anonimizzazione classica (e la pseudonimizzazione) non produce dati anonimi

Questo blog tratta i seguenti argomenti:

Che cos'è l'anonimizzazione classica?
Quali sono gli svantaggi dell'anonimizzazione classica?
Perché le classiche tecniche di anonimizzazione offrono una combinazione non ottimale tra utilità dei dati e protezione della privacy?.
In cosa differiscono i dati sintetici?
Perché utilizzare ancora i dati personali se puoi utilizzare dati sintetici?

Che cos'è l'anonimizzazione classica?

Con l'anonimizzazione classica, intendiamo tutte le metodologie in cui si manipola o distorce un set di dati originale per ostacolare il rintracciamento degli individui.

Esempi tipici di anonimizzazione classica che vediamo nella pratica sono generalizzazione, soppressione/cancellazione, pseudonimizzazione e rimescolamento di righe e colonne.

Con la presente quelle tecniche con esempi corrispondenti.

Tecnica	Dati originali	Dati manipolati
Generalizzazione	Anni 27 anni	Tra 25 e 30 anni
Soppressione/pulizia	info@syntho.ai	xxxx@xxxxxx.xx
Pseudonimizzazione	Amsterdam	hVFD6td3jdHHj78ghdgrewui6
Rimescolamento di righe e colonne	Allineati	Mescolato

Quali sono gli svantaggi dell'anonimizzazione classica?

La manipolazione di un set di dati con tecniche di anonimizzazione classiche comporta 2 svantaggi chiave:

La distorsione di un set di dati comporta una riduzione della qualità dei dati (ovvero l'utilità dei dati). Questo introduce il classico principio del garbage-in garbage-out.
Rischio per la privacy sarà ridotto, ma sarà sempre presente. Rimane e versione manipolata del set di dati originale con relazioni 1-1.

Dimostriamo questi 2 svantaggi chiave, l'utilità dei dati e la protezione della privacy. Lo facciamo con la seguente illustrazione con soppressione e generalizzazione applicate.

Nota: usiamo le immagini a scopo illustrativo. Lo stesso principio vale per i set di dati strutturati.

Sinistra: la scarsa applicazione dell'anonimizzazione classica risulta in un'illustrazione rappresentativa. Tuttavia, l'individuo può essere facilmente identificato e il rischio per la privacy è significativo.

A destra: l'applicazione severa dell'anonimizzazione classica si traduce in una forte protezione della privacy. Tuttavia, l'illustrazione diventa inutile.

Le classiche tecniche di anonimizzazione offrono una combinazione non ottimale tra utilità dei dati e protezione della privacy.

Questo introduce il compromesso tra utilità dei dati e protezione della privacy, dove le classiche tecniche di anonimizzazione offrono sempre una combinazione non ottimale di entrambi.

La rimozione di tutti gli identificatori diretti (come i nomi) dal set di dati è una soluzione?

No. Questo è un grande equivoco e non si traduce in dati anonimi. Applichi ancora questo come modo per anonimizzare il tuo set di dati? Allora questo blog è una lettura obbligata per te.

In cosa differiscono i dati sintetici?

Syntho sviluppa software per generare un set di dati completamente nuovo di record di dati freschi. Le informazioni per identificare individui reali semplicemente non sono presenti in un set di dati sintetico. Poiché i dati sintetici contengono record di dati artificiali generati dal software, i dati personali semplicemente non sono presenti, risultando in una situazione senza rischi per la privacy.

La differenza fondamentale in Syntho: applichiamo l'apprendimento automatico. Di conseguenza, la nostra soluzione riproduce la struttura e le proprietà del set di dati originale nel set di dati sintetico con conseguente utilità dei dati massimizzata. Di conseguenza, sarà possibile ottenere gli stessi risultati quando si analizzano i dati sintetici rispetto all'utilizzo dei dati originali.

Questo caso di studio dimostra i punti salienti del nostro rapporto sulla qualità contenente varie statistiche da dati sintetici generati tramite il nostro motore Syntho rispetto ai dati originali.

In conclusione, i dati sintetici sono la soluzione preferita per superare il tipico trade-off sub-ottimale tra data-utility e privacy-protection, che tutte le classiche tecniche di anonimizzazione ti offrono.

Quindi, perché utilizzare dati reali (sensibili) quando è possibile utilizzare dati sintetici?

In conclusione, dal punto di vista dell'utilità dei dati e della protezione della privacy, si dovrebbe sempre optare per dati sintetici quando il proprio caso d'uso lo consente.

	Valore per l'analisi	Rischio per la privacy
Dati sintetici	Alta	Nessuna
Dati reali (personali)	Alta	Alta
Dati manipolati (tramite la classica 'anonimizzazione')	Basso-medio	Media altezza

I dati sintetici di Syntho colmano le lacune in cui le tecniche di anonimizzazione classiche non sono all'altezza massimizzando entrambe utilità dei dati ed Protezione della privacy.

Interessato?

Esplora con noi il valore aggiunto dei dati sintetici

PRENOTA DEMO

Cosa sono i dati sintetici?

Rapporto di garanzia della qualità

Valutazione esterna da parte di SAS

Dati sintetici di serie temporali

Scanner PII

Dati simulati sintetici

Mappatura coerente

Deidentificazione e sintesi

Dati sintetici basati su regole

sottoinsiemi

Distribuzione e integrazione

Connettori RF

Funzionalità estese

Dati supportati

Documentazione utente

Pianificare una demo

Prezzi

Dati sintetici come dati di test

Dati sintetici per analisi

Dati sintetici per la condivisione dei dati

Dati sintetici per demo di prodotti

SANITARIETÀ

Amministrazione

Organizzazioni pubbliche

Documentazione utente

Whitepaper e guide

Blog

Webinars

Casi Studio