Con l'anonimizzazione classica, intendiamo tutte le metodologie in cui si manipola o distorce un set di dati originale per ostacolare il rintracciamento degli individui.
Esempi tipici di anonimizzazione classica che vediamo nella pratica sono generalizzazione, soppressione/cancellazione, pseudonimizzazione e rimescolamento di righe e colonne.
Con la presente quelle tecniche con esempi corrispondenti.
Tecnica | Dati originali | Dati manipolati |
Generalizzazione | Anni 27 anni | Tra 25 e 30 anni |
Soppressione/pulizia | info@syntho.ai | xxxx@xxxxxx.xx |
Pseudonimizzazione | Amsterdam | hVFD6td3jdHHj78ghdgrewui6 |
Rimescolamento di righe e colonne | Allineati | Mescolato |
La manipolazione di un set di dati con tecniche di anonimizzazione classiche comporta 2 svantaggi chiave:
Dimostriamo questi 2 svantaggi chiave, l'utilità dei dati e la protezione della privacy. Lo facciamo con la seguente illustrazione con soppressione e generalizzazione applicate.
Nota: usiamo le immagini a scopo illustrativo. Lo stesso principio vale per i set di dati strutturati.
Questo introduce il compromesso tra utilità dei dati e protezione della privacy, dove le classiche tecniche di anonimizzazione offrono sempre una combinazione non ottimale di entrambi.
No. Questo è un grande equivoco e non si traduce in dati anonimi. Applichi ancora questo come modo per anonimizzare il tuo set di dati? Allora questo blog è una lettura obbligata per te.
Syntho sviluppa software per generare un set di dati completamente nuovo di record di dati freschi. Le informazioni per identificare individui reali semplicemente non sono presenti in un set di dati sintetico. Poiché i dati sintetici contengono record di dati artificiali generati dal software, i dati personali semplicemente non sono presenti, risultando in una situazione senza rischi per la privacy.
La differenza fondamentale in Syntho: applichiamo l'apprendimento automatico. Di conseguenza, la nostra soluzione riproduce la struttura e le proprietà del set di dati originale nel set di dati sintetico con conseguente utilità dei dati massimizzata. Di conseguenza, sarà possibile ottenere gli stessi risultati quando si analizzano i dati sintetici rispetto all'utilizzo dei dati originali.
Questo caso di studio dimostra i punti salienti del nostro rapporto sulla qualità contenente varie statistiche da dati sintetici generati tramite il nostro motore Syntho rispetto ai dati originali.
In conclusione, i dati sintetici sono la soluzione preferita per superare il tipico trade-off sub-ottimale tra data-utility e privacy-protection, che tutte le classiche tecniche di anonimizzazione ti offrono.
In conclusione, dal punto di vista dell'utilità dei dati e della protezione della privacy, si dovrebbe sempre optare per dati sintetici quando il proprio caso d'uso lo consente.
Valore per l'analisi | Rischio per la privacy | |
Dati sintetici | Alta | Nessuna |
Dati reali (personali) | Alta | Alta |
Dati manipolati (tramite la classica 'anonimizzazione') | Basso-medio | Media altezza |
I dati sintetici di Syntho colmano le lacune in cui le tecniche di anonimizzazione classiche non sono all'altezza massimizzando entrambe utilità dei dati ed Protezione della privacy.