Pourquoi anonymisation classique (et pseudonymisation) ne donne pas de données anonymes

Ce blog traite des sujets suivants :

Qu'est-ce que l'anonymisation classique ?
Quels sont les inconvénients de l'anonymisation classique ?
Pourquoi les techniques d'anonymisation classiques offrent-elles une combinaison sous-optimale entre utilité des données et protection de la vie privée ?.
En quoi les données synthétiques sont-elles différentes ?
Pourquoi continuer à utiliser des données personnelles si vous pouvez utiliser des données synthétiques ?

Qu'est-ce que l'anonymisation classique ?

Avec l'anonymisation classique, nous impliquons toutes les méthodologies où l'on manipule ou déforme un ensemble de données d'origine pour empêcher la traçabilité des individus.

Des exemples typiques d'anonymisation classique que nous voyons dans la pratique sont la généralisation, la suppression/effacement, la pseudonymisation et le brassage de lignes et de colonnes.

Par la présente, ces techniques avec des exemples correspondants.

Technique	Données originales	Données manipulées
Généralisation	27 ans	Entre 25 et 30 ans
Suppression / Essuyage	info@syntho.ai	xxxx@xxxxxx.xx
Pseudonymisation	Amsterdam	hVFD6td3jdHHj78ghdgrewui6
Réorganisation des lignes et des colonnes	Aligné	Mélangé

Quels sont les inconvénients de l'anonymisation classique ?

La manipulation d'un jeu de données avec des techniques d'anonymisation classiques entraîne 2 inconvénients majeurs :

La distorsion d'un ensemble de données entraîne une diminution de la qualité des données (c'est-à-dire l'utilité des données). Cela introduit le principe classique d'entrée d'ordures et de sorties d'ordures.
Risque de confidentialité sera réduit, mais sera toujours présent. Il reste une version manipulée de l'ensemble de données d'origine avec des relations 1-1.

Nous démontrons ces 2 inconvénients clés, l'utilité des données et la protection de la vie privée. Nous le faisons avec l'illustration suivante avec suppression et généralisation appliquées.

Remarque : nous utilisons des images à des fins d'illustration. Le même principe s'applique aux ensembles de données structurés.

Gauche: peu d'application de l'anonymisation classique aboutit à une illustration représentative. Cependant, l'individu peut être facilement identifié et le risque pour la vie privée est important.

À droite: l'application sévère de l'anonymisation classique se traduit par une forte protection de la vie privée. Cependant, l'illustration devient inutile.

Les techniques d'anonymisation classiques offrent une combinaison sous-optimale entre l'utilité des données et la protection de la vie privée.

Cela introduit le compromis entre l'utilité des données et la protection de la vie privée, où les techniques d'anonymisation classiques offrent toujours une combinaison sous-optimale des deux.

La suppression de tous les identifiants directs (tels que les noms) de l'ensemble de données est-elle une solution ?

Non. Il s'agit d'une grande idée fausse qui ne donne pas lieu à des données anonymes. L'appliquez-vous toujours comme moyen d'anonymiser votre ensemble de données ? Alors ce blog est une lecture incontournable pour vous.

En quoi les données synthétiques sont-elles différentes ?

Syntho développe un logiciel pour générer un tout nouvel ensemble de données de nouveaux enregistrements de données. Les informations permettant d'identifier des individus réels ne sont tout simplement pas présentes dans un ensemble de données synthétiques. Étant donné que les données synthétiques contiennent des enregistrements de données artificiels générés par un logiciel, les données personnelles ne sont tout simplement pas présentes, ce qui entraîne une situation sans risque pour la vie privée.

La principale différence chez Syntho : nous appliquons l'apprentissage automatique. Par conséquent, notre solution reproduit la structure et les propriétés de l'ensemble de données d'origine dans l'ensemble de données synthétique, ce qui permet d'optimiser l'utilité des données. Par conséquent, vous pourrez obtenir les mêmes résultats lors de l'analyse des données synthétiques que lors de l'utilisation des données d'origine.

Cette étude de cas démontre les faits saillants de notre rapport de qualité contenant diverses statistiques à partir de données synthétiques générées par notre moteur Syntho par rapport aux données d'origine.

En conclusion, les données synthétiques sont la solution privilégiée pour surmonter le compromis typique sous-optimal entre l'utilité des données et la protection de la vie privée, que vous offrent toutes les techniques d'anonymisation classiques.

Alors, pourquoi utiliser des données réelles (sensibles) quand vous pouvez utiliser des données synthétiques ?

En conclusion, du point de vue de l'utilité des données et de la protection de la vie privée, il faut toujours opter pour des données synthétiques lorsque votre cas d'utilisation le permet.

	Valeur pour l'analyse	Risque de confidentialité
Données synthétiques	Haute	Aucun
Données réelles (personnelles)	Haute	Haute
Données manipulées (par « anonymisation » classique)	Faible-moyen	Moyen-élevé

Les données synthétiques de Syntho comblent les lacunes des techniques classiques d'anonymisation en maximisant à la fois utilitaire de données ainsi que la protection de la vie privée.

Intéressé(e) ?

Explorez avec nous la valeur ajoutée des données synthétiques

RÉSERVER LA DÉMO

Qu'est-ce que les données synthétiques ?

Rapport d'assurance qualité

Évaluation externe par SAS

Données synthétiques de séries chronologiques

Analyseur d'informations personnelles

Données simulées synthétiques

Cartographie cohérente

Désidentification et synthèse

Données synthétiques basées sur des règles

Sous-ensemble

Déploiement et intégration

Connecteurs RF

Fonctionnalités étendues

Données prises en charge

Documentation utilisateur

PLANIFIEZ UNE DÉMO

Prix

Données synthétiques comme données de test

Données synthétiques pour l'analyse

Données synthétiques pour le partage de données

Données synthétiques pour les démos de produits

Système de santé

financier

Organisations publiques

Documentation utilisateur

Livres blancs et guides

Blog

Webinaires

Études de cas