Pourquoi anonymisation classique (et pseudonymisation) ne donne pas de données anonymes

Qu'est-ce que l'anonymisation classique ?

Avec l'anonymisation classique, nous impliquons toutes les méthodologies où l'on manipule ou déforme un ensemble de données d'origine pour empêcher la traçabilité des individus.

Des exemples typiques d'anonymisation classique que nous voyons dans la pratique sont la généralisation, la suppression/effacement, la pseudonymisation et le brassage de lignes et de colonnes.

Par la présente, ces techniques avec des exemples correspondants.

Technique Données originales Données manipulées
Généralisation 27 ans Entre 25 et 30 ans
Suppression / Essuyage info@syntho.ai xxxx@xxxxxx.xx
Pseudonymisation Amsterdam hVFD6td3jdHHj78ghdgrewui6
Réorganisation des lignes et des colonnes Aligné Mélangé

Quels sont les inconvénients de l'anonymisation classique ?

La manipulation d'un jeu de données avec des techniques d'anonymisation classiques entraîne 2 inconvénients majeurs :

  1. La distorsion d'un ensemble de données entraîne une diminution de la qualité des données (c'est-à-dire l'utilité des données). Cela introduit le principe classique d'entrée d'ordures et de sorties d'ordures.
  2. Risque de confidentialité sera réduit, mais sera toujours présent. Il reste une version manipulée de l'ensemble de données d'origine avec des relations 1-1.

Nous démontrons ces 2 inconvénients clés, l'utilité des données et la protection de la vie privée. Nous le faisons avec l'illustration suivante avec suppression et généralisation appliquées.

Remarque : nous utilisons des images à des fins d'illustration. Le même principe s'applique aux ensembles de données structurés.

L'anonymisation classique échoue
  • Gauche: peu d'application de l'anonymisation classique aboutit à une illustration représentative. Cependant, l'individu peut être facilement identifié et le risque pour la vie privée est important.

 

  • À droite: l'application sévère de l'anonymisation classique se traduit par une forte protection de la vie privée. Cependant, l'illustration devient inutile.

Les techniques d'anonymisation classiques offrent une combinaison sous-optimale entre l'utilité des données et la protection de la vie privée.

Cela introduit le compromis entre l'utilité des données et la protection de la vie privée, où les techniques d'anonymisation classiques offrent toujours une combinaison sous-optimale des deux. 

courbe d'utilité d'anonymisation classique

La suppression de tous les identifiants directs (tels que les noms) de l'ensemble de données est-elle une solution ?

Non. Il s'agit d'une grande idée fausse qui ne donne pas lieu à des données anonymes. L'appliquez-vous toujours comme moyen d'anonymiser votre ensemble de données ? Alors ce blog est une lecture incontournable pour vous.

En quoi les données synthétiques sont-elles différentes ?

Syntho développe un logiciel pour générer un tout nouvel ensemble de données de nouveaux enregistrements de données. Les informations permettant d'identifier des individus réels ne sont tout simplement pas présentes dans un ensemble de données synthétiques. Étant donné que les données synthétiques contiennent des enregistrements de données artificiels générés par un logiciel, les données personnelles ne sont tout simplement pas présentes, ce qui entraîne une situation sans risque pour la vie privée.

La principale différence chez Syntho : nous appliquons l'apprentissage automatique. Par conséquent, notre solution reproduit la structure et les propriétés de l'ensemble de données d'origine dans l'ensemble de données synthétique, ce qui permet d'optimiser l'utilité des données. Par conséquent, vous pourrez obtenir les mêmes résultats lors de l'analyse des données synthétiques que lors de l'utilisation des données d'origine.

Cette étude de cas démontre les faits saillants de notre rapport de qualité contenant diverses statistiques à partir de données synthétiques générées par notre moteur Syntho par rapport aux données d'origine.

En conclusion, les données synthétiques sont la solution privilégiée pour surmonter le compromis typique sous-optimal entre l'utilité des données et la protection de la vie privée, que vous offrent toutes les techniques d'anonymisation classiques.

courbe d'utilité d'anonymisation classique

Alors, pourquoi utiliser des données réelles (sensibles) quand vous pouvez utiliser des données synthétiques ?

En conclusion, du point de vue de l'utilité des données et de la protection de la vie privée, il faut toujours opter pour des données synthétiques lorsque votre cas d'utilisation le permet.

 Valeur pour l'analyseRisque de confidentialité
Données synthétiquesHauteAucun
Données réelles (personnelles)HauteHaute
Données manipulées (par « anonymisation » classique)Faible-moyenMoyen-élevé
idée

Les données synthétiques de Syntho comblent les lacunes des techniques classiques d'anonymisation en maximisant à la fois utilitaire de données ainsi que  la protection de la vie privée.

Intéressé(e) ?

Explorez avec nous la valeur ajoutée des données synthétiques