Avec l'anonymisation classique, nous impliquons toutes les méthodologies où l'on manipule ou déforme un ensemble de données d'origine pour empêcher la traçabilité des individus.
Des exemples typiques d'anonymisation classique que nous voyons dans la pratique sont la généralisation, la suppression/effacement, la pseudonymisation et le brassage de lignes et de colonnes.
Par la présente, ces techniques avec des exemples correspondants.
Technique | Données originales | Données manipulées |
Généralisation | 27 ans | Entre 25 et 30 ans |
Suppression / Essuyage | info@syntho.ai | xxxx@xxxxxx.xx |
Pseudonymisation | Amsterdam | hVFD6td3jdHHj78ghdgrewui6 |
Réorganisation des lignes et des colonnes | Aligné | Mélangé |
La manipulation d'un jeu de données avec des techniques d'anonymisation classiques entraîne 2 inconvénients majeurs :
Nous démontrons ces 2 inconvénients clés, l'utilité des données et la protection de la vie privée. Nous le faisons avec l'illustration suivante avec suppression et généralisation appliquées.
Remarque : nous utilisons des images à des fins d'illustration. Le même principe s'applique aux ensembles de données structurés.
Cela introduit le compromis entre l'utilité des données et la protection de la vie privée, où les techniques d'anonymisation classiques offrent toujours une combinaison sous-optimale des deux.
Non. Il s'agit d'une grande idée fausse qui ne donne pas lieu à des données anonymes. L'appliquez-vous toujours comme moyen d'anonymiser votre ensemble de données ? Alors ce blog est une lecture incontournable pour vous.
Syntho développe un logiciel pour générer un tout nouvel ensemble de données de nouveaux enregistrements de données. Les informations permettant d'identifier des individus réels ne sont tout simplement pas présentes dans un ensemble de données synthétiques. Étant donné que les données synthétiques contiennent des enregistrements de données artificiels générés par un logiciel, les données personnelles ne sont tout simplement pas présentes, ce qui entraîne une situation sans risque pour la vie privée.
La principale différence chez Syntho : nous appliquons l'apprentissage automatique. Par conséquent, notre solution reproduit la structure et les propriétés de l'ensemble de données d'origine dans l'ensemble de données synthétique, ce qui permet d'optimiser l'utilité des données. Par conséquent, vous pourrez obtenir les mêmes résultats lors de l'analyse des données synthétiques que lors de l'utilisation des données d'origine.
Cette étude de cas démontre les faits saillants de notre rapport de qualité contenant diverses statistiques à partir de données synthétiques générées par notre moteur Syntho par rapport aux données d'origine.
En conclusion, les données synthétiques sont la solution privilégiée pour surmonter le compromis typique sous-optimal entre l'utilité des données et la protection de la vie privée, que vous offrent toutes les techniques d'anonymisation classiques.
En conclusion, du point de vue de l'utilité des données et de la protection de la vie privée, il faut toujours opter pour des données synthétiques lorsque votre cas d'utilisation le permet.
Valeur pour l'analyse | Risque de confidentialité | |
Données synthétiques | Haute | Aucun |
Données réelles (personnelles) | Haute | Haute |
Données manipulées (par « anonymisation » classique) | Faible-moyen | Moyen-élevé |
Les données synthétiques de Syntho comblent les lacunes des techniques classiques d'anonymisation en maximisant à la fois utilitaire de données ainsi que la protection de la vie privée.