Données anonymisées vs données synthétiques

Si vous anonymisez vos données avant d'effectuer des tests de données d'analyse de données, plusieurs facteurs entrent en jeu :

  1. Dans presque tous les cas, les données anonymisées peuvent toujours être retracées jusqu'à des individus en raison de lignes spécifiques et uniques (par exemple, les dossiers médicaux)
  2. Plus vous anonymisez ou généralisez, plus vous détruisez de données. Cela diminue la qualité de vos données et donc de vos insights
  3. L'anonymisation fonctionne différemment pour différents formats de données. Cela signifie qu'il n'est pas évolutif et peut prendre beaucoup de temps

Les données synthétiques résolvent toutes ces lacunes et plus encore. Regardez la vidéo ci-dessous pour voir un expert en analytique de SAS (leader mondial du marché de l'analyse) expliquer son évaluation de la différence de qualité entre les données originales, les données anonymisées et les données synthétiques générées par Syntho.

Cette vidéo est capturée à partir du Syntho x SAS D[N]A Café sur les données synthétiques générées par l'IA. Retrouvez la vidéo complète ici.

Edwin van Unen a envoyé un jeu de données original à Syntho et nous avons synthétisé le jeu de données. Mais la question était aussi : « Que se passera-t-il si on compare des données synthétiques à des données anonymisées ? Étant donné que vous perdez beaucoup d'informations dans des données anonymisées, cela se produira-t-il également lors de la synthèse d'un jeu de données ? Nous avons commencé avec un ensemble de données de l'industrie des télécommunications avec 56.000 128 lignes et XNUMX colonnes d'informations sur l'attrition de l'entreprise. Cet ensemble de données a été à la fois synthétisé et anonymisé afin qu'Edwin puisse comparer la synthèse à l'anonymisation. Ensuite, Edwin a commencé à modéliser en utilisant SAS Viya. Il a construit quelques modèles de désabonnement sur l'ensemble de données d'origine, en utilisant des techniques de régression classiques et des arbres de décision, mais également des techniques plus sophistiquées telles que les réseaux de neurones, l'amplification de gradient, la forêt aléatoire - ce type de techniques. Utilisation des options SAS Viya standard lors de la construction des modèles.

Ensuite, il était temps de regarder les résultats. Les résultats étaient très prometteurs pour les données synthétiques et non pour l'anonymisation. Pour les non-experts en apprentissage automatique dans le public, nous examinons la zone sous la courbe ROC qui en dit long sur la précision du modèle. En comparant les données d'origine aux données anonymisées, nous constatons que le modèle de données d'origine a une aire sous la courbe ROC de 8, ce qui est plutôt bon. Cependant, les données anonymisées ont une aire sous la courbe ROC de 6. Cela signifie que nous perdons beaucoup d'informations avec le modèle anonymisé, vous perdez donc beaucoup de pouvoir prédictif.

Mais alors, la question est qu'en est-il des données synthétiques ? Ici, nous avons fait exactement la même chose mais au lieu d'anonymiser les données, Syntho a synthétisé les données. Maintenant, nous voyons que les données d'origine et les données synthétiques ont une aire sous la courbe ROC de 8, ce qui est très similaire. Pas exactement les mêmes en raison de la variabilité, mais très similaires. Cela signifie que le potentiel des données synthétiques est très prometteur – Edwin en est très heureux.

groupe de personnes souriant

Les données sont synthétiques, mais notre équipe est réelle !

Contacter Syntho et un de nos experts prendra contact avec vous à la vitesse de la lumière pour explorer la valeur des données synthétiques !