Évaluation externe de nos données synthétiques par les experts en données de SAS

Nos données synthétiques sont évalué ainsi que le , par les experts en données de SAS

Introduction à l'évaluation externe de nos données synthétiques par les experts data de SAS

Qu'avons-nous fait?

Les données synthétiques générées par Syntho sont évaluées, validées et approuvées d'un point de vue externe et objectif par les experts en données de SAS.

Pourquoi nos données synthétiques sont-elles évaluées en externe par les experts en données de SAS ?

Bien que Syntho soit fier d'offrir à ses utilisateurs un rapport d'assurance qualité avancé, nous comprenons également l'importance de disposer d'une évaluation externe et objective de nos données synthétiques par les leaders de l'industrie. C'est pourquoi nous collaborons avec SAS, leader en analytique, pour évaluer nos données synthétiques.

SAS effectue diverses évaluations approfondies sur l'exactitude des données, la protection de la vie privée et la convivialité des données synthétiques générées par l'IA de Syntho par rapport aux données originales. En conclusion, SAS a évalué et approuvé les données synthétiques de Syntho comme étant exactes, sécurisées et utilisables par rapport aux données originales.

Qu’a fait SAS lors de cette évaluation ?

Nous avons utilisé comme données cibles les données de télécommunications utilisées pour la prévision du « taux de désabonnement ». L'objectif de l'évaluation était d'utiliser des données synthétiques pour former divers modèles de prévision du taux de désabonnement et d'évaluer les performances de chaque modèle. La prédiction du taux de désabonnement étant une tâche de classification, SAS a sélectionné des modèles de classification populaires pour effectuer les prédictions, notamment :

  1. Forêt aléatoire
  2. Amplification du dégradé
  3. Régression logistique
  4. Réseau neuronal

Avant de générer les données synthétiques, SAS a divisé de manière aléatoire l'ensemble de données de télécommunications en un ensemble de trains (pour entraîner les modèles) et un ensemble d'attente (pour évaluer les modèles). Le fait de disposer d'un ensemble d'exclusions distinct pour la notation permet une évaluation impartiale de l'efficacité du modèle de classification lorsqu'il est appliqué à de nouvelles données.

En utilisant la rame comme entrée, Syntho a utilisé son moteur Syntho pour générer un ensemble de données synthétiques. À des fins d'analyse comparative, SAS a également créé une version anonymisée de la rame après avoir appliqué diverses techniques d'anonymisation pour atteindre un certain seuil (de k-anonymat). Les premières étapes ont abouti à quatre ensembles de données :

  1. Un ensemble de données de train (c'est-à-dire l'ensemble de données d'origine moins l'ensemble de données d'exclusion)
  2. Un ensemble de données à retenir (c'est-à-dire un sous-ensemble de l'ensemble de données d'origine)
  3. Un ensemble de données anonymisées (données anonymisées de l'ensemble de données du train, ensemble de données d'origine moins l'ensemble de données retenu)
  4. Un ensemble de données synthétiques (données synthétisées de l'ensemble de données du train, ensemble de données d'origine moins l'ensemble de données retenu)

Les ensembles de données 1, 3 et 4 ont été utilisés pour entraîner chaque modèle de classification, ce qui a donné 12 (3 x 4) modèles entraînés. SAS a ensuite utilisé l'ensemble de données d'exclusion pour mesurer la précision de chaque modèle dans la prévision du taux de désabonnement des clients.

SAS effectue diverses évaluations approfondies sur l'exactitude des données, la protection de la vie privée et la convivialité des données synthétiques générées par l'IA de Syntho par rapport aux données originales. En conclusion, SAS a évalué et approuvé les données synthétiques de Syntho comme étant exactes, sécurisées et utilisables par rapport aux données originales.

Avez-vous des questions?

Parlez à l'un de nos experts

Premiers résultats de l’évaluation des données par SAS

Les modèles formés sur des données synthétiques obtiennent des résultats très similaires par rapport aux modèles formés sur des données originales.

Les données synthétiques de Syntho ne concernent pas seulement les modèles de base, elles capturent également les modèles statistiques « cachés » profonds requis pour les tâches d'analyse avancées. Ce dernier est démontré dans le graphique à barres, indiquant que la précision des modèles formés sur des données synthétiques par rapport aux modèles formés sur des données originales est similaire. Par conséquent, les données synthétiques peuvent être utilisées pour la formation réelle des modèles. Les entrées et l'importance des variables sélectionnées par les algorithmes sur les données synthétiques par rapport aux données originales étaient très similaires. Par conséquent, il est conclu que le processus de modélisation peut être effectué sur des données synthétiques, comme alternative à l’utilisation de données sensibles réelles.

Pourquoi les modèles formés sur des données anonymisées obtiennent-ils de moins bons résultats ?

Les techniques classiques d’anonymisation ont en commun de manipuler les données originales afin d’empêcher la traçabilité des individus. Ils manipulent les données et détruisent ainsi les données au cours du processus. Plus vous anonymisez, mieux vos données sont protégées, mais aussi plus vos données sont détruites. Ceci est particulièrement dévastateur pour les tâches d’IA et de modélisation où la « puissance prédictive » est essentielle, car des données de mauvaise qualité entraîneront de mauvaises informations du modèle d’IA. SAS l'a démontré, avec une aire sous la courbe (AUC*) proche de 0.5, démontrant que les modèles formés sur des données anonymisées sont de loin les moins performants.

Résultats supplémentaires des évaluations de données synthétiques par SAS

Résultats supplémentaires des évaluations de données synthétiques par SAS

Les corrélations et les relations entre les variables ont été préservées avec précision dans les données synthétiques.

L'aire sous la courbe (AUC), une mesure de mesure des performances du modèle, est restée constante.

De plus, l'importance de la variable, qui indiquait le pouvoir prédictif des variables dans un modèle, est restée intacte lors de la comparaison des données synthétiques à l'ensemble de données d'origine.

Sur la base de ces observations de SAS et en utilisant SAS Viya, nous pouvons conclure avec confiance que les données synthétiques générées par Syntho Engine sont effectivement à égalité avec les données réelles en termes de qualité. Cela valide l’utilisation de données synthétiques pour le développement de modèles, ouvrant la voie à des analyses avancées avec des données synthétiques.

Conclusions des experts en données de SAS

Logo SAS

Nos données synthétiques sont , par les experts data de SAS

Articles de référence

couverture du guide synthé

Enregistrez votre guide de données synthétiques maintenant !