Évaluation externe de nos données synthétiques par les experts en données de SAS

Nos données synthétiques sont évalué ainsi que le , par les experts en données de SAS

Introduction à l'évaluation externe de nos données synthétiques par les experts data de SAS

Qu'avons-nous fait?

Les données synthétiques générées par Syntho sont évaluées, validées et approuvées d'un point de vue externe et objectif par les experts en données de SAS.

Pourquoi nos données synthétiques sont-elles évaluées en externe par les experts en données de SAS ?

Bien que Syntho soit fier d'offrir à ses utilisateurs un rapport d'assurance qualité avancé, nous comprenons également l'importance de disposer d'une évaluation externe et objective de nos données synthétiques par les leaders de l'industrie. C'est pourquoi nous collaborons avec SAS, leader en analytique, pour évaluer nos données synthétiques.

SAS effectue diverses évaluations approfondies sur l'exactitude des données, la protection de la vie privée et la convivialité des données synthétiques générées par l'IA de Syntho par rapport aux données originales. En conclusion, SAS a évalué et approuvé les données synthétiques de Syntho comme étant exactes, sécurisées et utilisables par rapport aux données originales.

Qu’a fait SAS lors de cette évaluation ?

Nous avons utilisé comme données cibles les données de télécommunications utilisées pour la prévision du « taux de désabonnement ». L'objectif de l'évaluation était d'utiliser des données synthétiques pour former divers modèles de prévision du taux de désabonnement et d'évaluer les performances de chaque modèle. La prédiction du taux de désabonnement étant une tâche de classification, SAS a sélectionné des modèles de classification populaires pour effectuer les prédictions, notamment :

Forêt aléatoire
Amplification du dégradé
Régression logistique
Réseau neuronal

Avant de générer les données synthétiques, SAS a divisé de manière aléatoire l'ensemble de données de télécommunications en un ensemble de trains (pour entraîner les modèles) et un ensemble d'attente (pour évaluer les modèles). Le fait de disposer d'un ensemble d'exclusions distinct pour la notation permet une évaluation impartiale de l'efficacité du modèle de classification lorsqu'il est appliqué à de nouvelles données.

En utilisant la rame comme entrée, Syntho a utilisé son moteur Syntho pour générer un ensemble de données synthétiques. À des fins d'analyse comparative, SAS a également créé une version anonymisée de la rame après avoir appliqué diverses techniques d'anonymisation pour atteindre un certain seuil (de k-anonymat). Les premières étapes ont abouti à quatre ensembles de données :

Un ensemble de données de train (c'est-à-dire l'ensemble de données d'origine moins l'ensemble de données d'exclusion)
Un ensemble de données à retenir (c'est-à-dire un sous-ensemble de l'ensemble de données d'origine)
Un ensemble de données anonymisées (données anonymisées de l'ensemble de données du train, ensemble de données d'origine moins l'ensemble de données retenu)
Un ensemble de données synthétiques (données synthétisées de l'ensemble de données du train, ensemble de données d'origine moins l'ensemble de données retenu)

Les ensembles de données 1, 3 et 4 ont été utilisés pour entraîner chaque modèle de classification, ce qui a donné 12 (3 x 4) modèles entraînés. SAS a ensuite utilisé l'ensemble de données d'exclusion pour mesurer la précision de chaque modèle dans la prévision du taux de désabonnement des clients.

Avez-vous des questions?

Parlez à l'un de nos experts

Nous contacter

Premiers résultats de l’évaluation des données par SAS

Les modèles formés sur des données synthétiques obtiennent des résultats très similaires par rapport aux modèles formés sur des données originales.

Les données synthétiques de Syntho ne concernent pas seulement les modèles de base, elles capturent également les modèles statistiques « cachés » profonds requis pour les tâches d'analyse avancées. Ce dernier est démontré dans le graphique à barres, indiquant que la précision des modèles formés sur des données synthétiques par rapport aux modèles formés sur des données originales est similaire. Par conséquent, les données synthétiques peuvent être utilisées pour la formation réelle des modèles. Les entrées et l'importance des variables sélectionnées par les algorithmes sur les données synthétiques par rapport aux données originales étaient très similaires. Par conséquent, il est conclu que le processus de modélisation peut être effectué sur des données synthétiques, comme alternative à l’utilisation de données sensibles réelles.

Pourquoi les modèles formés sur des données anonymisées obtiennent-ils de moins bons résultats ?

Les techniques classiques d’anonymisation ont en commun de manipuler les données originales afin d’empêcher la traçabilité des individus. Ils manipulent les données et détruisent ainsi les données au cours du processus. Plus vous anonymisez, mieux vos données sont protégées, mais aussi plus vos données sont détruites. Ceci est particulièrement dévastateur pour les tâches d’IA et de modélisation où la « puissance prédictive » est essentielle, car des données de mauvaise qualité entraîneront de mauvaises informations du modèle d’IA. SAS l'a démontré, avec une aire sous la courbe (AUC*) proche de 0.5, démontrant que les modèles formés sur des données anonymisées sont de loin les moins performants.

Résultats supplémentaires des évaluations de données synthétiques par SAS

Les corrélations et les relations entre les variables ont été préservées avec précision dans les données synthétiques.

L'aire sous la courbe (AUC), une mesure de mesure des performances du modèle, est restée constante.

De plus, l'importance de la variable, qui indiquait le pouvoir prédictif des variables dans un modèle, est restée intacte lors de la comparaison des données synthétiques à l'ensemble de données d'origine.

Sur la base de ces observations de SAS et en utilisant SAS Viya, nous pouvons conclure avec confiance que les données synthétiques générées par Syntho Engine sont effectivement à égalité avec les données réelles en termes de qualité. Cela valide l’utilisation de données synthétiques pour le développement de modèles, ouvrant la voie à des analyses avancées avec des données synthétiques.

Conclusions des experts en données de SAS

Les modèles entraînés sur des données synthétiques par rapport aux modèles entraînés sur des données originales présentent des performances très similaires
Les modèles entraînés sur des données anonymisées avec des « techniques d'anonymisation classiques » présentent des performances inférieures par rapport aux modèles entraînés sur les données d'origine ou les données synthétiques
La génération de données synthétiques est simple et rapide car la technique fonctionne exactement de la même manière par ensemble de données et par type de données

Nos données synthétiques sont , par les experts data de SAS

Articles de référence

Évaluation par les experts data de SAS : https://blogs.sas.com/content/hiddeninsights/2022/07/07/ai-generated-synthetic-data-easy-and-fast-access-to-high-quality-data/

Syntho gagnant du hackathon mondial SAS : https://www.linkedin.com/feed/update/urn:li:activity:7070047376249376769/
Résultats d’études de cas sur les soins de santé : https://communities.sas.com/t5/SAS-Hacker-s-Hub/AI-Generated-Synthetic-Data-in-Healthcare/ta-p/863407

Qu'est-ce que les données synthétiques ?

Rapport d'assurance qualité

Évaluation externe par SAS

Données synthétiques de séries chronologiques

Analyseur d'informations personnelles

Données simulées synthétiques

Cartographie cohérente

Désidentification et synthèse

Données synthétiques basées sur des règles

Sous-ensemble

Déploiement et intégration

Connecteurs RF

Fonctionnalités étendues

Données prises en charge

Documentation utilisateur

PLANIFIEZ UNE DÉMO

Prix

Données de test

Analytique

Le partage des données

Démonstrations de produits

Monétisation des données

Système de santé

financier

Organisations publiques

Documentation utilisateur

Livres blancs et guides

blog

Webinaires

Études de cas

Prix

Qui sommes-nous?

Carrières

Évaluation externe de nos données synthétiques par les experts en données de SAS

Nos données synthétiques sont évalué ainsi que le , par les experts en données de SAS

Introduction à l'évaluation externe de nos données synthétiques par les experts data de SAS

Qu'avons-nous fait?

Pourquoi nos données synthétiques sont-elles évaluées en externe par les experts en données de SAS ?

Qu’a fait SAS lors de cette évaluation ?

Avez-vous des questions?

Parlez à l'un de nos experts

Premiers résultats de l’évaluation des données par SAS

Les modèles formés sur des données synthétiques obtiennent des résultats très similaires par rapport aux modèles formés sur des données originales.

Pourquoi les modèles formés sur des données anonymisées obtiennent-ils de moins bons résultats ?

Résultats supplémentaires des évaluations de données synthétiques par SAS

Résultats supplémentaires des évaluations de données synthétiques par SAS

Conclusions des experts en données de SAS

Nos données synthétiques sont , par les experts data de SAS

Articles de référence

Enregistrez votre guide de données synthétiques maintenant !

Menu principal

Enregistrez votre guide de données synthétiques maintenant !