Externe Auswertung unserer synthetischen Daten durch die Datenexperten von SAS
Unsere synthetischen Daten sind bewertet und genehmigt von den Datenexperten von SAS
Einführung in die externe Auswertung unserer synthetischen Daten durch die Datenexperten von SAS
Was haben wir getan?
Die von Syntho generierten synthetischen Daten werden von den Datenexperten von SAS aus externer und objektiver Sicht bewertet, validiert und freigegeben.
Warum werden unsere synthetischen Daten von den Datenexperten von SAS extern ausgewertet?
Obwohl Syntho stolz darauf ist, seinen Benutzern einen erweiterten Qualitätssicherungsbericht anzubieten, wissen wir auch, wie wichtig eine externe und objektive Bewertung unserer synthetischen Daten durch Branchenführer ist. Aus diesem Grund arbeiten wir mit SAS, dem Marktführer im Bereich Analytik, zusammen, um unsere synthetischen Daten auszuwerten.
SAS führt verschiedene gründliche Bewertungen der Datengenauigkeit, des Datenschutzes und der Benutzerfreundlichkeit der von Syntho generierten synthetischen Daten im Vergleich zu den Originaldaten durch. Abschließend bewertete und genehmigte SAS die synthetischen Daten von Syntho im Vergleich zu den Originaldaten als genau, sicher und verwendbar.
Was hat SAS während dieser Bewertung getan?
Als Zieldaten haben wir Telekommunikationsdaten verwendet, die für die Abwanderungsvorhersage verwendet werden. Ziel der Evaluierung war es, mithilfe synthetischer Daten verschiedene Modelle zur Abwanderungsvorhersage zu trainieren und die Leistung jedes Modells zu bewerten. Da es sich bei der Abwanderungsvorhersage um eine Klassifizierungsaufgabe handelt, hat SAS gängige Klassifizierungsmodelle ausgewählt, um die Vorhersagen zu treffen, darunter:
- Zufälliger Wald
- Steigungsverstärkung
- Logistische Regression
- Neurales Netzwerk
Vor der Generierung der synthetischen Daten teilte SAS den Telekom-Datensatz nach dem Zufallsprinzip in einen Train-Satz (zum Trainieren der Modelle) und einen Holdout-Satz (zum Scoring der Modelle). Ein separater Holdout-Satz für die Bewertung ermöglicht eine unvoreingenommene Bewertung, wie gut das Klassifizierungsmodell bei Anwendung auf neue Daten abschneiden könnte.
Unter Verwendung des Zugsatzes als Eingabe nutzte Syntho seine Syntho Engine, um einen synthetischen Datensatz zu generieren. Für das Benchmarking erstellte SAS außerdem eine anonymisierte Version des Zugsatzes, nachdem verschiedene Anonymisierungstechniken angewendet wurden, um einen bestimmten Schwellenwert (der k-Anonymität) zu erreichen. Die vorherigen Schritte führten zu vier Datensätzen:
- Ein Zugdatensatz (d. h. der Originaldatensatz abzüglich des Holdout-Datensatzes)
- Ein Holdout-Datensatz (dh eine Teilmenge des ursprünglichen Datensatzes)
- Ein anonymisierter Datensatz (anonymisierte Daten des Zugdatensatzes, Originaldatensatz abzüglich des Holdout-Datensatzes)
- Ein synthetischer Datensatz (synthetisierte Daten des Zugdatensatzes, Originaldatensatz abzüglich des Holdout-Datensatzes)
Die Datensätze 1, 3 und 4 wurden zum Trainieren jedes Klassifizierungsmodells verwendet, was zu 12 (3 x 4) trainierten Modellen führte. Anschließend nutzte SAS den Holdout-Datensatz, um die Genauigkeit jedes Modells bei der Vorhersage der Kundenabwanderung zu messen.
SAS führt verschiedene gründliche Bewertungen der Datengenauigkeit, des Datenschutzes und der Benutzerfreundlichkeit der von Syntho generierten synthetischen Daten im Vergleich zu den Originaldaten durch. Abschließend bewertete und genehmigte SAS die synthetischen Daten von Syntho im Vergleich zu den Originaldaten als genau, sicher und verwendbar.
Sprechen Sie mit einem unserer Experten
Erste Ergebnisse der Datenauswertung durch SAS
Modelle, die auf synthetischen Daten trainiert wurden, schneiden im Vergleich zu Modellen, die auf Originaldaten trainiert wurden, sehr ähnlich ab
Synthetische Daten von Syntho erfassen nicht nur grundlegende Muster, sondern erfassen auch tiefgreifende „verborgene“ statistische Muster, die für erweiterte Analyseaufgaben erforderlich sind. Letzteres wird im Balkendiagramm veranschaulicht und zeigt, dass die Genauigkeit von Modellen, die auf synthetischen Daten trainiert wurden, im Vergleich zu Modellen, die auf Originaldaten trainiert wurden, ähnlich ist. Daher können synthetische Daten für das tatsächliche Training der Modelle verwendet werden. Die Eingaben und die Variablenbedeutung, die von den Algorithmen für synthetische Daten im Vergleich zu Originaldaten ausgewählt wurden, waren sehr ähnlich. Daher wird der Schluss gezogen, dass der Modellierungsprozess auf synthetischen Daten als Alternative zur Verwendung realer sensibler Daten durchgeführt werden kann.
Warum schneiden Modelle, die auf anonymisierten Daten trainiert wurden, schlechter ab?
Klassischen Anonymisierungstechniken ist gemeinsam, dass sie Originaldaten manipulieren, um eine Rückverfolgung einzelner Personen zu verhindern. Sie manipulieren Daten und zerstören dabei Daten. Je stärker Sie anonymisieren, desto besser sind Ihre Daten geschützt, aber auch desto mehr werden Ihre Daten vernichtet. Dies ist besonders verheerend für KI- und Modellierungsaufgaben, bei denen „Vorhersagekraft“ unerlässlich ist, da schlechte Datenqualität zu schlechten Erkenntnissen aus dem KI-Modell führt. SAS hat dies mit einer Fläche unter der Kurve (AUC*) nahe 0.5 demonstriert und gezeigt, dass die auf anonymisierten Daten trainierten Modelle bei weitem die schlechteste Leistung erbringen.
Zusätzliche Ergebnisse synthetischer Datenauswertungen durch SAS
Zusätzliche Ergebnisse synthetischer Datenauswertungen durch SAS
Die Korrelationen und Beziehungen zwischen Variablen wurden in synthetischen Daten genau beibehalten.
Die Fläche unter der Kurve (AUC), eine Metrik zur Messung der Modellleistung, blieb konstant.
Darüber hinaus blieb die Variablenbedeutung, die die Vorhersagekraft von Variablen in einem Modell angibt, beim Vergleich synthetischer Daten mit dem Originaldatensatz erhalten.
Basierend auf diesen Beobachtungen von SAS und durch die Verwendung von SAS Viya können wir mit Sicherheit den Schluss ziehen, dass die von der Syntho Engine generierten synthetischen Daten hinsichtlich der Qualität tatsächlich den echten Daten ebenbürtig sind. Dies validiert die Verwendung synthetischer Daten für die Modellentwicklung und ebnet den Weg für erweiterte Analysen mit synthetischen Daten.
Schlussfolgerungen der Datenexperten von SAS
- Modelle, die mit synthetischen Daten trainiert wurden, zeigen im Vergleich zu den Modellen, die mit Originaldaten trainiert wurden, eine sehr ähnliche Leistung
- Modelle, die auf anonymisierten Daten mit „klassischen Anonymisierungstechniken“ trainiert wurden, zeigen eine schlechtere Leistung im Vergleich zu Modellen, die auf den Originaldaten oder synthetischen Daten trainiert wurden
- Die Generierung synthetischer Daten ist einfach und schnell, da die Technik pro Datensatz und Datentyp genau gleich funktioniert
Referenzartikel
- Einschätzung durch die Datenexperten von SAS: https://blogs.sas.com/content/hiddeninsights/2022/07/07/ai-generated-synthetic-data-easy-and-fast-access-to-high-quality-data/
- Syntho-Gewinner des globalen SAS-Hackathons: https://www.linkedin.com/feed/update/urn:li:activity:7070047376249376769/
- Ergebnisse der Fallstudie im Gesundheitswesen: https://communities.sas.com/t5/SAS-Hacker-s-Hub/AI-Generated-Synthetic-Data-in-Healthcare/ta-p/863407
Speichern Sie jetzt Ihren Leitfaden für synthetische Daten!
- Was sind synthetische Daten?
- Warum nutzen Organisationen es?
- Kundenfälle mit Mehrwert für synthetische Daten
- Erste Schritte