Externe Auswertung unserer synthetischen Daten durch die Datenexperten von SAS

Unsere synthetischen Daten sind bewertet und genehmigt von den Datenexperten von SAS

Einführung in die externe Auswertung unserer synthetischen Daten durch die Datenexperten von SAS

Was haben wir getan?

Die von Syntho generierten synthetischen Daten werden von den Datenexperten von SAS aus externer und objektiver Sicht bewertet, validiert und freigegeben.

Warum werden unsere synthetischen Daten von den Datenexperten von SAS extern ausgewertet?

Obwohl Syntho stolz darauf ist, seinen Benutzern einen erweiterten Qualitätssicherungsbericht anzubieten, wissen wir auch, wie wichtig eine externe und objektive Bewertung unserer synthetischen Daten durch Branchenführer ist. Aus diesem Grund arbeiten wir mit SAS, dem Marktführer im Bereich Analytik, zusammen, um unsere synthetischen Daten auszuwerten.

SAS führt verschiedene gründliche Bewertungen der Datengenauigkeit, des Datenschutzes und der Benutzerfreundlichkeit der von Syntho generierten synthetischen Daten im Vergleich zu den Originaldaten durch. Abschließend bewertete und genehmigte SAS die synthetischen Daten von Syntho im Vergleich zu den Originaldaten als genau, sicher und verwendbar.

Was hat SAS während dieser Bewertung getan?

Als Zieldaten haben wir Telekommunikationsdaten verwendet, die für die Abwanderungsvorhersage verwendet werden. Ziel der Evaluierung war es, mithilfe synthetischer Daten verschiedene Modelle zur Abwanderungsvorhersage zu trainieren und die Leistung jedes Modells zu bewerten. Da es sich bei der Abwanderungsvorhersage um eine Klassifizierungsaufgabe handelt, hat SAS gängige Klassifizierungsmodelle ausgewählt, um die Vorhersagen zu treffen, darunter:

  1. Zufälliger Wald
  2. Steigungsverstärkung
  3. Logistische Regression
  4. Neurales Netzwerk

Vor der Generierung der synthetischen Daten teilte SAS den Telekom-Datensatz nach dem Zufallsprinzip in einen Train-Satz (zum Trainieren der Modelle) und einen Holdout-Satz (zum Scoring der Modelle). Ein separater Holdout-Satz für die Bewertung ermöglicht eine unvoreingenommene Bewertung, wie gut das Klassifizierungsmodell bei Anwendung auf neue Daten abschneiden könnte.

Unter Verwendung des Zugsatzes als Eingabe nutzte Syntho seine Syntho Engine, um einen synthetischen Datensatz zu generieren. Für das Benchmarking erstellte SAS außerdem eine anonymisierte Version des Zugsatzes, nachdem verschiedene Anonymisierungstechniken angewendet wurden, um einen bestimmten Schwellenwert (der k-Anonymität) zu erreichen. Die vorherigen Schritte führten zu vier Datensätzen:

  1. Ein Zugdatensatz (d. h. der Originaldatensatz abzüglich des Holdout-Datensatzes)
  2. Ein Holdout-Datensatz (dh eine Teilmenge des ursprünglichen Datensatzes)
  3. Ein anonymisierter Datensatz (anonymisierte Daten des Zugdatensatzes, Originaldatensatz abzüglich des Holdout-Datensatzes)
  4. Ein synthetischer Datensatz (synthetisierte Daten des Zugdatensatzes, Originaldatensatz abzüglich des Holdout-Datensatzes)

Die Datensätze 1, 3 und 4 wurden zum Trainieren jedes Klassifizierungsmodells verwendet, was zu 12 (3 x 4) trainierten Modellen führte. Anschließend nutzte SAS den Holdout-Datensatz, um die Genauigkeit jedes Modells bei der Vorhersage der Kundenabwanderung zu messen.

SAS führt verschiedene gründliche Bewertungen der Datengenauigkeit, des Datenschutzes und der Benutzerfreundlichkeit der von Syntho generierten synthetischen Daten im Vergleich zu den Originaldaten durch. Abschließend bewertete und genehmigte SAS die synthetischen Daten von Syntho im Vergleich zu den Originaldaten als genau, sicher und verwendbar.

Sprechen Sie mit einem unserer Experten

Erste Ergebnisse der Datenauswertung durch SAS

Modelle, die auf synthetischen Daten trainiert wurden, schneiden im Vergleich zu Modellen, die auf Originaldaten trainiert wurden, sehr ähnlich ab

Synthetische Daten von Syntho erfassen nicht nur grundlegende Muster, sondern erfassen auch tiefgreifende „verborgene“ statistische Muster, die für erweiterte Analyseaufgaben erforderlich sind. Letzteres wird im Balkendiagramm veranschaulicht und zeigt, dass die Genauigkeit von Modellen, die auf synthetischen Daten trainiert wurden, im Vergleich zu Modellen, die auf Originaldaten trainiert wurden, ähnlich ist. Daher können synthetische Daten für das tatsächliche Training der Modelle verwendet werden. Die Eingaben und die Variablenbedeutung, die von den Algorithmen für synthetische Daten im Vergleich zu Originaldaten ausgewählt wurden, waren sehr ähnlich. Daher wird der Schluss gezogen, dass der Modellierungsprozess auf synthetischen Daten als Alternative zur Verwendung realer sensibler Daten durchgeführt werden kann.

Warum schneiden Modelle, die auf anonymisierten Daten trainiert wurden, schlechter ab?

Klassischen Anonymisierungstechniken ist gemeinsam, dass sie Originaldaten manipulieren, um eine Rückverfolgung einzelner Personen zu verhindern. Sie manipulieren Daten und zerstören dabei Daten. Je stärker Sie anonymisieren, desto besser sind Ihre Daten geschützt, aber auch desto mehr werden Ihre Daten vernichtet. Dies ist besonders verheerend für KI- und Modellierungsaufgaben, bei denen „Vorhersagekraft“ unerlässlich ist, da schlechte Datenqualität zu schlechten Erkenntnissen aus dem KI-Modell führt. SAS hat dies mit einer Fläche unter der Kurve (AUC*) nahe 0.5 demonstriert und gezeigt, dass die auf anonymisierten Daten trainierten Modelle bei weitem die schlechteste Leistung erbringen.

Zusätzliche Ergebnisse synthetischer Datenauswertungen durch SAS

Zusätzliche Ergebnisse synthetischer Datenauswertungen durch SAS

Die Korrelationen und Beziehungen zwischen Variablen wurden in synthetischen Daten genau beibehalten.

Die Fläche unter der Kurve (AUC), eine Metrik zur Messung der Modellleistung, blieb konstant.

Darüber hinaus blieb die Variablenbedeutung, die die Vorhersagekraft von Variablen in einem Modell angibt, beim Vergleich synthetischer Daten mit dem Originaldatensatz erhalten.

Basierend auf diesen Beobachtungen von SAS und durch die Verwendung von SAS Viya können wir mit Sicherheit den Schluss ziehen, dass die von der Syntho Engine generierten synthetischen Daten hinsichtlich der Qualität tatsächlich den echten Daten ebenbürtig sind. Dies validiert die Verwendung synthetischer Daten für die Modellentwicklung und ebnet den Weg für erweiterte Analysen mit synthetischen Daten.

Schlussfolgerungen der Datenexperten von SAS

Sas-Logo

Unsere synthetischen Daten sind genehmigt von den Datenexperten von SAS

Referenzartikel

Syntho-Guide-Cover

Speichern Sie jetzt Ihren Leitfaden für synthetische Daten!