Anonymisierte Daten vs. synthetische Daten

Wenn Sie Ihre Daten anonymisieren, bevor Sie Datentests zur Datenanalyse durchführen, spielen mehrere Faktoren eine Rolle:

  1. In fast allen Fällen können anonymisierte Daten aufgrund spezifischer und eindeutiger Zeilen (z. B. Krankenakten) noch auf Einzelpersonen zurückgeführt werden.
  2. Je mehr Sie anonymisieren oder verallgemeinern, desto mehr Daten vernichten Sie. Das mindert die Qualität Ihrer Daten und damit Ihre Insights
  3. Die Anonymisierung funktioniert für verschiedene Datenformate unterschiedlich. Dies bedeutet, dass es nicht skalierbar ist und sehr zeitaufwändig sein kann

Synthetische Daten lösen all diese Mängel und mehr. Sehen Sie sich das Video unten an, um zu sehen, wie ein Analytics-Experte von SAS (globaler Marktführer für Analytics) seine Einschätzung des Qualitätsunterschieds zwischen Originaldaten, anonymisierten Daten und von Syntho generierten synthetischen Daten erläutert.

Dieses Video wurde vom Syntho x SAS D[N]A Café über AI Generated Synthetic Data aufgenommen. Das vollständige Video finden Sie hier.

Edwin van Unen schickte einen Originaldatensatz an Syntho und wir haben den Datensatz synthetisiert. Die Frage war aber auch: „Was passiert, wenn wir synthetische Daten mit anonymisierten Daten vergleichen?“ Da Sie in anonymisierten Daten viele Informationen verlieren, passiert dies auch beim Synthetisieren eines Datensatzes? Wir begannen mit einem Datensatz aus der Telekommunikationsbranche mit 56.000 Zeilen und 128 Spalten von Unternehmensabwanderungsinformationen. Dieser Datensatz wurde sowohl synthetisiert als auch anonymisiert, sodass Edwin die Synthetisierung mit der Anonymisierung vergleichen konnte. Dann begann Edwin mit der Modellierung mit SAS Viya. Er baute ein paar Abwanderungsmodelle auf dem ursprünglichen Datensatz auf, wobei er klassische Regressionstechniken und Entscheidungsbäume verwendete, aber auch ausgefeiltere Techniken wie neuronale Netze, Gradient Boosting, Random Forest – diese Art von Techniken. Verwenden der Standardoptionen von SAS Viya beim Erstellen der Modelle.

Dann war es an der Zeit, sich die Ergebnisse anzusehen. Die Ergebnisse waren sehr vielversprechend für synthetische Daten und nicht für die Anonymisierung. Für die Nicht-Machine-Learning-Experten im Publikum betrachten wir die Fläche unter der ROC-Kurve, die etwas über die Genauigkeit des Modells aussagt. Beim Vergleich der Originaldaten mit den anonymisierten Daten sehen wir, dass das Originaldatenmodell eine Fläche unter der ROC-Kurve von 8 hat, was ziemlich gut ist. Die anonymisierten Daten haben jedoch eine Fläche unter der ROC-Kurve von 6. Das bedeutet, dass wir mit dem anonymisierten Modell viele Informationen verlieren, sodass Sie viel Vorhersagekraft verlieren.

Aber dann stellt sich die Frage, was ist mit synthetischen Daten? Hier haben wir genau dasselbe getan, aber anstatt die Daten zu anonymisieren, hat Syntho die Daten synthetisiert. Nun sehen wir, dass sowohl die Originaldaten als auch die synthetischen Daten eine Fläche unter der ROC-Kurve von 8 haben, was sehr ähnlich ist. Aufgrund der Variabilität nicht genau gleich, aber sehr ähnlich. Das Potenzial synthetischer Daten ist also sehr vielversprechend – darüber freut sich Edwin sehr.

Gruppe lächelnder Menschen

Daten sind synthetisch, aber unser Team ist real!

Kontakt aufnehmen und einer unserer Experten wird sich blitzschnell mit Ihnen in Verbindung setzen, um den Wert synthetischer Daten zu erkunden!