Was sind synthetische Daten?

Ein Crashkurs synthetische Daten

 

 

Einleitung

Was sind synthetische Daten?

Die Antwort ist relativ einfach. Während Originaldaten in all Ihren Interaktionen mit realen Personen (z. B. Kunden, Patienten, Mitarbeitern usw.) und über alle Ihre internen Prozesse gesammelt werden, werden synthetische Daten durch einen Computeralgorithmus generiert. Dieser Computeralgorithmus generiert völlig neue und künstliche Datenpunkte.

Lösen Sie Datenschutzherausforderungen

Synthetisch generierte Daten bestehen aus völlig neuen und künstlichen Datenpunkten ohne Eins-zu-eins-Beziehungen zu den Originaldaten. Daher kann keiner der synthetischen Datenpunkte auf Originaldaten zurückgeführt oder rückentwickelt werden. Infolgedessen sind synthetische Daten von Datenschutzbestimmungen wie der DSGVO ausgenommen und dienen als Lösung zur Lösung und Überwindung von Datenschutzproblemen.

Erweitern und simulieren

Der generative Aspekt der synthetischen Datengenerierung ermöglicht die Anreicherung und Simulation völlig neuer Daten. Dies dient als Lösung, wenn Sie nicht genügend Daten haben (Datenknappheit), Edge-Cases upsampeln möchten oder noch keine Daten haben.

Hier liegt der Fokus von Syntho auf strukturierten Daten (Daten, die in Tabellen mit Zeilen und Spalten formatiert sind, wie Sie sie in einer Excel-Tabelle sehen), aber wir veranschaulichen das Konzept der synthetischen Daten immer gerne durch Bilder, weil es ansprechender ist.

Arten synthetischer Daten

Innerhalb des synthetischen Datenschirms gibt es drei Arten von synthetischen Daten. Diese 3 Arten von synthetischen Daten sind: Dummy-Daten, regelbasierte generierte synthetische Daten und synthetische Daten, die von künstlicher Intelligenz (KI) generiert werden. Wir erklären kurz, was die 3 verschiedenen Arten von synthetischen Daten sind.

Dummy-Daten / Mock-Daten

Dummy-Daten sind zufällig generierte Daten (z. B. von einem Mock-Data-Generator).

Folglich werden Merkmale, Beziehungen und statistische Muster, die in den Originaldaten enthalten sind, in den generierten Dummy-Daten nicht bewahrt, erfasst und reproduziert. Daher ist die Repräsentativität von Dummy-Daten / Mock-Daten im Vergleich zu den Originaldaten minimal.

  • Wann Sie es verwenden sollten: um direkte Identifikatoren (PII) zu ersetzen oder wenn Sie (noch) keine Daten haben und keine Zeit und Energie für die Definition von Regeln aufwenden möchten.

Regelbasiert generierte synthetische Daten

Regelbasiert generierte synthetische Daten sind synthetische Daten, die durch einen vordefinierten Satz von Regeln generiert werden. Beispiele für diese vordefinierten Regeln könnten sein, dass Sie synthetische Daten mit einem bestimmten Mindestwert, Höchstwert oder Durchschnittswert haben möchten. Alle Merkmale, Beziehungen und statistischen Muster, die Sie in den regelbasiert generierten synthetischen Daten reproduzieren möchten, müssen vordefiniert werden.

Folglich ist die Datenqualität so gut wie das vordefinierte Regelwerk. Daraus ergeben sich Herausforderungen, wenn es auf eine hohe Datenqualität ankommt. Erstens kann man nur einen begrenzten Satz von Regeln definieren, die in den synthetischen Daten erfasst werden sollen. Darüber hinaus führt das Einrichten mehrerer Regeln in der Regel zu sich überschneidenden und widersprüchlichen Regeln. Außerdem werden Sie nie alle relevanten Regeln vollständig abdecken. Darüber hinaus kann es relevante Regeln geben, die Sie nicht einmal kennen. Und schließlich (und nicht zu vergessen) kostet Sie dies viel Zeit und Energie, was zu einer ineffizienten Lösung führt.

  • Wann zu verwenden: wenn Sie (noch) keine Daten haben

Synthetische Daten, die von künstlicher Intelligenz (KI) generiert werden

Wie der Name schon sagt, handelt es sich bei synthetischen Daten, die von künstlicher Intelligenz (KI) generiert werden, um synthetische Daten, die von einem Algorithmus für künstliche Intelligenz (KI) generiert werden. Das KI-Modell wird auf den Originaldaten trainiert, um alle Merkmale, Zusammenhänge und statistischen Muster zu lernen. Danach ist dieser KI-Algorithmus in der Lage, völlig neue Datenpunkte zu generieren und diese neuen Datenpunkte so zu modellieren, dass er die Eigenschaften, Beziehungen und statistischen Muster aus dem ursprünglichen Datensatz reproduziert. Das nennen wir einen synthetischen Datenzwilling.

Das KI-Modell ahmt Originaldaten nach, um synthetische Datenzwillinge zu generieren, die verwendet werden können, als ob es Originaldaten wären. Dadurch werden verschiedene Anwendungsfälle freigeschaltet, in denen die KI-generierten synthetischen Daten als Alternative zur Verwendung ursprünglicher (sensibler) Daten verwendet werden können, z. B. die Verwendung von KI-generierten synthetischen Daten als Testdaten, Demodaten oder für Analysen.

Eine Visualisierung, wie synthetische Daten erstellt werden

Im Vergleich zu regelbasiert generierten synthetischen Daten: Anstatt dass Sie relevante Regeln studieren und definieren, erledigt der KI-Algorithmus dies automatisch für Sie. Dabei werden nicht nur Ihnen bekannte Merkmale, Zusammenhänge und statistische Muster erfasst, sondern auch Merkmale, Zusammenhänge und statistische Muster, die Ihnen gar nicht bewusst sind.

  • Wann Sie es verwenden sollten: Wenn Sie (einige) Daten als Eingabe zum Nachahmen oder als Ausgangspunkt für intelligente Datengenerierungs- und Erweiterungsfunktionen haben

Welche Art von synthetischen Daten soll verwendet werden?

Abhängig von Ihrem Anwendungsfall wird eine Kombination aus Dummy-Daten / Mock-Daten, regelbasiert generierten synthetischen Daten oder synthetischen Daten, die durch künstliche Intelligenz (KI) generiert werden, empfohlen. Diese Übersicht gibt Ihnen einen ersten Hinweis darauf, welche Art von synthetischen Daten Sie verwenden sollten. Da Syntho alle unterstützt, können Sie sich gerne an unsere Experten wenden, um Ihren Anwendungsfall mit uns zu vertiefen.

Dieses Diagramm zeigt verschiedene Arten von synthetischen Daten

Syntho-Guide-Cover

Speichern Sie jetzt Ihren Leitfaden für synthetische Daten!