FAQ

Häufig gestellte Fragen zu synthetischen Daten

Verständlich! Zum Glück haben wir die Antworten und sind hier, um zu helfen. Überprüfen Sie unsere häufig gestellten Fragen.

Bitte öffnen Sie unten eine Frage und klicken Sie auf die Links, um weitere Informationen zu erhalten. Haben Sie eine kompliziertere Frage, die hier nicht aufgeführt ist? Fragen Sie unsere Experten direkt!

Die am häufigsten gestellten Fragen

Synthetische Daten beziehen sich auf Daten, die künstlich generiert und nicht aus realen Quellen gesammelt werden. Während Originaldaten bei all Ihren Interaktionen mit Personen (Kunden, Patienten usw.) und bei allen Ihren internen Prozessen gesammelt werden, werden synthetische Daten im Allgemeinen durch einen Computeralgorithmus generiert.

Synthetische Daten können auch zum Testen und Evaluieren von Modellen in einer kontrollierten Umgebung oder zum Schutz sensibler Informationen verwendet werden, indem Daten generiert werden, die realen Daten ähneln, aber keine sensiblen Informationen enthalten. Synthetische Daten werden oft als Alternative für datenschutzrelevante Daten verwendet und könnten als Testdaten, für Analysen oder zum Trainieren von maschinellem Lernen verwendet werden.

Lesen Sie weiter

Zu garantieren, dass synthetische Daten die gleiche Datenqualität wie die Originaldaten aufweisen, kann eine Herausforderung sein und hängt oft vom spezifischen Anwendungsfall und den Methoden ab, die zur Generierung der synthetischen Daten verwendet werden. Einige Methoden zum Generieren synthetischer Daten, wie z. B. generative Modelle, können Daten erzeugen, die den Originaldaten sehr ähnlich sind. Schlüsselfrage: Wie kann man das demonstrieren?

Es gibt einige Möglichkeiten, die Qualität synthetischer Daten sicherzustellen:

  • Datenqualitätskennzahlen über unseren Datenqualitätsbericht: Eine Möglichkeit sicherzustellen, dass synthetische Daten die gleiche Datenqualität wie die Originaldaten aufweisen, besteht darin, Datenqualitätsmetriken zu verwenden, um die synthetischen Daten mit den Originaldaten zu vergleichen. Diese Metriken können verwendet werden, um Dinge wie Ähnlichkeit, Genauigkeit und Vollständigkeit der Daten zu messen. Die Syntho-Software enthielt einen Datenqualitätsbericht mit verschiedenen Datenqualitätsmetriken.
  • Externe Evaluation: Da die Datenqualität synthetischer Daten im Vergleich zu Originaldaten entscheidend ist, haben wir kürzlich eine Bewertung mit den Datenexperten von SAS (Marktführer für Analytik) durchgeführt, um die Datenqualität synthetischer Daten von Syntho im Vergleich zu den echten Daten zu demonstrieren. Edwin van Unen, Analytikexperte von SAS, wertete generierte synthetische Datensätze von Syntho über verschiedene analytische (KI) Bewertungen aus und teilte die Ergebnisse mit. Sehen Sie sich hier eine kurze Zusammenfassung dieses Videos an.
  • Selbst testen und auswerten: Synthetische Daten können getestet und bewertet werden, indem sie mit realen Daten verglichen werden oder indem sie zum Trainieren von Modellen für maschinelles Lernen und zum Vergleichen ihrer Leistung mit Modellen verwendet werden, die mit realen Daten trainiert wurden. Warum testen Sie die Datenqualität synthetischer Daten nicht selbst? Fragen Sie hier unsere Experten nach den Möglichkeiten dazu

Es ist wichtig zu beachten, dass synthetische Daten nie 100 % ähnlich zu den Originaldaten sein können, aber sie können nahe genug sein, um für einen bestimmten Anwendungsfall nützlich zu sein. Bei diesem speziellen Anwendungsfall kann es sich sogar um fortgeschrittene Analysen oder Trainingsmodelle für maschinelles Lernen handeln.

Die klassische ‚Anonymisierung‘ ist nicht immer die beste Lösung, denn:

  1. Datenschutzrisiko – wirst du immer haben
    ein Datenschutzrisiko. Diese anwenden
    klassische Anonymisierungstechniken
    macht es nur schwerer, aber nicht
    unmöglich, Personen zu identifizieren.
  2. Daten vernichten - je mehr du
    anonymisieren, desto besser schützen Sie
    Ihre Privatsphäre, aber je mehr Sie
    vernichte deine Daten. Das ist nicht was
    Sie wollen für die Analytik, weil
    zerstörte Daten führen zu schlechten
    Einsichten.
  3. Zeitaufwendig – es ist eine Lösung
    das kostet viel zeit, weil
    Diese Techniken funktionieren anders
    pro Datensatz und pro Datentyp.

Synthetische Daten zielen darauf ab, all diese Mängel zu beheben. Der Unterschied ist so eklatant, dass wir ein Video darüber gemacht haben. Schau es hier an.

Häufig gestellte Fragen

Synthetische Daten

Im Allgemeinen verwenden die meisten unserer Kunden synthetische Daten für:

  • Softwaretest & Entwicklung
  • Synthetische Daten für Analytik, Modellentwicklung und Advanced Analytics (AI & ML)
  • Produktdemos

Lesen Sie mehr und erkunden Sie Anwendungsfälle.

Ein synthetischer Datenzwilling ist eine algorithmusgenerierte Nachbildung eines realen Datensatzes und/oder einer Datenbank. Mit einem Synthetic Data Twin zielt Syntho darauf ab, einen Originaldatensatz oder eine Datenbank so nah wie möglich an den Originaldaten nachzuahmen, um eine realistische Darstellung des Originals zu erstellen. Mit einem synthetischen Datenzwilling streben wir eine überlegene synthetische Datenqualität im Vergleich zu den Originaldaten an. Wir tun dies mit unserer synthetischen Datensoftware, die modernste KI-Modelle verwendet. Diese KI-Modelle generieren völlig neue Datenpunkte und modellieren sie so, dass wir die Eigenschaften, Beziehungen und statistischen Muster der Originaldaten so weit erhalten, dass Sie sie verwenden können, als ob es Originaldaten wären.

Dies kann für eine Vielzahl von Zwecken verwendet werden, z. B. zum Testen und Trainieren von Modellen für maschinelles Lernen, zum Simulieren von Szenarien für Forschung und Entwicklung und zum Erstellen virtueller Umgebungen für Schulung und Ausbildung. Synthetische Datenzwillinge können verwendet werden, um realistische und repräsentative Daten zu erstellen, die anstelle von Daten aus der realen Welt verwendet werden können, wenn sie nicht verfügbar sind oder wenn die Verwendung der Daten aus der realen Welt aufgrund strenger Datenschutzbestimmungen unpraktisch oder unethisch wäre.

Lesen Sie mehr

Ja, machen wir. Wir bieten verschiedene wertschöpfende Optimierungs- und Erweiterungsfunktionen für synthetische Daten, einschließlich Mocker, um Ihre Daten auf die nächste Stufe zu heben.

Lesen Sie mehr

Scheindaten und KI-generierte synthetische Daten sind beides Arten von synthetischen Daten, aber sie werden auf unterschiedliche Weise generiert und dienen unterschiedlichen Zwecken.

Scheindaten sind eine Art synthetischer Daten, die manuell erstellt und häufig für Test- und Entwicklungszwecke verwendet werden. Es wird normalerweise verwendet, um das Verhalten realer Daten in einer kontrollierten Umgebung zu simulieren, und wird häufig verwendet, um die Funktionalität eines Systems oder einer Anwendung zu testen. Es ist oft einfach, leicht zu generieren und erfordert keine komplexen Modelle oder Algorithmen. Häufig spricht man auch von Scheindaten als „Dummy-Daten“ oder „Fake-Daten“.

KI-generierte synthetische Daten hingegen werden mithilfe von Techniken der künstlichen Intelligenz wie maschinellem Lernen oder generativen Modellen generiert. Es wird verwendet, um realistische und repräsentative Daten zu erstellen, die anstelle von Daten aus der realen Welt verwendet werden können, wenn die Verwendung der Daten aus der realen Welt aufgrund strenger Datenschutzbestimmungen unpraktisch oder unethisch wäre. Es ist oft komplexer und erfordert mehr Rechenressourcen als manuelle Scheindaten. Dadurch ist es viel realistischer und ahmt die Originaldaten so nah wie möglich nach.

Zusammenfassend lässt sich sagen, dass Scheindaten manuell erstellt und in der Regel für Tests und Entwicklung verwendet werden, während KI-generierte synthetische Daten mithilfe von Techniken der künstlichen Intelligenz erstellt und zur Erstellung repräsentativer und realistischer Daten verwendet werden.

Mehr Fragen? Fragen Sie unsere Experten

Datenqualität

Zu garantieren, dass synthetische Daten die gleiche Datenqualität wie die Originaldaten aufweisen, kann eine Herausforderung sein und hängt oft vom spezifischen Anwendungsfall und den Methoden ab, die zur Generierung der synthetischen Daten verwendet werden. Einige Methoden zum Generieren synthetischer Daten, wie z. B. generative Modelle, können Daten erzeugen, die den Originaldaten sehr ähnlich sind. Schlüsselfrage: Wie kann man das demonstrieren?

Es gibt einige Möglichkeiten, die Qualität synthetischer Daten sicherzustellen:

  • Datenqualitätskennzahlen über unseren Datenqualitätsbericht: Eine Möglichkeit sicherzustellen, dass synthetische Daten die gleiche Datenqualität wie die Originaldaten aufweisen, besteht darin, Datenqualitätsmetriken zu verwenden, um die synthetischen Daten mit den Originaldaten zu vergleichen. Diese Metriken können verwendet werden, um Dinge wie Ähnlichkeit, Genauigkeit und Vollständigkeit der Daten zu messen. Die Syntho-Software enthielt einen Datenqualitätsbericht mit verschiedenen Datenqualitätsmetriken.
  • Externe Evaluation: Da die Datenqualität synthetischer Daten im Vergleich zu Originaldaten entscheidend ist, haben wir kürzlich eine Bewertung mit den Datenexperten von SAS (Marktführer für Analytik) durchgeführt, um die Datenqualität synthetischer Daten von Syntho im Vergleich zu den echten Daten zu demonstrieren. Edwin van Unen, Analytikexperte von SAS, wertete generierte synthetische Datensätze von Syntho über verschiedene analytische (KI) Bewertungen aus und teilte die Ergebnisse mit. Sehen Sie sich hier eine kurze Zusammenfassung dieses Videos an.
  • Selbst testen und auswerten: Synthetische Daten können getestet und bewertet werden, indem sie mit realen Daten verglichen werden oder indem sie zum Trainieren von Modellen für maschinelles Lernen und zum Vergleichen ihrer Leistung mit Modellen verwendet werden, die mit realen Daten trainiert wurden. Warum testen Sie die Datenqualität synthetischer Daten nicht selbst? Fragen Sie hier unsere Experten nach den Möglichkeiten dazu

Es ist wichtig zu beachten, dass synthetische Daten nie 100 % ähnlich zu den Originaldaten sein können, aber sie können nahe genug sein, um für einen bestimmten Anwendungsfall nützlich zu sein. Bei diesem speziellen Anwendungsfall kann es sich sogar um fortgeschrittene Analysen oder Trainingsmodelle für maschinelles Lernen handeln.

Ja, so ist es. Die synthetischen Daten enthalten sogar Muster, von denen Sie nicht wussten, dass sie in den Originaldaten vorhanden sind.

Aber nehmen Sie nicht nur unser Wort. Die Analytics-Experten von SAS (Global Market Leader in Analytics) haben unsere synthetischen Daten einer (KI-)Bewertung unterzogen und mit den Originaldaten verglichen. Neugierig? Beobachten Sie die ganze Veranstaltung hier oder schau dir die Kurzversion an Datenqualität hier.

Ja, machen wir. Unsere Plattform ist optimiert für Datenbanken und damit die Wahrung der referenziellen Integrität zwischen Datensätzen in der Datenbank.

Neugierig, mehr darüber zu erfahren?

Fragen Sie unsere Experten direkt.

Datenschutz

Nein, tun wir nicht. Wir können die Syntho Engine einfach vor Ort oder in Ihrer privaten Cloud über Docker bereitstellen.

Nein. Wir haben unsere Plattform so optimiert, dass sie problemlos in der vertrauten Umgebung des Kunden eingesetzt werden kann. Dadurch wird sichergestellt, dass Daten niemals die vertrauenswürdige Umgebung des Kunden verlassen. Einsatzmöglichkeiten für die vertrauenswürdige Umgebung des Kunden sind „On-Premise“ und in der „Cloud-Umgebung des Kunden (Private Cloud)“.

Optional: Syntho unterstützt eine Version, die in der „Syntho-Cloud“ gehostet wird.

Nein. Die Syntho Engine ist eine Self-Service-Plattform. Dadurch ist die Generierung synthetischer Daten mit der Syntho Engine so möglich, dass im end-to-end verarbeiten, ist Syntho niemals in der Lage, Daten zu sehen und niemals zu verarbeiten.

Ja, wir tun dies über unseren QA-Bericht.

 

Bei der Synthese eines Datensatzes ist es wichtig zu zeigen, dass man Personen nicht wieder identifizieren kann. In Dieses Video, führt Marijn Datenschutzmaßnahmen ein, die in unserem Qualitätsbericht enthalten sind, um dies zu demonstrieren.

Der QA-Bericht von Synthos enthält drei Industriestandard Metriken zur Bewertung des Datenschutzes. Die Idee hinter jeder dieser Metriken ist wie folgt:

  • Synthetische Daten (S) soll „so nah wie möglich“, aber „nicht zu nah“ an den Zieldaten liegen (T).
  • Zufällig ausgewählte Holdout-Daten (H) bestimmt den Maßstab für „zu nah“.
  • A perfekte Lösung generiert neue synthetische Daten, die sich genau wie die Originaldaten verhalten, aber noch nie zuvor gesehen wurden (= H).

Einer der Anwendungsfälle, der von der niederländischen Datenschutzbehörde besonders hervorgehoben wird, ist die Verwendung synthetischer Daten als Testdaten.

Mehr finden Sie in diesem Artikel.

Syntho-Engine

Die Syntho Engine wird in einem Docker-Container geliefert und kann einfach bereitgestellt und in die Umgebung Ihrer Wahl eingesteckt werden.

Mögliche Bereitstellungsoptionen umfassen:

  • Vor-Ort
  • Beliebige (private) Cloud
  • Jede andere Umgebung

Lesen Sie weiter.

Syntho ermöglicht Ihnen die einfache Verbindung mit Ihren Datenbanken, Anwendungen, Datenpipelines oder Dateisystemen. 

Wir unterstützen verschiedene integrierte Konnektoren, sodass Sie eine Verbindung mit der Quellumgebung (wo die Originaldaten gespeichert sind) und der Zielumgebung (wo Sie Ihre synthetischen Daten schreiben möchten) herstellen können end-to-end integrierter Ansatz.

Verbindungsfunktionen, die wir unterstützen:

  • Plug-and-Play mit Docker
  • 20+ Datenbankkonnektoren
  • 20+ Dateisystem-Konnektoren

Lesen Sie weiter.

Die Generierungszeit hängt natürlich von der Größe der Datenbank ab. Im Durchschnitt wird eine Tabelle mit weniger als 1 Million Datensätzen in weniger als 5 Minuten synthetisiert.

Die maschinellen Lernalgorithmen von Syntho können die Funktionen mit mehr verfügbaren Entitätsdatensätzen besser verallgemeinern, was das Datenschutzrisiko verringert. Es wird ein Mindestverhältnis von Spalte zu Zeile von 1:500 empfohlen. Wenn Ihre Quelltabelle beispielsweise 6 Spalten hat, sollte sie mindestens 3000 Zeilen enthalten.

Gar nicht. Obwohl es einige Anstrengungen erfordern kann, die Vorteile, Funktionsweisen und Anwendungsfälle synthetischer Daten vollständig zu verstehen, ist der Prozess der Synthese sehr einfach und jeder mit grundlegenden Computerkenntnissen kann dies tun. Weitere Informationen zum Syntheseprozess finden Sie unter diese Seite or DEMOVERSION ANFORDERN.

Die Syntho Engine funktioniert am besten mit strukturierten, tabellarischen Daten (alles, was Zeilen und Spalten enthält). Innerhalb dieser Strukturen unterstützen wir die folgenden Datentypen:

  • Strukturiert in Tabellen formatierte Daten (kategorial, numerisch usw.)
  • Direkte Kennungen und PII
  • Große Datensätze und Datenbanken
  • Geografische Standortdaten (wie GPS)
  • Zeitreihendaten
  • Datenbanken mit mehreren Tabellen (mit referenzieller Integrität)
  • Textdaten öffnen

 

Komplexe Datenunterstützung
Neben allen regulären Arten tabellarischer Daten unterstützt die Syntho Engine komplexe Datentypen und komplexe Datenstrukturen.

  • Zeitfolgen
  • Datenbanken mit mehreren Tabellen
  • Text öffnen

Lesen Sie weiter.

Nein, wir haben unsere Plattform optimiert, um die Rechenanforderungen zu minimieren (z. B. keine GPU erforderlich), ohne Kompromisse bei der Datengenauigkeit einzugehen. Außerdem unterstützen wir die automatische Skalierung, sodass man riesige Datenbanken synthetisieren kann.

Ja. Syntho-Software ist für Datenbanken optimiert, die mehrere Tabellen enthalten.

Dabei erkennt Syntho automatisch die Datentypen, Schemas und Formate, um die Datengenauigkeit zu maximieren. Für Datenbanken mit mehreren Tabellen unterstützen wir die automatische Inferenz und Synthese von Tabellenbeziehungen, um die referenzielle Integrität zu wahren.

Gruppe lächelnder Menschen

Daten sind synthetisch, aber unser Team ist real!

Kontakt aufnehmen und einer unserer Experten wird sich blitzschnell mit Ihnen in Verbindung setzen, um den Wert synthetischer Daten zu erkunden!