FAQ

Heefeg gestallte Froen iwwer synthetesch Daten

Verständlech! Glécklecherweis hu mir d'Äntwerten a mir sinn hei fir ze hëllefen. Préift eis dacks gestallte Froen.

Maacht w.e.g. eng Fro hei ënnen op a klickt op d'Links fir méi Informatioun ze fannen. Hutt Dir eng méi komplizéiert Fro déi net hei uginn ass? Frot eis Experten direkt!

Déi meescht gefrot Froen

Synthetesch Donnéeën bezitt sech op Donnéeën déi kënschtlech generéiert ginn anstatt aus real-Welt Quellen gesammelt ginn. Am Allgemengen, wärend originell Donnéeën an all Ären Interaktioune mat Persounen (Clienten, Patienten, etc.) gesammelt ginn an iwwer all Är intern Prozesser, synthetesch Daten ginn duerch e Computeralgorithmus generéiert.

Synthetesch Daten kënnen och benotzt ginn fir Modeller an engem kontrolléierten Ëmfeld ze testen an ze evaluéieren, oder fir sensibel Informatioun ze schützen andeems Dir Daten generéiert déi ähnlech wéi real-Weltdaten sinn, awer keng sensibel Informatioun enthalen. Synthetesch Donnéeën ginn dacks als Alternativ fir Privatsphärsensibel Daten benotzt a kënnen als Testdaten benotzt ginn, fir Analysen oder fir Maschinnléieren ze trainéieren.

méi liesen

Garantéieren datt synthetesch Donnéeën déiselwecht Datequalitéit hält wéi déi originell Donnéeën kann Erausfuerderung sinn, an hänkt dacks vum spezifesche Benotzungsfall an de Methoden of, déi benotzt gi fir déi synthetesch Donnéeën ze generéieren. E puer Methode fir synthetesch Donnéeën ze generéieren, sou wéi generativ Modeller, kënnen Donnéeën produzéieren déi héich ähnlech wéi déi originell Donnéeën sinn. Schlëssel Fro: Wéi dëst ze demonstréieren?

Et ginn e puer Weeër fir d'Qualitéit vu syntheteschen Daten ze garantéieren:

  • Datequalitéit Metriken iwwer eisen Datequalitéitsbericht: Ee Wee fir sécherzestellen datt synthetesch Donnéeën déiselwecht Datequalitéit wéi déi ursprénglech Donnéeën halen ass d'Datequalitéitsmetriken ze benotzen fir déi synthetesch Donnéeën mat den originelle Donnéeën ze vergläichen. Dës Metrike kënne benotzt ginn fir Saache wéi Ähnlechkeet, Genauegkeet a Vollständegkeet vun den Donnéeën ze moossen. Syntho Software enthält en Datequalitéitsbericht mat verschiddenen Datequalitéitsmetrizen.
  • Extern Evaluatioun: Well d'Datequalitéit vu syntheteschen Donnéeën am Verglach mat originelle Donnéeën Schlëssel ass, hu mir viru kuerzem eng Bewäertung mat den Datenexperten vu SAS (Maartleader an der Analyse) gemaach fir d'Datequalitéit vun syntheteschen Donnéeën vum Syntho am Verglach mat den realen Donnéeën ze demonstréieren. Den Edwin van Unen, Analytiksexpert vu SAS, huet generéiert synthetesch Datesätz vu Syntho iwwer verschidden Analysen (AI) Bewäertungen evaluéiert an d'Resultater gedeelt. Kuckt hei e kuerze Recap vun deem Video.
  • Test an Evaluatioun vun Iech selwer: synthetesch Donnéeën kënnen getest an evaluéiert ginn andeems se se mat real-Weltdaten vergläicht oder se benotzt fir Maschinnléiermodeller ze trainéieren an hir Leeschtung mat Modeller ze vergläichen, déi op real-Weltdaten trainéiert sinn. Firwat net d'Datequalitéit vu syntheteschen Date selwer testen? Frot eis Experten fir d'Méiglechkeeten vun dëser hei

Et ass wichteg ze bemierken datt synthetesch Donnéeën ni garantéieren 100% ähnlech wéi déi originell Donnéeën ze sinn, awer et kann no genuch sinn fir nëtzlech fir e spezifesche Benotzungsfall ze sinn. Dëse spezifesche Benotzungsfall ka souguer fortgeschratt Analysen oder Trainingsmaschinn Léieren Modeller sinn.

Klassesch 'Anonymiséierung' ass net ëmmer déi bescht Léisung, well:

  1. Privatsphär Risiko - Dir wäert ëmmer hunn
    engem Privatsphär Risiko. Demande déi
    klassesch Anonymiséierungstechniken
    mécht et nëmme méi schwéier, awer net
    onméiglech Persounen z'identifizéieren.
  2. Daten zerstéieren - der méi Dir
    anonymize, der besser Dir schützt
    Är Privatsphär, mee der méi Dir
    zerstéieren Är Donnéeën. Dëst ass net wat
    Dir wëllt fir Analyse, well
    zerstéiert daten wäert Resultat am schlecht
    Abléck.
  3. Zäitopwendeg - et ass eng Léisung
    dat hëlt vill Zäit, well
    déi Techniken funktionnéieren anescht
    pro Dataset a pro Datentyp.

Synthetesch Donnéeën zielen all dës Mängel ze léisen. Den Ënnerscheed ass sou markant datt mir e Video doriwwer gemaach hunn. Kuckt et hei.

Oft gestallten Froen

Synthetesch Donnéeën

Allgemeng benotzen déi meescht vun eise Clienten synthetesch Daten fir:

  • Software Testen & Entwécklung
  • Synthetesch Daten fir Analyse, Modellentwécklung a fortgeschratt Analyse (AI & ML)
  • Produkt Demos

Liest méi an entdeckt Benotzungsfäll.

E syntheteschen Date-Zwilling ass eng Algorithmus-generéiert Replika vun enger realer-Welt-Datasette an / oder Datebank. Mat engem Synthetic Data Twin zielt de Syntho eng originell Dataset oder Datebank sou no wéi méiglech un den originelle Daten ze mimikéieren fir eng realistesch Duerstellung vum Original ze kreéieren. Mat engem syntheteschen Date-Zwilling, ziele mir no super syntheteschen Datequalitéit am Verglach mat den originelle Daten. Mir maachen dat mat eiser synthetescher Datesoftware déi modernste AI Modeller benotzt. Dës AI Modeller generéieren komplett nei Datepunkte a modelléiere se sou datt mir d'Charakteristiken, Bezéiungen a statistesch Mustere vun den ursprénglechen Donnéeën esou bewahren datt Dir se benotze kënnt wéi wann et originell Donnéeën ass.

Dëst kann fir eng Vielfalt vun Zwecker benotzt ginn, wéi Testen an Training Maschinn Léieren Modeller, Simulatioun Szenarie fir Fuerschung an Entwécklung, a schafen virtuell Ëmfeld fir Training an Ausbildung. Synthetesch Donnéeën Zwillinge kënne benotzt ginn fir realistesch a representativ Donnéeën ze kreéieren déi an der Plaz vun real-Weltdaten benotzt kënne ginn wann se net verfügbar sinn oder wann d'Real-Weltdaten benotzt wieren onpraktesch oder onethesch wéinst strenge Dateschutzreglementer.

Liest méi.

Jo, mir maachen. Mir bidden verschidde Wäert-dobäizemaachen syntheteschen Date Optimisatioun an Augmentatioun Fonctiounen, dorënner Spott, fir Är Donnéeën op den nächsten Niveau ze huelen.

Liest méi.

Spottdaten an AI generéiert synthetesch Daten si béid Aarte vu syntheteschen Daten, awer si ginn op verschidde Weeër generéiert an déngen verschidden Zwecker.

Mock Daten sinn eng Aart vu syntheteschen Daten déi manuell erstallt ginn an dacks fir Testen an Entwécklungszwecker benotzt ginn. Et gëtt typesch benotzt fir d'Behuele vun real-Welt Daten an engem kontrolléierten Ëmfeld ze simuléieren a gëtt dacks benotzt fir d'Funktionalitéit vun engem System oder Applikatioun ze testen. Et ass dacks einfach, einfach ze generéieren an erfuerdert keng komplex Modeller oder Algorithmen. Dacks verweist een och op Spottdaten als "Dummy-Daten" oder "Fake-Daten".

AI-generéiert synthetesch Donnéeën, op der anerer Säit, ginn generéiert mat kënschtlechen Intelligenz Techniken, sou wéi Maschinnléieren oder generativ Modeller. Et gëtt benotzt fir realistesch a representativ Donnéeën ze kreéieren déi an der Plaz vun real-Weltdaten benotzt kënne ginn wann d'real-Weltdaten benotzt wieren onpraktesch oder onethesch wéinst strenge Privatsphärreglementer. Et ass dacks méi komplex a erfuerdert méi computational Ressourcen wéi manuell Spottdaten. Als Resultat ass et vill méi realistesch a mimikéiert déi originell Donnéeën sou no wéi méiglech.

Zesummegefaasst, Spottdaten ginn manuell erstallt a ginn typesch fir Testen an Entwécklung benotzt, während AI-generéiert synthetesch Donnéeën erstallt ginn mat kënschtlechen Intelligenz Techniken a gi benotzt fir representativ a realistesch Donnéeën ze kreéieren.

Méi Froen? Frot eis Experten

Datenqualitéit

Garantéieren datt synthetesch Donnéeën déiselwecht Datequalitéit hält wéi déi originell Donnéeën kann Erausfuerderung sinn, an hänkt dacks vum spezifesche Benotzungsfall an de Methoden of, déi benotzt gi fir déi synthetesch Donnéeën ze generéieren. E puer Methode fir synthetesch Donnéeën ze generéieren, sou wéi generativ Modeller, kënnen Donnéeën produzéieren déi héich ähnlech wéi déi originell Donnéeën sinn. Schlëssel Fro: Wéi dëst ze demonstréieren?

Et ginn e puer Weeër fir d'Qualitéit vu syntheteschen Daten ze garantéieren:

  • Datequalitéit Metriken iwwer eisen Datequalitéitsbericht: Ee Wee fir sécherzestellen datt synthetesch Donnéeën déiselwecht Datequalitéit wéi déi ursprénglech Donnéeën halen ass d'Datequalitéitsmetriken ze benotzen fir déi synthetesch Donnéeën mat den originelle Donnéeën ze vergläichen. Dës Metrike kënne benotzt ginn fir Saache wéi Ähnlechkeet, Genauegkeet a Vollständegkeet vun den Donnéeën ze moossen. Syntho Software enthält en Datequalitéitsbericht mat verschiddenen Datequalitéitsmetrizen.
  • Extern Evaluatioun: Well d'Datequalitéit vu syntheteschen Donnéeën am Verglach mat originelle Donnéeën Schlëssel ass, hu mir viru kuerzem eng Bewäertung mat den Datenexperten vu SAS (Maartleader an der Analyse) gemaach fir d'Datequalitéit vun syntheteschen Donnéeën vum Syntho am Verglach mat den realen Donnéeën ze demonstréieren. Den Edwin van Unen, Analytiksexpert vu SAS, huet generéiert synthetesch Datesätz vu Syntho iwwer verschidden Analysen (AI) Bewäertungen evaluéiert an d'Resultater gedeelt. Kuckt hei e kuerze Recap vun deem Video.
  • Test an Evaluatioun vun Iech selwer: synthetesch Donnéeën kënnen getest an evaluéiert ginn andeems se se mat real-Weltdaten vergläicht oder se benotzt fir Maschinnléiermodeller ze trainéieren an hir Leeschtung mat Modeller ze vergläichen, déi op real-Weltdaten trainéiert sinn. Firwat net d'Datequalitéit vu syntheteschen Date selwer testen? Frot eis Experten fir d'Méiglechkeeten vun dëser hei

Et ass wichteg ze bemierken datt synthetesch Donnéeën ni garantéieren 100% ähnlech wéi déi originell Donnéeën ze sinn, awer et kann no genuch sinn fir nëtzlech fir e spezifesche Benotzungsfall ze sinn. Dëse spezifesche Benotzungsfall ka souguer fortgeschratt Analysen oder Trainingsmaschinn Léieren Modeller sinn.

Jo et ass. Déi synthetesch Donnéeën hält souguer Mustere vun deenen Dir net wousst datt se an den originelle Donnéeën präsent waren.

Awer net nëmmen eist Wuert huelen. D'Analytiksexperten vu SAS (globale Maart Leader an der Analyse) hunn eng (AI) Bewäertung vun eise syntheteschen Donnéeën gemaach an et mat den originelle Daten verglach. Virwëtzeg? Kuckt de ganzt Event hei oder kuckt déi kuerz Versioun iwwer daten Qualitéit hei.

Jo, mir maachen. Eis Plattform ass fir Datenbanken optimiséiert an doduerch d'Erhaalung vun der referenzieller Integritéit tëscht Datensätz an der Datgabase.

Virwëtzeg méi iwwer dëst gewuer ze ginn?

Frot eis Experten direkt.

Privatsphär

Nee mir maachen net. Mir kënnen de Syntho Engine einfach on-premise oder an Ärer privater Cloud iwwer Docker ofsetzen.

Nee Mir hunn eis Plattform esou optimiséiert datt se einfach am vertrauenswürdege Ëmfeld vum Client ofgesat ka ginn. Dëst garantéiert datt d'Donnéeën ni dat vertrauenswürdege Ëmfeld vum Client verloossen. Deploymentoptiounen fir de vertrauenswürdege Ëmfeld vum Client sinn "on-premise" an am "Cloud-Ëmfeld vum Client (private Cloud)".

Optional: Syntho ënnerstëtzt eng Versioun déi an der "Syntho Cloud" gehost gëtt.

Nee De Syntho Engine ass eng Selbstserviceplattform. Als Resultat ass synthetesch Donnéeën mat der Syntho Engine ze generéieren méiglech op eng Manéier déi am end-to-end Prozess, Syntho ass ni fäeg ze gesinn an ni erfuerderlech Daten ze veraarbecht.

Jo, mir maachen dat iwwer eise QA Bericht.

 

Wann Dir en Dataset synthetiséiert, ass et essentiell ze weisen datt een net fäeg ass Individuen nei z'identifizéieren. An dëse Video, Marijn féiert Privatsphär Moossnamen déi an eisem Qualitéitsbericht sinn fir dëst ze demonstréieren.

Dem Syntho säi QA Bericht enthält dräi Industrie-Standard Metriken fir Dateschutz ze bewäerten. D'Iddi hannert jiddereng vun dësen Metriken ass wéi follegt:

  • Synthetesch Daten (S) soll "sou no wéi méiglech" sinn, awer "net ze no" un den Zildaten (T).
  • Zoufälleg ausgewielte Holdoutdaten (H) bestëmmt de Benchmark fir "ze no".
  • A perfekt Léisung generéiert nei synthetesch Donnéeën déi sech genee wéi déi ursprénglech Donnéeën behuelen, awer nach net virdru gesi goufen (= H).

Ee vun de Benotzungsfäll, déi speziell vun der hollännescher Dateschutzautoritéit beliicht gëtt, ass d'Benotzung vun syntheteschen Daten als Testdaten.

Méi kann an dësem Artikel fonnt ginn.

Syntho Engine

De Syntho Engine gëtt an engem Docker Container geschéckt a kann einfach ofgebaut ginn an an Ärem Ëmfeld vun der Wiel gesteckt ginn.

Méiglech Deploymentoptiounen enthalen:

  • On-premise
  • All (privat) Wollek
  • All aner Ëmwelt

méi liesen.

Syntho erlaabt Iech einfach mat Ären Datenbanken, Uwendungen, Datenpipelines oder Dateiesystemer ze verbannen. 

Mir ënnerstëtzen verschidden integréiert Connectoren, sou datt Dir mat der Quell-Ëmfeld (wou déi ursprénglech Donnéeën gespäichert sinn) an der Destinatiounsëmfeld (wou Dir Är synthetesch Donnéeën schreiwen wëllt) verbannen fir eng end-to-end integréiert Approche.

Verbindungsfeatures déi mir ënnerstëtzen:

  • Plug-and-play mat Docker
  • 20+ Datebank Connectoren
  • 20+ Dateiesystem Connectoren

méi liesen.

Natierlech hänkt d'Generatiounszäit vun der Gréisst vun der Datebank of. Am Duerchschnëtt gëtt en Dësch mat manner wéi 1 Millioun Opzeechnungen a manner wéi 5 Minutten synthetiséiert.

Dem Syntho seng Maschinnléiere Algorithmen kënnen d'Features besser generaliséieren mat méi Entitéitsrecords verfügbar, wat de Privatsphärrisiko reduzéiert. E Minimum Kolonn-zu-Zeil Verhältnis vun 1:500 ass recommandéiert. Zum Beispill, wann Är Quelltabel 6 Sailen huet, sollt et op d'mannst 3000 Reihen enthalen.

Guer net. Och wann et e bëssen Effort brauch fir d'Virdeeler, d'Aarbechten an d'Benotzungsfäll vu syntheteschen Donnéeën komplett ze verstoen, ass de Synthetiséierungsprozess ganz einfach a jidderee mat Basis Computerkenntnisser kann et maachen. Fir méi Informatioun iwwer de Synthetiséierungsprozess, kuckt weg dës Säit or eng Demo ufroen.

De Syntho Engine funktionnéiert am Beschten op strukturéierten, tabulären Donnéeën (alles wat Reihen a Kolonnen enthält). Bannent dëse Strukturen ënnerstëtzen mir déi folgend Datentypen:

  • Strukturéiert Daten, déi an Tabellen formatéiert sinn (kategoresch, numeresch, asw.)
  • Direkt Identifizéierer an PII
  • Grouss Datesätz an Datenbanken
  • Geographesch Positiounsdaten (wéi GPS)
  • Zäit Serie Daten
  • Multi-Table Datenbanken (mat referenziell Integritéit)
  • Open Text Daten

 

Komplex Daten Ënnerstëtzung
Niewent all regulären Typen vun Tabulardaten ënnerstëtzt de Syntho Engine komplex Datentypen a komplexen Datestrukturen.

  • Zäit Serie
  • Multi-Table Datenbanken
  • Text opmaachen

méi liesen.

Nee, mir hunn eis Plattform optimiséiert fir computational Ufuerderungen ze minimiséieren (zB keng GPU erfuerderlech), ouni Kompromëss op d'Datengenauegkeet. Ausserdeem ënnerstëtzen mir automatesch Skaléieren, sou datt een enorm Datenbanken synthetiséiert.

Jo. Syntho Software ass optimiséiert fir Datenbanken déi verschidde Dëscher enthalen.

Wat dat ugeet, erkennt Syntho automatesch d'Datentypen, Schemaen a Formater fir d'Datengenauegkeet ze maximéieren. Fir Multi-Table Datebank, ënnerstëtzen mir automatesch Dësch Relatioun Inferenz a Synthese fir referential Integritéit ze erhaalen.

Grupp vu Leit laachen

Daten sinn synthetesch, awer eis Team ass real!

Kontakt Syntho an ee vun eisen Experten wäert Iech mat der Liichtgeschwindegkeet kontaktéieren fir de Wäert vun syntheteschen Daten ze entdecken!