FAQ

Gereelde vrae oor sintetiese data

Verstaanbaar! Gelukkig het ons die antwoorde en ons is hier om te help. Kyk na ons gereelde vrae.

Maak asseblief 'n vraag hieronder oop en klik op die skakels om meer inligting te kry. Het u 'n meer ingewikkelde vraag wat nie hier gestel word nie? Vra ons kundiges direk!

Die mees gevraagde vrae

Sintetiese data verwys na data wat kunsmatig gegenereer word eerder as wat uit werklike bronne versamel word. Oor die algemeen, terwyl oorspronklike data ingesamel word in al jou interaksies met persone (kliënte, pasiënte, ens.) en via al jou interne prosesse, word sintetiese data deur 'n rekenaaralgoritme gegenereer.

Sintetiese data kan ook gebruik word om modelle in 'n beheerde omgewing te toets en te evalueer, of om sensitiewe inligting te beskerm deur data te genereer wat soortgelyk is aan werklike data, maar geen sensitiewe inligting bevat nie. Sintetiese data word dikwels as alternatief vir privaatheidsensitiewe data gebruik en kan gebruik word as toetsdata, vir ontleding of om masjienleer op te lei.

Lees meer

Om te waarborg dat sintetiese data dieselfde datakwaliteit as die oorspronklike data hou, kan uitdagend wees, en hang dikwels af van die spesifieke gebruiksgeval en die metodes wat gebruik word om die sintetiese data te genereer. Sommige metodes om sintetiese data te genereer, soos generatiewe modelle, kan data produseer wat baie soortgelyk is aan die oorspronklike data. Sleutelvraag: hoe om dit te demonstreer?

Daar is 'n paar maniere om die kwaliteit van sintetiese data te verseker:

  • Datakwaliteitmaatstawwe via ons datakwaliteitverslag: Een manier om te verseker dat sintetiese data dieselfde datakwaliteit as die oorspronklike data hou, is om datakwaliteitmaatstawwe te gebruik om die sintetiese data met die oorspronklike data te vergelyk. Hierdie maatstawwe kan gebruik word om dinge soos ooreenkoms, akkuraatheid en volledigheid van die data te meet. Syntho-sagteware het 'n datakwaliteitverslag met verskeie datakwaliteitmaatstawwe ingesluit.
  • Eksterne evaluering: aangesien die datakwaliteit van sintetiese data in vergelyking met oorspronklike data die sleutel is, het ons onlangs 'n assessering met die datakenners van SAS (markleier in analise) gedoen om die datakwaliteit van sintetiese data deur Syntho in vergelyking met die werklike data te demonstreer. Edwin van Unen, ontledingskenner van SAS, het gegenereerde sintetiese datastelle van Syntho geëvalueer deur middel van verskeie analitiese (KI) assesserings en die uitkomste gedeel. Kyk hier na 'n kort opsomming van daardie video.
  • Toets en evalueer deur jouself: sintetiese data kan getoets en geëvalueer word deur dit met werklike data te vergelyk of deur dit te gebruik om masjienleermodelle op te lei en hul prestasie te vergelyk met modelle wat op werklike data opgelei is. Waarom nie die datakwaliteit van sintetiese data self toets nie? Vra ons kenners vir die moontlikhede hiervan hier

Dit is belangrik om daarop te let dat sintetiese data nooit kan waarborg om 100% soortgelyk aan die oorspronklike data te wees nie, maar dit kan naby genoeg wees om nuttig te wees vir 'n spesifieke gebruiksgeval. Hierdie spesifieke gebruiksgeval kan selfs gevorderde analise of opleidingsmasjienleermodelle wees.

Klassieke 'anonimisering' is nie altyd die beste oplossing nie, want:

  1. Privaatheidsrisiko – jy sal altyd hê
    'n privaatheidsrisiko. Die toepassing daarvan
    klassieke anonimiseringstegnieke
    maak dit net moeiliker, maar nie
    onmoontlik om individue te identifiseer.
  2. Vernietig data – hoe meer jy
    anonimiseer, hoe beter beskerm jy
    jou privaatheid, maar hoe meer jy
    vernietig jou data. Dit is nie wat nie
    jy wil vir ontleding, want
    vernietigde data sal lei tot slegte
    insigte.
  3. Tydrowend – dit is 'n oplossing
    dit neem baie tyd, want
    daardie tegnieke werk anders
    per datastel en per datatipe.

Sintetiese data het ten doel om al hierdie tekortkominge op te los. Die verskil is so treffend dat ons 'n video daaroor gemaak het. Kyk dit hier.

Algemene vrae

Sintetiese data

Oor die algemeen gebruik die meeste van ons kliënte sintetiese data vir:

  • Sagteware toets en ontwikkeling
  • Sintetiese data vir analise, modelontwikkeling en gevorderde analise (AI & ML)
  • Produk demo's

Lees meer en verken gebruiksgevalle.

'n Sintetiese data-tweeling is 'n algoritme-gegenereerde replika van 'n werklike datastel en/of databasis. Met 'n Sintetiese Data-tweeling poog Syntho om 'n oorspronklike datastel of databasis so na as moontlik aan die oorspronklike data na te boots om 'n realistiese voorstelling van die oorspronklike te skep. Met 'n sintetiese data-tweeling streef ons na voortreflike sintetiese datakwaliteit in vergelyking met die oorspronklike data. Ons doen dit met ons sintetiese data-sagteware wat die nuutste KI-modelle gebruik. Daardie KI-modelle genereer heeltemal nuwe datapunte en modelleer dit op so 'n manier dat ons die eienskappe, verwantskappe en statistiese patrone van die oorspronklike data in so 'n mate bewaar dat jy dit kan gebruik asof dit oorspronklike data is.

Dit kan vir 'n verskeidenheid doeleindes gebruik word, soos om masjienleermodelle te toets en op te lei, scenario's vir navorsing en ontwikkeling te simuleer, en virtuele omgewings vir opleiding en onderwys te skep. Sintetiese data-tweelinge kan gebruik word om realistiese en verteenwoordigende data te skep wat gebruik kan word in die plek van werklike data wanneer dit nie beskikbaar is nie of wanneer die gebruik van die werklike wêreld data onprakties of oneties sou wees as gevolg van streng data privaatheid regulasies.

Lees meer.

Ja ons doen. Ons bied verskeie waardetoevoegende sintetiese data-optimalisering en -aanvullingsfunksies, insluitend spotters, om jou data na die volgende vlak te neem.

Lees meer.

Spotdata en KI-gegenereerde sintetiese data is albei tipes sintetiese data, maar hulle word op verskillende maniere gegenereer en dien verskillende doeleindes.

Spotdata is 'n tipe sintetiese data wat met die hand geskep word en word dikwels vir toets- en ontwikkelingsdoeleindes gebruik. Dit word tipies gebruik om die gedrag van werklike data in 'n beheerde omgewing te simuleer en word dikwels gebruik om die funksionaliteit van 'n stelsel of toepassing te toets. Dit is dikwels eenvoudig, maklik om te genereer en vereis nie komplekse modelle of algoritmes nie. Dikwels verwys 'n mens ook na spotdata as "fopdata" of "vals data".

KI-gegenereerde sintetiese data, aan die ander kant, word gegenereer met behulp van kunsmatige intelligensie tegnieke, soos masjienleer of generatiewe modelle. Dit word gebruik om realistiese en verteenwoordigende data te skep wat in die plek van werklike data gebruik kan word wanneer die gebruik van die werklike wêreld data onprakties of oneties sou wees as gevolg van streng privaatheidsregulasies. Dit is dikwels meer kompleks en vereis meer rekenaarhulpbronne as handmatige skyndata. As gevolg hiervan is dit baie meer realisties en boots die oorspronklike data so na as moontlik na.

Ter opsomming, skyndata word met die hand geskep en word tipies gebruik vir toetsing en ontwikkeling, terwyl KI-gegenereerde sintetiese data geskep word met behulp van kunsmatige intelligensie tegnieke en gebruik word om verteenwoordigende en realistiese data te skep.

Meer vrae? Vra ons kenners

Datakwaliteit

Om te waarborg dat sintetiese data dieselfde datakwaliteit as die oorspronklike data hou, kan uitdagend wees, en hang dikwels af van die spesifieke gebruiksgeval en die metodes wat gebruik word om die sintetiese data te genereer. Sommige metodes om sintetiese data te genereer, soos generatiewe modelle, kan data produseer wat baie soortgelyk is aan die oorspronklike data. Sleutelvraag: hoe om dit te demonstreer?

Daar is 'n paar maniere om die kwaliteit van sintetiese data te verseker:

  • Datakwaliteitmaatstawwe via ons datakwaliteitverslag: Een manier om te verseker dat sintetiese data dieselfde datakwaliteit as die oorspronklike data hou, is om datakwaliteitmaatstawwe te gebruik om die sintetiese data met die oorspronklike data te vergelyk. Hierdie maatstawwe kan gebruik word om dinge soos ooreenkoms, akkuraatheid en volledigheid van die data te meet. Syntho-sagteware het 'n datakwaliteitverslag met verskeie datakwaliteitmaatstawwe ingesluit.
  • Eksterne evaluering: aangesien die datakwaliteit van sintetiese data in vergelyking met oorspronklike data die sleutel is, het ons onlangs 'n assessering met die datakenners van SAS (markleier in analise) gedoen om die datakwaliteit van sintetiese data deur Syntho in vergelyking met die werklike data te demonstreer. Edwin van Unen, ontledingskenner van SAS, het gegenereerde sintetiese datastelle van Syntho geëvalueer deur middel van verskeie analitiese (KI) assesserings en die uitkomste gedeel. Kyk hier na 'n kort opsomming van daardie video.
  • Toets en evalueer deur jouself: sintetiese data kan getoets en geëvalueer word deur dit met werklike data te vergelyk of deur dit te gebruik om masjienleermodelle op te lei en hul prestasie te vergelyk met modelle wat op werklike data opgelei is. Waarom nie die datakwaliteit van sintetiese data self toets nie? Vra ons kenners vir die moontlikhede hiervan hier

Dit is belangrik om daarop te let dat sintetiese data nooit kan waarborg om 100% soortgelyk aan die oorspronklike data te wees nie, maar dit kan naby genoeg wees om nuttig te wees vir 'n spesifieke gebruiksgeval. Hierdie spesifieke gebruiksgeval kan selfs gevorderde analise of opleidingsmasjienleermodelle wees.

Ja dit is. Die sintetiese data bevat selfs patrone waarvan jy nie geweet het dat hulle in die oorspronklike data teenwoordig was nie.

Maar moenie net ons woord daarvoor vat nie. Die ontledingskundiges van SAS (wêreldmarkleier in analise) het 'n (KI) assessering van ons sintetiese data gedoen en dit met die oorspronklike data vergelyk. Nuuskierig? Kyk na die hele geleentheid hier of kyk na die kort weergawe oor datakwaliteit hier.

Ja ons doen. Ons platform is geoptimaliseer vir databasisse en gevolglik die behoud van verwysingsintegriteit tussen datastelle in die databasis.

Nuuskierig om meer hieroor uit te vind?

Vra ons kundiges direk.

privaatheid

Nee ons doen nie. Ons kan die Syntho Engine maklik op die perseel of in jou private wolk ontplooi via docker.

Nee. Ons het ons platform op so 'n manier geoptimaliseer dat dit maklik in die vertroude omgewing van die kliënt ontplooi kan word. Dit verseker dat data nooit die vertroude omgewing van die kliënt sal verlaat nie. Ontplooiingsopsies vir die vertroude omgewing van die kliënt is "op die perseel" en in die "wolk-omgewing van die kliënt (privaat wolk)".

Opsioneel: Syntho ondersteun 'n weergawe wat in die "Syntho-wolk" aangebied word.

Nee. Die Syntho Engine is 'n selfdiensplatform. As gevolg hiervan is die generering van sintetiese data met die Syntho Engine moontlik op 'n manier wat in die end-to-end proses, Syntho is nooit in staat om te sien en nooit nodig om data te verwerk nie.

Ja, ons doen dit via ons QA-verslag.

 

Wanneer 'n datastel sintetiseer, is dit noodsaaklik om te demonstreer dat 'n mens nie in staat is om individue te heridentifiseer nie. In hierdie video, Marijn stel privaatheidsmaatreëls in wat in ons kwaliteitverslag is om dit te demonstreer.

Syntho se QA-verslag bevat drie industrie-standaard maatstawwe vir die evaluering van data privaatheid. Die idee agter elk van hierdie maatstawwe is soos volg:

  • Sintetiese data (S) moet "so na as moontlik" wees, maar "nie te naby nie" aan die teikendata (T).
  • Ewekansige geselekteerde uithoudata (H) bepaal die maatstaf vir “te naby”.
  • A perfekte oplossing genereer nuwe sintetiese data wat presies soos die oorspronklike data optree, maar wat nog nie voorheen gesien is nie (= H).

Een van die gebruiksgevalle wat spesifiek deur die Nederlandse Databeskermingsowerheid uitgelig word, is die gebruik van sintetiese data as toetsdata.

Meer kan in hierdie artikel gevind word.

Syntho-enjin

Die Syntho Engine word in 'n Docker-houer verskeep en kan maklik ontplooi en by u omgewing van keuse ingeprop word.

Moontlike ontplooiingsopsies sluit in:

  • On-premise
  • Enige (privaat) wolk
  • Enige ander omgewing

Lees meer.

Syntho stel jou in staat om maklik met jou databasisse, toepassings, datapyplyne of lêerstelsels te koppel. 

Ons ondersteun verskeie geïntegreerde verbindings sodat jy met die bron-omgewing (waar die oorspronklike data gestoor word) en die bestemmingsomgewing (waarheen jy jou sintetiese data wil skryf) kan koppel vir 'n end-to-end geïntegreerde benadering.

Verbindingskenmerke wat ons ondersteun:

  • Plug-en-speel met Docker
  • 20+ databasisverbindings
  • 20+ lêerstelselverbindings

Lees meer.

Natuurlik hang die generasietyd af van die grootte van die databasis. Gemiddeld word 'n tabel met minder as 1 miljoen rekords in minder as 5 minute gesintetiseer.

Syntho se masjienleeralgoritmes kan die kenmerke beter veralgemeen met meer entiteitsrekords beskikbaar, wat die privaatheidsrisiko verminder. 'n Minimum kolom-tot-ry-verhouding van 1:500 word aanbeveel. Byvoorbeeld, as jou brontabel 6 kolomme het, moet dit 'n minimum van 3000 rye bevat.

Glad nie. Alhoewel dit 'n bietjie moeite kan verg om die voordele, werking en gebruiksgevalle van sintetiese data ten volle te verstaan, is die proses van sintetisering baie eenvoudig en enigiemand met basiese rekenaarkennis kan dit doen. Vir meer inligting oor die sintetiseringsproses, kyk hierdie bladsy or versoek 'n demo.

Die Syntho Engine werk die beste op gestruktureerde, tabelvormige data (enigiets wat rye en kolomme bevat). Binne hierdie strukture ondersteun ons die volgende datatipes:

  • Struktureer data wat in tabelle geformateer is (kategories, numeries, ens.)
  • Direkte identifiseerders en PII
  • Groot datastelle en databasisse
  • Geografiese liggingdata (soos GPS)
  • Tydreeksdata
  • Multi-tafel databasisse (met verwysingsintegriteit)
  • Maak teksdata oop

 

Komplekse data -ondersteuning
Naas alle gewone tipes tabeldata, ondersteun die Syntho Engine komplekse datatipes en komplekse datastrukture.

  • Tyd reeks
  • Multi-tafel databasisse
  • Oop teks

Lees meer.

Nee, ons het ons platform geoptimaliseer om berekeningsvereistes te minimaliseer (bv. geen GPU vereis nie), sonder om die data-akkuraatheid in te boet. Daarbenewens ondersteun ons outomatiese skaal, sodat 'n mens groot databasisse kan sintetiseer.

Ja. Syntho-sagteware is geoptimaliseer vir databasisse wat veelvuldige tabelle bevat.

Wat dit betref, bespeur Syntho outomaties die datatipes, skemas en formate om data akkuraatheid te maksimeer. Vir multi-tafel databasis, ondersteun ons outomatiese tabel verhouding inferensie en sintese om verwysende integriteit te bewaar.

groep mense wat glimlag

Data is sinteties, maar ons span is werklik!

Kontak Syntho en een van ons kundiges sal met u in verbinding tree met die spoed van lig om die waarde van sintetiese data te ondersoek!