FAQ

Korduma kippuvad küsimused sünteetiliste andmete kohta

Arusaadav! Õnneks on meil vastused olemas ja oleme siin, et aidata. Vaadake meie korduma kippuvaid küsimusi.

Palun avage allpool küsimus ja klõpsake lisateabe saamiseks linke. Kas teil on keerulisem küsimus, mida siin pole öeldud? Küsige otse meie ekspertidelt!

Enim küsitud küsimused

Sünteetilised andmed viitavad andmetele, mis on pigem kunstlikult loodud kui reaalsetest allikatest kogutud. Üldiselt, kui algandmeid kogutakse kõigis teie suhtluses inimestega (kliendid, patsiendid jne) ja kõigi teie sisemiste protsesside kaudu, genereeritakse sünteetilised andmed arvutialgoritmi abil.

Sünteetilisi andmeid saab kasutada ka mudelite testimiseks ja hindamiseks kontrollitud keskkonnas või tundliku teabe kaitsmiseks, genereerides andmeid, mis on sarnased reaalmaailma andmetega, kuid ei sisalda tundlikku teavet. Sünteetilisi andmeid kasutatakse sageli privaatsustundlike andmete alternatiivina ja neid saab kasutada testandmetena, analüütikaks või masinõppe treenimiseks.

Loe edasi

Selle tagamine, et sünteetilistel andmetel on algandmetega sama kvaliteet, võib olla keeruline ja see sõltub sageli konkreetsest kasutusjuhtumist ja sünteetiliste andmete genereerimiseks kasutatud meetoditest. Mõned sünteetiliste andmete genereerimise meetodid, näiteks generatiivsed mudelid, võivad toota andmeid, mis on väga sarnased algandmetega. Põhiküsimus: kuidas seda demonstreerida?

Sünteetiliste andmete kvaliteedi tagamiseks on mõned viisid:

  • Andmekvaliteedi mõõdikud meie andmekvaliteedi aruande kaudu: Üks võimalus tagada, et sünteetilistel andmetel on algandmetega sama kvaliteet, on kasutada andmekvaliteedi mõõdikuid, et võrrelda sünteetilisi andmeid algandmetega. Neid mõõdikuid saab kasutada selliste asjade mõõtmiseks nagu andmete sarnasus, täpsus ja täielikkus. Syntho tarkvara sisaldas andmekvaliteedi aruannet erinevate andmekvaliteedi mõõdikutega.
  • Välishinnang: kuna sünteetiliste andmete andmete kvaliteet võrreldes algandmetega on võtmetähtsusega, tegime hiljuti SAS-i (analüütika turuliider) andmeekspertidega hindamise, et näidata Syntho sünteetiliste andmete kvaliteeti võrreldes tegelike andmetega. SASi analüütikaekspert Edwin van Unen hindas erinevate analüütiliste (AI) hinnangute kaudu Syntho loodud sünteetilisi andmekogumeid ja jagas tulemusi. Vaadake selle video lühikest kokkuvõtet siit.
  • Ise testimine ja hindamine: sünteetilisi andmeid saab testida ja hinnata, võrreldes neid reaalmaailma andmetega või kasutades neid masinõppemudelite koolitamiseks ja võrreldes nende toimivust reaalmaailma andmetel treenitud mudelitega. Miks mitte testida sünteetiliste andmete kvaliteeti ise? Küsige meie ekspertidelt selle võimaluste kohta siit

Oluline on märkida, et sünteetilised andmed ei saa kunagi garanteerida, et need on algandmetega 100% sarnased, kuid need võivad olla piisavalt lähedased, et olla konkreetsel kasutusjuhul kasulikud. See konkreetne kasutusjuhtum võib olla isegi täiustatud analüütika või koolituse masinõppe mudelid.

Klassikaline anonüümseks muutmine ei ole alati parim lahendus, kuna:

  1. Privaatsusrisk - teil on alati
    privaatsusrisk. Nende rakendamine
    klassikalised anonüümimise meetodid
    teeb selle ainult raskemaks, aga mitte
    isikuid on võimatu tuvastada.
  2. Andmete hävitamine – seda rohkem sa
    anonüümseks muutmine, seda paremini kaitsete
    teie privaatsus, kuid seda rohkem teie
    hävitada oma andmed. See pole mis
    soovite analüüsida, sest
    hävitatud andmed põhjustavad halba
    arusaamu.
  3. Aega võttev – see on lahendus
    see võtab palju aega, sest
    need tehnikad töötavad erinevalt
    andmestiku ja andmetüübi kohta.

Sünteetiliste andmete eesmärk on lahendada kõik need puudused. Erinevus on nii silmatorkav, et tegime sellest video. Vaata seda siin.

Korduma kippuvad küsimused

Sünteetilised andmed

Üldiselt kasutab enamik meie kliente sünteetilisi andmeid:

  • Tarkvara testimine ja arendus
  • Sünteetilised andmed analüütika, mudelite arendamise ja täiustatud analüütika jaoks (AI ja ML)
  • Toote demod

Lugege lähemalt ja uurige kasutusjuhtumeid.

Sünteetiline andmekaksik on reaalmaailma andmestiku ja/või andmebaasi algoritmi loodud koopia. Synthetic Data Twiniga püüab Syntho jäljendada algset andmekogumit või andmebaasi võimalikult lähedale algandmetele, et luua originaalist realistlik esitus. Sünteetiliste andmete kaksikuga püüame saavutada originaalandmetega võrreldes paremat sünteetiliste andmete kvaliteeti. Teeme seda oma sünteetiliste andmetarkvaraga, mis kasutab tipptasemel tehisintellekti mudeleid. Need AI mudelid genereerivad täiesti uusi andmepunkte ja modelleerivad neid nii, et säilitame algandmete omadused, seosed ja statistilised mustrid sellisel määral, et saaksite neid kasutada nii, nagu oleks tegemist algandmetega.

Seda saab kasutada erinevatel eesmärkidel, näiteks masinõppe mudelite testimiseks ja koolitamiseks, uurimis- ja arendustegevuse stsenaariumide simuleerimiseks ning koolituse ja hariduse jaoks mõeldud virtuaalsete keskkondade loomiseks. Sünteetilisi andmekaksikuid saab kasutada realistlike ja esinduslike andmete loomiseks, mida saab kasutada reaalmaailma andmete asemel, kui need pole saadaval või kui reaalmaailma andmete kasutamine oleks rangete andmekaitseeeskirjade tõttu ebapraktiline või ebaeetiline.

Loe edasi.

Jah me teeme. Pakume erinevaid väärtust lisavaid sünteetilisi andmete optimeerimise ja suurendamise funktsioone, sealhulgas pilajaid, et viia teie andmed järgmisele tasemele.

Loe edasi.

Näidisandmed ja AI-ga loodud sünteetilised andmed on mõlemad sünteetilised andmed, kuid neid genereeritakse erineval viisil ja neil on erinevad eesmärgid.

Näidisandmed on teatud tüüpi sünteetilised andmed, mis luuakse käsitsi ja mida kasutatakse sageli testimiseks ja arendamiseks. Tavaliselt kasutatakse seda reaalmaailma andmete käitumise simuleerimiseks kontrollitud keskkonnas ja seda kasutatakse sageli süsteemi või rakenduse funktsionaalsuse testimiseks. Sageli on see lihtne, kergesti genereeritav ega vaja keerulisi mudeleid ega algoritme. Sageli viitab inimene ka andmete pilgamisele kui näivandmetele või võltsandmetele.

AI-ga loodud sünteetilised andmed seevastu genereeritakse tehisintellekti tehnikate, näiteks masinõppe või generatiivsete mudelite abil. Seda kasutatakse realistlike ja esinduslike andmete loomiseks, mida saab kasutada reaalmaailma andmete asemel, kui reaalmaailma andmete kasutamine oleks rangete privaatsuseeskirjade tõttu ebapraktiline või ebaeetiline. See on sageli keerulisem ja nõuab rohkem arvutusressursse kui käsitsi näidisandmed. Selle tulemusena on see palju realistlikum ja jäljendab võimalikult täpselt algandmeid.

Kokkuvõtteks võib öelda, et näidisandmed luuakse käsitsi ja neid kasutatakse tavaliselt testimiseks ja arendamiseks, tehisintellekti tehnikaid kasutades luuakse aga tehisintellekti tehnikaid kasutades ning neid kasutatakse esinduslike ja realistlike andmete loomiseks.

Veel küsimusi? Küsige meie ekspertidelt

Andmekvaliteet

Selle tagamine, et sünteetilistel andmetel on algandmetega sama kvaliteet, võib olla keeruline ja see sõltub sageli konkreetsest kasutusjuhtumist ja sünteetiliste andmete genereerimiseks kasutatud meetoditest. Mõned sünteetiliste andmete genereerimise meetodid, näiteks generatiivsed mudelid, võivad toota andmeid, mis on väga sarnased algandmetega. Põhiküsimus: kuidas seda demonstreerida?

Sünteetiliste andmete kvaliteedi tagamiseks on mõned viisid:

  • Andmekvaliteedi mõõdikud meie andmekvaliteedi aruande kaudu: Üks võimalus tagada, et sünteetilistel andmetel on algandmetega sama kvaliteet, on kasutada andmekvaliteedi mõõdikuid, et võrrelda sünteetilisi andmeid algandmetega. Neid mõõdikuid saab kasutada selliste asjade mõõtmiseks nagu andmete sarnasus, täpsus ja täielikkus. Syntho tarkvara sisaldas andmekvaliteedi aruannet erinevate andmekvaliteedi mõõdikutega.
  • Välishinnang: kuna sünteetiliste andmete andmete kvaliteet võrreldes algandmetega on võtmetähtsusega, tegime hiljuti SAS-i (analüütika turuliider) andmeekspertidega hindamise, et näidata Syntho sünteetiliste andmete kvaliteeti võrreldes tegelike andmetega. SASi analüütikaekspert Edwin van Unen hindas erinevate analüütiliste (AI) hinnangute kaudu Syntho loodud sünteetilisi andmekogumeid ja jagas tulemusi. Vaadake selle video lühikest kokkuvõtet siit.
  • Ise testimine ja hindamine: sünteetilisi andmeid saab testida ja hinnata, võrreldes neid reaalmaailma andmetega või kasutades neid masinõppemudelite koolitamiseks ja võrreldes nende toimivust reaalmaailma andmetel treenitud mudelitega. Miks mitte testida sünteetiliste andmete kvaliteeti ise? Küsige meie ekspertidelt selle võimaluste kohta siit

Oluline on märkida, et sünteetilised andmed ei saa kunagi garanteerida, et need on algandmetega 100% sarnased, kuid need võivad olla piisavalt lähedased, et olla konkreetsel kasutusjuhul kasulikud. See konkreetne kasutusjuhtum võib olla isegi täiustatud analüütika või koolituse masinõppe mudelid.

Jah see on. Sünteetilised andmed sisaldavad isegi mustreid, mille olemasolu te algandmetes ei teadnud.

Kuid ärge lihtsalt võtke meie sõna. SAS-i (ülemaailmne analüütika turuliider) analüütikaeksperdid hindasid meie sünteetilisi andmeid (AI) ja võrdlesid neid algandmetega. Uudishimulik? Jälgige kogu üritus siin või vaadake lühiversiooni andmete kvaliteet siin.

Jah me teeme. Meie platvorm on optimeeritud andmebaaside jaoks ja sellest tulenevalt andmebaasis olevate andmekogumite vahelise viiteterviklikkuse säilitamiseks.

Kas soovite selle kohta rohkem teada saada?

Küsige otse meie ekspertidelt.

Privaatsus

Ei, me ei tee seda. Saame hõlpsasti juurutada Syntho Engine'i kohapeal või teie privaatses pilves dokkeri kaudu.

Ei. Optimeerisime oma platvormi nii, et seda saaks kliendi usaldusväärses keskkonnas hõlpsasti juurutada. See tagab, et andmed ei lahku kunagi kliendi usaldusväärsest keskkonnast. Kliendi usaldusväärse keskkonna juurutusvõimalused on kohapeal ja kliendi pilvekeskkonnas (privaatpilv).

Valikuline: Syntho toetab versiooni, mis on hostitud Syntho pilves.

Ei. Syntho Engine on iseteenindusplatvorm. Selle tulemusena on sünteetiliste andmete genereerimine Syntho Engine'iga võimalik viisil, mis end-to-end protsessi, ei näe Syntho kunagi andmeid ega pea neid kunagi töötlema.

Jah, me teeme seda oma kvaliteedikontrolli aruande kaudu.

 

Andmestiku sünteesimisel on oluline näidata, et isikuid ei ole võimalik uuesti tuvastada. sisse seda videot, tutvustab Marijn selle demonstreerimiseks privaatsusmeetmeid, mis on meie kvaliteediaruandes.

Syntho kvaliteedikontrolli aruanne sisaldab kolme tööstusstandard mõõdikud andmete privaatsuse hindamiseks. Iga sellise mõõdiku idee on järgmine:

  • Sünteetilised andmed (S) peab olema sihtandmetele võimalikult lähedal, kuid mitte liiga lähedal (T).
  • Juhuslikult valitud hoidmisandmed (H) määrab „liiga lähedal“ võrdlusaluse.
  • A ideaalne lahendus genereerib uusi sünteetilisi andmeid, mis käituvad täpselt nagu algsed andmed, kuid mida pole varem nähtud (= H).

Üks kasutusjuhtudest, mida Hollandi andmekaitseamet on konkreetselt esile tõstnud, on sünteetiliste andmete kasutamine katseandmetena.

Lisateavet leiate sellest artiklist.

Syntho mootor

Syntho Engine tarnitakse Dockeri konteineris ning seda saab hõlpsasti kasutusele võtta ja teie valitud keskkonda ühendada.

Võimalikud juurutusvalikud on järgmised:

  • Eeldus
  • Igasugune (privaatne) pilv
  • Igasugune muu keskkond

Loe edasi.

Syntho võimaldab teil hõlpsasti luua ühenduse oma andmebaaside, rakenduste, andmekanalite või failisüsteemidega. 

Toetame erinevaid integreeritud konnektoreid, et saaksite luua ühenduse lähtekeskkonnaga (kus on salvestatud algandmed) ja sihtkeskkonnaga (kuhu soovite oma sünteetilised andmed kirjutada). end-to-end integreeritud lähenemine.

Ühenduse funktsioonid, mida toetame:

  • Ühendage ja mängige koos Dockeriga
  • 20+ andmebaasi konnektorit
  • 20+ failisüsteemi pistikut

Loe edasi.

Loomulikult sõltub genereerimise aeg andmebaasi suurusest. Keskmiselt sünteesitakse alla 1 miljoni kirjega tabel vähem kui 5 minutiga.

Syntho masinõppe algoritmid suudavad funktsioone paremini üldistada, kuna saadaval on rohkem olemikirjeid, mis vähendab privaatsusriski. Soovitatav on veergude ja ridade minimaalne suhe 1:500. Näiteks kui teie lähtetabelis on 6 veergu, peaks see sisaldama vähemalt 3000 rida.

Üldse mitte. Kuigi sünteetiliste andmete eeliste, toimimise ja kasutusjuhtude täielik mõistmine võib nõuda pingutusi, on sünteesiprotsess väga lihtne ja sellega saavad hakkama kõik, kellel on arvutialased põhiteadmised. Lisateavet sünteesiprotsessi kohta leiate siit Sellel leheküljel or nõuda demot.

Syntho Engine töötab kõige paremini struktureeritud tabeliandmetega (kõik, mis sisaldab ridu ja veerge). Nendes struktuurides toetame järgmisi andmetüüpe.

  • Struktureerib tabelitesse vormindatud andmeid (kategoorialine, numbriline jne)
  • Otsesed identifikaatorid ja isikut tõendavad andmed
  • Suured andmestikud ja andmebaasid
  • Geograafilise asukoha andmed (nt GPS)
  • Aegridade andmed
  • Mitme tabeliga andmebaasid (viiteterviklikkusega)
  • Ava tekstiandmed

 

Komplekssete andmete tugi
Lisaks tavapärastele tabeliandmetele toetab Syntho Engine keerulisi andmetüüpe ja keerukaid andmestruktuure.

  • Aegrida
  • Mitme tabeliga andmebaasid
  • Avatud tekst

Loe edasi.

Ei, optimeerisime oma platvormi arvutusnõuete minimeerimiseks (nt pole vaja GPU-d), ilma andmete täpsuses järeleandmisi tegemata. Lisaks toetame automaatset skaleerimist, et saaks sünteesida tohutuid andmebaase.

Jah. Syntho tarkvara on optimeeritud mitut tabelit sisaldavate andmebaaside jaoks.

Sellega seoses tuvastab Syntho andmete täpsuse maksimeerimiseks automaatselt andmetüübid, skeemid ja vormingud. Mitme tabeliga andmebaasi puhul toetame automaatset tabelisuhete järeldamist ja sünteesi, et säilitada viite terviklikkus.

naeratavate inimeste rühm

Andmed on sünteetilised, kuid meie meeskond on tõeline!

Võtke ühendust Synthoga ja üks meie ekspertidest võtab teiega valguse kiirusel ühendust, et uurida sünteetiliste andmete väärtust!