FAQ

Pogosto zastavljena vprašanja o sintetičnih podatkih

Razumljivo! Na srečo imamo odgovore in tukaj smo, da vam pomagamo. Preverite naša pogosta vprašanja.

Odprite vprašanje spodaj in kliknite povezave za več informacij. Imate bolj zapleteno vprašanje, ki tukaj ni navedeno? Vprašajte naše strokovnjake neposredno!

Najbolj zastavljena vprašanja

Sintetični podatki se nanašajo na podatke, ki so umetno ustvarjeni in ne zbrani iz dejanskih virov. Na splošno, medtem ko se izvirni podatki zbirajo v vseh vaših interakcijah z osebami (strankami, bolniki itd.) in prek vseh vaših notranjih procesov, sintetične podatke generira računalniški algoritem.

Sintetične podatke je mogoče uporabiti tudi za testiranje in vrednotenje modelov v nadzorovanem okolju ali za zaščito občutljivih informacij z ustvarjanjem podatkov, ki so podobni podatkom iz resničnega sveta, vendar ne vsebujejo občutljivih informacij. Sintetični podatki se pogosto uporabljajo kot alternativa za zasebno občutljive podatke in se lahko uporabljajo kot testni podatki, za analitiko ali za usposabljanje strojnega učenja.

Preberi več

Zagotavljanje, da imajo sintetični podatki enako kakovost podatkov kot izvirni podatki, je lahko izziv in je pogosto odvisno od posebnega primera uporabe in metod, uporabljenih za ustvarjanje sintetičnih podatkov. Nekatere metode za ustvarjanje sintetičnih podatkov, kot so generativni modeli, lahko ustvarijo podatke, ki so zelo podobni izvirnim podatkom. Ključno vprašanje: kako to dokazati?

Kakovost sintetičnih podatkov lahko zagotovite na nekaj načinov:

  • Meritve kakovosti podatkov prek našega poročila o kakovosti podatkov: Eden od načinov za zagotovitev, da imajo sintetični podatki enako kakovost kot izvirni podatki, je uporaba meritev kakovosti podatkov za primerjavo sintetičnih podatkov z izvirnimi podatki. Te metrike je mogoče uporabiti za merjenje stvari, kot so podobnost, točnost in popolnost podatkov. Programska oprema Syntho je vključevala poročilo o kakovosti podatkov z različnimi meritvami kakovosti podatkov.
  • Zunanja evalvacija: ker je kakovost podatkov sintetičnih podatkov v primerjavi z izvirnimi podatki ključnega pomena, smo pred kratkim izvedli oceno s strokovnjaki za podatke podjetja SAS (vodilni na trgu v analitiki), da bi dokazali kakovost podatkov sintetičnih podatkov podjetja Syntho v primerjavi z resničnimi podatki. Edwin van Unen, strokovnjak za analitiko iz SAS, je ocenil ustvarjene sintetične nabore podatkov iz Syntha prek različnih ocen analitike (AI) in delil rezultate. Oglejte si kratek povzetek tega videoposnetka tukaj.
  • Testiranje in ocenjevanje sami: sintetične podatke je mogoče testirati in ovrednotiti tako, da jih primerjamo s podatki iz resničnega sveta ali jih uporabimo za usposabljanje modelov strojnega učenja in primerjamo njihovo zmogljivost z modeli, usposobljenimi za podatke iz resničnega sveta. Zakaj ne bi sami preizkusili kakovosti sintetičnih podatkov? Tukaj povprašajte naše strokovnjake o možnostih tega

Pomembno je vedeti, da sintetični podatki nikoli ne morejo zagotoviti 100-odstotne podobnosti z izvirnimi podatki, vendar so lahko dovolj blizu, da so uporabni za določen primer uporabe. Ta poseben primer uporabe je lahko celo napredna analitika ali modeli strojnega učenja za usposabljanje.

Klasična 'anonimizacija' ni vedno najboljša rešitev, ker:

  1. Tveganje zasebnosti – vedno boste imeli
    tveganje za zasebnost. Uporaba teh
    klasične tehnike anonimizacije
    samo otežuje, vendar ne
    nemogoče identificirati posameznike.
  2. Uničevanje podatkov – bolj si
    anonimiziraj, bolje zaščitiš
    vašo zasebnost, a bolj ko vas
    uničiti vaše podatke. To ni kaj
    želite za analitiko, saj
    uničeni podatki bodo povzročili slabo
    spoznanja.
  3. Zamudno – je rešitev
    ki vzame veliko časa, saj
    te tehnike delujejo drugače
    na nabor podatkov in na vrsto podatkov.

Namen sintetičnih podatkov je odpraviti vse te pomanjkljivosti. Razlika je tako osupljiva, da smo o tem posneli video. Pazi tukaj.

Pogosto zastavljena vprašanja

Sintetični podatki

Na splošno večina naših strank uporablja sintetične podatke za:

  • Testiranje in razvoj programske opreme
  • Sintetični podatki za analitiko, razvoj modelov in napredno analitiko (AI & ML)
  • Predstavitve izdelkov

Preberite več in raziščite primere uporabe.

Sintetični podatkovni dvojček je z algoritmom ustvarjena replika nabora podatkov in/ali baze podatkov iz resničnega sveta. S sintetičnim podatkovnim dvojčkom želi Syntho posnemati izvirni nabor podatkov ali zbirko podatkov čim bližje izvirnim podatkom, da ustvari realistično predstavitev izvirnika. S sintetičnim podatkovnim dvojčkom si prizadevamo za vrhunsko kakovost sintetičnih podatkov v primerjavi z izvirnimi podatki. To počnemo z našo programsko opremo za sintetične podatke, ki uporablja najsodobnejše modele AI. Ti modeli umetne inteligence ustvarijo popolnoma nove podatkovne točke in jih modelirajo tako, da ohranimo značilnosti, razmerja in statistične vzorce izvirnih podatkov do te mere, da jih lahko uporabljate, kot da so izvirni podatki.

To se lahko uporablja za različne namene, kot je testiranje in usposabljanje modelov strojnega učenja, simulacija scenarijev za raziskave in razvoj ter ustvarjanje virtualnih okolij za usposabljanje in izobraževanje. Sintetične podatkovne dvojčke je mogoče uporabiti za ustvarjanje realističnih in reprezentativnih podatkov, ki jih je mogoče uporabiti namesto podatkov iz resničnega sveta, kadar ti niso na voljo ali kadar bi bila uporaba podatkov iz resničnega sveta nepraktična ali neetična zaradi strogih predpisov o zasebnosti podatkov.

Preberi več.

Da, imamo. Ponujamo različne funkcije optimizacije in povečanja sintetičnih podatkov z dodano vrednostjo, vključno s posmehovalci, da vaše podatke dvignemo na višjo raven.

Preberi več.

Lažni podatki in sintetični podatki, ustvarjeni z umetno inteligenco, so obe vrsti sintetičnih podatkov, vendar so ustvarjeni na različne načine in služijo različnim namenom.

Lažni podatki so vrsta sintetičnih podatkov, ki se ustvarijo ročno in se pogosto uporabljajo za namene testiranja in razvoja. Običajno se uporablja za simulacijo obnašanja podatkov iz resničnega sveta v nadzorovanem okolju in se pogosto uporablja za testiranje funkcionalnosti sistema ali aplikacije. Pogosto je preprost, enostaven za ustvarjanje in ne zahteva kompleksnih modelov ali algoritmov. Pogosto napotitelj tudi izigrava podatke kot "navidezne podatke" ali "lažne podatke".

Sintetični podatki, ustvarjeni z AI, pa so ustvarjeni s tehnikami umetne inteligence, kot so strojno učenje ali generativni modeli. Uporablja se za ustvarjanje realističnih in reprezentativnih podatkov, ki jih je mogoče uporabiti namesto podatkov iz resničnega sveta, kadar bi bila uporaba podatkov iz resničnega sveta nepraktična ali neetična zaradi strogih predpisov o zasebnosti. Pogosto je bolj zapleten in zahteva več računalniških virov kot ročni lažni podatki. Posledično je veliko bolj realističen in čim bolj posnema izvirne podatke.

Če povzamemo, lažni podatki so ustvarjeni ročno in se običajno uporabljajo za testiranje in razvoj, medtem ko so sintetični podatki, ustvarjeni z umetno inteligenco, ustvarjeni s tehnikami umetne inteligence in se uporabljajo za ustvarjanje reprezentativnih in realističnih podatkov.

Več vprašanj? Vprašajte naše strokovnjake

Kakovost podatkov

Zagotavljanje, da imajo sintetični podatki enako kakovost podatkov kot izvirni podatki, je lahko izziv in je pogosto odvisno od posebnega primera uporabe in metod, uporabljenih za ustvarjanje sintetičnih podatkov. Nekatere metode za ustvarjanje sintetičnih podatkov, kot so generativni modeli, lahko ustvarijo podatke, ki so zelo podobni izvirnim podatkom. Ključno vprašanje: kako to dokazati?

Kakovost sintetičnih podatkov lahko zagotovite na nekaj načinov:

  • Meritve kakovosti podatkov prek našega poročila o kakovosti podatkov: Eden od načinov za zagotovitev, da imajo sintetični podatki enako kakovost kot izvirni podatki, je uporaba meritev kakovosti podatkov za primerjavo sintetičnih podatkov z izvirnimi podatki. Te metrike je mogoče uporabiti za merjenje stvari, kot so podobnost, točnost in popolnost podatkov. Programska oprema Syntho je vključevala poročilo o kakovosti podatkov z različnimi meritvami kakovosti podatkov.
  • Zunanja evalvacija: ker je kakovost podatkov sintetičnih podatkov v primerjavi z izvirnimi podatki ključnega pomena, smo pred kratkim izvedli oceno s strokovnjaki za podatke podjetja SAS (vodilni na trgu v analitiki), da bi dokazali kakovost podatkov sintetičnih podatkov podjetja Syntho v primerjavi z resničnimi podatki. Edwin van Unen, strokovnjak za analitiko iz SAS, je ocenil ustvarjene sintetične nabore podatkov iz Syntha prek različnih ocen analitike (AI) in delil rezultate. Oglejte si kratek povzetek tega videoposnetka tukaj.
  • Testiranje in ocenjevanje sami: sintetične podatke je mogoče testirati in ovrednotiti tako, da jih primerjamo s podatki iz resničnega sveta ali jih uporabimo za usposabljanje modelov strojnega učenja in primerjamo njihovo zmogljivost z modeli, usposobljenimi za podatke iz resničnega sveta. Zakaj ne bi sami preizkusili kakovosti sintetičnih podatkov? Tukaj povprašajte naše strokovnjake o možnostih tega

Pomembno je vedeti, da sintetični podatki nikoli ne morejo zagotoviti 100-odstotne podobnosti z izvirnimi podatki, vendar so lahko dovolj blizu, da so uporabni za določen primer uporabe. Ta poseben primer uporabe je lahko celo napredna analitika ali modeli strojnega učenja za usposabljanje.

Ja, je. Sintetični podatki vsebujejo celo vzorce, za katere niste vedeli, da so prisotni v izvirnih podatkih.

Toda ne verjemite nam le na besedo. Strokovnjaki za analitiko SAS (vodja na svetovnem trgu analitike) so opravili (AI) oceno naših sintetičnih podatkov in jih primerjali z izvirnimi podatki. Radoveden? Pazi na celoten dogodek tukaj ali si oglejte kratko različico o kakovost podatkov tukaj.

Da, imamo. Naša platforma je optimizirana za baze podatkov in posledično ohranjanje referenčne celovitosti med nabori podatkov v zbirki podatkov.

Vas zanima več o tem?

Vprašajte naše strokovnjake neposredno.

Zasebnost

Ne, ne. Syntho Engine lahko preprosto uvedemo na mestu uporabe ali v vašem zasebnem oblaku prek dockerja.

Ne. Našo platformo smo optimizirali tako, da jo je mogoče preprosto namestiti v zaupanja vredno okolje stranke. To zagotavlja, da podatki nikoli ne bodo zapustili zaupanja vrednega okolja stranke. Možnosti uvedbe za zaupanja vredno okolje stranke so »on-premise« in v »oblačnem okolju stranke (zasebni oblak)«.

Izbirno: Syntho podpira različico, ki gostuje v »oblaku Syntho«.

Ne. Syntho Engine je samopostrežna platforma. Posledično je generiranje sintetičnih podatkov s Syntho Engine mogoče na način, da v end-to-end proces, Syntho nikoli ne more videti in nikoli ne potrebuje obdelave podatkov.

Da, to počnemo prek našega poročila o zagotavljanju kakovosti.

 

Pri sintetiziranju nabora podatkov je bistveno dokazati, da posameznikov ni mogoče ponovno identificirati. notri Ta video, Marijn uvaja ukrepe glede zasebnosti, ki so v našem poročilu o kakovosti, da to dokaže.

Synthovo QA poročilo vsebuje tri industrijski standard metrike za ocenjevanje zasebnosti podatkov. Ideja za vsako od teh meritev je naslednja:

  • Sintetični podatki (S) morajo biti „čim bližje“, vendar „ne preblizu“ ciljnim podatkom (T).
  • Naključno izbrani podatki o zadržanju (H) določa merilo uspešnosti za »preblizu«.
  • A popolna rešitev ustvari nove sintetične podatke, ki se obnašajo natanko tako kot izvirni podatki, vendar jih še nismo videli (= H).

Eden od primerov uporabe, ki ga posebej poudarja nizozemski organ za varstvo podatkov, je uporaba sintetičnih podatkov kot testnih podatkov.

Več lahko najdete v tem članku.

Syntho motor

Syntho Engine je dobavljen v vsebniku Docker in ga je mogoče enostavno namestiti in priključiti v izbrano okolje.

Možne možnosti uvajanja vključujejo:

  • Namestitev
  • Vsak (zasebni) oblak
  • Vsako drugo okolje

Preberi več.

Syntho vam omogoča enostavno povezavo z vašimi bazami podatkov, aplikacijami, podatkovnimi cevovodi ali datotečnimi sistemi. 

Podpiramo različne integrirane povezovalnike, tako da se lahko povežete z izvornim okoljem (kjer so shranjeni izvirni podatki) in ciljnim okoljem (kamor želite zapisati svoje sintetične podatke) za end-to-end integriran pristop.

Funkcije povezave, ki jih podpiramo:

  • Plug-and-play z Dockerjem
  • 20+ priključkov za bazo podatkov
  • 20+ priključkov datotečnega sistema

Preberi več.

Seveda je čas generiranja odvisen od velikosti baze podatkov. V povprečju se tabela z manj kot 1 milijonom zapisov sintetizira v manj kot 5 minutah.

Algoritmi strojnega učenja Syntho lahko bolje posplošijo funkcije z več razpoložljivimi zapisi entitet, kar zmanjša tveganje za zasebnost. Priporočeno je minimalno razmerje med stolpci in vrsticami 1:500. Na primer, če ima vaša izvorna tabela 6 stolpcev, mora vsebovati najmanj 3000 vrstic.

Sploh ne. Čeprav je za popolno razumevanje prednosti, delovanja in primerov uporabe sintetičnih podatkov potrebno nekaj truda, je postopek sintetizacije zelo preprost in to lahko stori vsak, ki ima osnovno računalniško znanje. Za več informacij o postopku sinteze si oglejte stran or zahtevajte predstavitev.

Syntho Engine najbolje deluje na strukturiranih tabelaričnih podatkih (vse, kar vsebuje vrstice in stolpce). Znotraj teh struktur podpiramo naslednje vrste podatkov:

  • Strukturira podatke, oblikovane v tabele (kategorične, številčne itd.)
  • Neposredni identifikatorji in osebna identiteta
  • Veliki nabori podatkov in baze podatkov
  • Podatki o geografski lokaciji (kot je GPS)
  • Podatki časovnih vrst
  • Večtabelne baze podatkov (z referenčno celovitostjo)
  • Odprite besedilne podatke

 

Kompleksna podpora za podatke
Poleg vseh običajnih tipov tabelarnih podatkov, Syntho Engine podpira kompleksne tipe podatkov in kompleksne podatkovne strukture.

  • Časovne serije
  • Večtabelne baze podatkov
  • Odpri besedilo

Preberi več.

Ne, optimizirali smo našo platformo, da zmanjšamo računalniške zahteve (npr. GPU ni potreben), ne da bi pri tem ogrozili točnost podatkov. Poleg tega podpiramo samodejno skaliranje, tako da lahko sintetiziramo ogromne baze podatkov.

ja Programska oprema Syntho je optimizirana za baze podatkov, ki vsebujejo več tabel.

Kar zadeva to, Syntho samodejno zazna vrste podatkov, sheme in formate, da poveča natančnost podatkov. Za zbirko podatkov z več tabelami podpiramo samodejno sklepanje in sintezo razmerij tabel, da ohranimo referenčno celovitost.

skupina nasmejanih ljudi

Podatki so sintetični, naša ekipa pa je resnična!

Obrnite se na Syntho in eden od naših strokovnjakov bo stopil v stik z vami s svetlobno hitrostjo in raziskal vrednost sintetičnih podatkov!