FAQ

Često postavljana pitanja o sintetičkim podacima

Razumljivo! Srećom, imamo odgovore i tu smo da vam pomognemo. Provjerite naša često postavljana pitanja.

Molimo otvorite pitanje u nastavku i kliknite na veze da biste pronašli više informacija. Imate kompliciranije pitanje koje ovdje nije navedeno? Pitajte naše stručnjake izravno!

Najčešća pitanja

Sintetički podaci odnose se na podatke koji su umjetno generirani, a ne prikupljeni iz stvarnih izvora. Općenito, dok se izvorni podaci prikupljaju u svim vašim interakcijama s osobama (klijentima, pacijentima itd.) i kroz sve vaše interne procese, sintetičke podatke generira računalni algoritam.

Sintetički podaci također se mogu koristiti za testiranje i procjenu modela u kontroliranom okruženju ili za zaštitu osjetljivih informacija generiranjem podataka koji su slični podacima iz stvarnog svijeta, ali ne sadrže nikakve osjetljive informacije. Sintetički podaci često se koriste kao alternativa za podatke osjetljive na privatnost i mogu se koristiti kao testni podaci, za analitiku ili za obuku strojnog učenja.

Čitaj više

Zajamčiti da sintetički podaci imaju istu kvalitetu podataka kao izvorni podaci može biti izazovno i često ovisi o konkretnom slučaju upotrebe i metodama koje se koriste za generiranje sintetičkih podataka. Neke metode za generiranje sintetičkih podataka, kao što su generativni modeli, mogu proizvesti podatke koji su vrlo slični izvornim podacima. Ključno pitanje: kako to pokazati?

Postoji nekoliko načina za osiguranje kvalitete sintetičkih podataka:

  • Mjerni podaci o kvaliteti podataka putem našeg izvješća o kvaliteti podataka: Jedan od načina da se osigura da sintetički podaci imaju istu kvalitetu podataka kao izvorni podaci je korištenje metrike kvalitete podataka za usporedbu sintetičkih podataka s izvornim podacima. Ovi se pokazatelji mogu koristiti za mjerenje sličnosti, točnosti i potpunosti podataka. Softver Syntho uključivao je izvješće o kvaliteti podataka s različitim mjerama kvalitete podataka.
  • Vanjska evaluacija: budući da je kvaliteta podataka sintetičkih podataka u usporedbi s izvornim podacima ključna, nedavno smo obavili procjenu sa stručnjacima za podatke tvrtke SAS (vodeći na tržištu u analitici) kako bismo pokazali kvalitetu podataka sintetičkih podataka tvrtke Syntho u usporedbi sa stvarnim podacima. Edwin van Unen, stručnjak za analitiku iz SAS-a, procijenio je generirane sintetičke skupove podataka iz Syntha putem različitih analitičkih (AI) procjena i podijelio rezultate. Ovdje pogledajte kratki sažetak tog videa.
  • Testiranje i procjena sami: sintetički podaci mogu se testirati i evaluirati uspoređujući ih s podacima iz stvarnog svijeta ili koristeći ih za treniranje modela strojnog učenja i uspoređujući njihovu izvedbu s modelima obučenim na podacima iz stvarnog svijeta. Zašto ne biste sami testirali kvalitetu sintetičkih podataka? Pitajte naše stručnjake za mogućnosti ovoga ovdje

Važno je napomenuti da sintetički podaci nikada ne mogu jamčiti da su 100% slični izvornim podacima, ali mogu biti dovoljno blizu da budu korisni za određeni slučaj upotrebe. Ovaj specifični slučaj upotrebe može biti čak i napredna analitika ili modeli strojnog učenja za obuku.

Klasična 'anonimizacija' nije uvijek najbolje rješenje jer:

  1. Rizik privatnosti – uvijek ćeš imati
    rizik privatnosti. Primjenjujući one
    klasične tehnike anonimizacije
    samo otežava, ali ne
    nemoguće identificirati pojedince.
  2. Uništavanje podataka – što više ti
    anonimizirati, to bolje štitite
    svoju privatnost, ali što više vi
    uništiti svoje podatke. Ovo nije što
    želite za analitiku, jer
    uništeni podaci rezultirat će lošim
    uvide.
  3. Dugotrajan – to je rješenje
    to oduzima puno vremena, jer
    te tehnike djeluju drugačije
    po skupu podataka i po tipu podataka.

Sintetički podaci imaju za cilj riješiti sve te nedostatke. Razlika je toliko upečatljiva da smo o tome snimili video. Gledajte ovdje.

Često postavljana pitanja

Sintetički podaci

Općenito, većina naših klijenata koristi sintetičke podatke za:

  • Testiranje i razvoj softvera
  • Sintetički podaci za analitiku, razvoj modela i naprednu analitiku (AI & ML)
  • Demonstracije proizvoda

Pročitajte više i istražite slučajeve upotrebe.

Sintetički podatkovni blizanac algoritmom je generirana replika skupa podataka i/ili baze podataka iz stvarnog svijeta. Uz Synthetic Data Twin, Syntho nastoji oponašati izvorni skup podataka ili bazu podataka što je moguće bliže izvornim podacima kako bi se stvorio realističan prikaz izvornika. Sa sintetičkim podacima blizancem težimo superiornoj kvaliteti sintetičkih podataka u usporedbi s izvornim podacima. To činimo pomoću našeg softvera za sintetičke podatke koji koristi najsuvremenije modele umjetne inteligencije. Ti AI modeli generiraju potpuno nove podatkovne točke i modeliraju ih na takav način da čuvamo karakteristike, odnose i statističke obrasce izvornih podataka do te mjere da ih možete koristiti kao da su izvorni podaci.

To se može koristiti u razne svrhe, kao što je testiranje i obuka modela strojnog učenja, simulacija scenarija za istraživanje i razvoj i stvaranje virtualnih okruženja za obuku i obrazovanje. Sintetički blizanci podataka mogu se koristiti za stvaranje realističnih i reprezentativnih podataka koji se mogu koristiti umjesto podataka iz stvarnog svijeta kada nisu dostupni ili kada bi korištenje podataka iz stvarnog svijeta bilo nepraktično ili neetično zbog strogih propisa o privatnosti podataka.

Pročitajte više.

Da, imamo. Nudimo različite značajke optimizacije i povećanja sintetičkih podataka koje dodaju vrijednost, uključujući ismijavače, kako bismo vaše podatke podigli na višu razinu.

Pročitajte više.

Lažni podaci i sintetički podaci generirani umjetnom inteligencijom obje su vrste sintetičkih podataka, ali se generiraju na različite načine i služe različitim svrhama.

Lažni podaci vrsta su sintetičkih podataka koji se ručno stvaraju i često se koriste u svrhe testiranja i razvoja. Obično se koristi za simulaciju ponašanja podataka iz stvarnog svijeta u kontroliranom okruženju i često se koristi za testiranje funkcionalnosti sustava ili aplikacije. Često je jednostavan, lak za generiranje i ne zahtijeva složene modele ili algoritme. Često, neki refereri također nazivaju podatke lažnim kao "lažnim podacima" ili "lažnim podacima".

Sintetski podaci generirani umjetnom inteligencijom, s druge strane, generiraju se pomoću tehnika umjetne inteligencije, poput strojnog učenja ili generativnih modela. Koristi se za stvaranje realističnih i reprezentativnih podataka koji se mogu koristiti umjesto podataka iz stvarnog svijeta kada bi korištenje podataka iz stvarnog svijeta bilo nepraktično ili neetično zbog strogih propisa o privatnosti. Često je složeniji i zahtijeva više računalnih resursa od ručnih lažnih podataka. Kao rezultat toga, mnogo je realističniji i oponaša izvorne podatke što je moguće bliže.

Ukratko, lažni podaci izrađuju se ručno i obično se koriste za testiranje i razvoj, dok se sintetički podaci generirani umjetnom inteligencijom stvaraju pomoću tehnika umjetne inteligencije i koriste se za stvaranje reprezentativnih i realističnih podataka.

Još pitanja? Pitajte naše stručnjake

Kvaliteta podataka

Zajamčiti da sintetički podaci imaju istu kvalitetu podataka kao izvorni podaci može biti izazovno i često ovisi o konkretnom slučaju upotrebe i metodama koje se koriste za generiranje sintetičkih podataka. Neke metode za generiranje sintetičkih podataka, kao što su generativni modeli, mogu proizvesti podatke koji su vrlo slični izvornim podacima. Ključno pitanje: kako to pokazati?

Postoji nekoliko načina za osiguranje kvalitete sintetičkih podataka:

  • Mjerni podaci o kvaliteti podataka putem našeg izvješća o kvaliteti podataka: Jedan od načina da se osigura da sintetički podaci imaju istu kvalitetu podataka kao izvorni podaci je korištenje metrike kvalitete podataka za usporedbu sintetičkih podataka s izvornim podacima. Ovi se pokazatelji mogu koristiti za mjerenje sličnosti, točnosti i potpunosti podataka. Softver Syntho uključivao je izvješće o kvaliteti podataka s različitim mjerama kvalitete podataka.
  • Vanjska evaluacija: budući da je kvaliteta podataka sintetičkih podataka u usporedbi s izvornim podacima ključna, nedavno smo obavili procjenu sa stručnjacima za podatke tvrtke SAS (vodeći na tržištu u analitici) kako bismo pokazali kvalitetu podataka sintetičkih podataka tvrtke Syntho u usporedbi sa stvarnim podacima. Edwin van Unen, stručnjak za analitiku iz SAS-a, procijenio je generirane sintetičke skupove podataka iz Syntha putem različitih analitičkih (AI) procjena i podijelio rezultate. Ovdje pogledajte kratki sažetak tog videa.
  • Testiranje i procjena sami: sintetički podaci mogu se testirati i evaluirati uspoređujući ih s podacima iz stvarnog svijeta ili koristeći ih za treniranje modela strojnog učenja i uspoređujući njihovu izvedbu s modelima obučenim na podacima iz stvarnog svijeta. Zašto ne biste sami testirali kvalitetu sintetičkih podataka? Pitajte naše stručnjake za mogućnosti ovoga ovdje

Važno je napomenuti da sintetički podaci nikada ne mogu jamčiti da su 100% slični izvornim podacima, ali mogu biti dovoljno blizu da budu korisni za određeni slučaj upotrebe. Ovaj specifični slučaj upotrebe može biti čak i napredna analitika ili modeli strojnog učenja za obuku.

Da je. Sintetski podaci čak sadrže obrasce za koje niste znali da su prisutni u izvornim podacima.

Ali nemojte nam samo vjerovati na riječ. Stručnjaci za analitiku SAS-a (globalnog tržišnog lidera u analitici) izvršili su (AI) procjenu naših sintetičkih podataka i usporedili ih s izvornim podacima. Znatiželjan? Gledaj cijeli događaj ovdje ili pogledajte kratku verziju o kvaliteta podataka ovdje.

Da, imamo. Naša je platforma optimizirana za baze podataka i, posljedično, očuvanje referentnog integriteta između skupova podataka u bazi podataka.

Želiš li saznati više o ovome?

Pitajte naše stručnjake izravno.

Privatnost

Ne, nemamo. Možemo jednostavno implementirati Syntho Engine on-premise ili u vašem privatnom oblaku putem dockera.

Ne. Optimizirali smo našu platformu na takav način da se može lako implementirati u pouzdanom okruženju korisnika. To osigurava da podaci nikada neće napustiti pouzdano okruženje korisnika. Mogućnosti implementacije za klijentovo pouzdano okruženje su "on-premise" i u "cloud okruženju kupca (privatni oblak)".

Izborno: Syntho podržava verziju koja se nalazi u "Syntho oblaku".

Ne. Syntho Engine je samoposlužna platforma. Kao rezultat toga, generiranje sintetičkih podataka pomoću Syntho Enginea moguće je na način da u end-to-end procesa, Syntho nikada ne može vidjeti i nikada ne mora obraditi podatke.

Da, to radimo putem našeg QA izvješća.

 

Prilikom sintetiziranja skupa podataka bitno je pokazati da nije moguće ponovno identificirati pojedince. U ovaj video, Marijn uvodi mjere zaštite privatnosti koje se nalaze u našem izvješću o kvaliteti kako bi to dokazao.

Syntho QA izvješće sadrži tri industrijski standard metrike za procjenu privatnosti podataka. Ideja iza svake od ovih metrika je sljedeća:

  • Sintetički podaci (S) moraju biti "što je moguće bliže", ali "ne preblizu" ciljnim podacima (T).
  • Nasumično odabrani podaci čekanja (H) određuje mjerilo za "preblizu".
  • A savršeno rješenje generira nove sintetičke podatke koji se ponašaju točno kao izvorni podaci, ali dosad nisu viđeni (= H).

Jedan od slučajeva upotrebe koji je nizozemsko tijelo za zaštitu podataka posebno istaknulo je korištenje sintetičkih podataka kao testnih podataka.

Više možete pronaći u ovom članku.

Syntho motor

Syntho Engine se isporučuje u Docker spremniku i može se jednostavno postaviti i priključiti u okruženje po vašem izboru.

Moguće opcije implementacije uključuju:

  • Na prostor
  • Bilo koji (privatni) oblak
  • Bilo koja druga sredina

Čitaj više.

Syntho vam omogućuje jednostavno povezivanje s vašim bazama podataka, aplikacijama, podatkovnim cjevovodima ili datotečnim sustavima. 

Podržavamo različite integrirane konektore kako biste se mogli povezati s izvornim okruženjem (gdje su izvorni podaci pohranjeni) i odredišnim okruženjem (gdje želite upisati svoje sintetičke podatke) za end-to-end integrirani pristup.

Značajke povezivanja koje podržavamo:

  • Plug-and-play s Dockerom
  • 20+ konektora za bazu podataka
  • 20+ konektora datotečnog sustava

Čitaj više.

Naravno, vrijeme generiranja ovisi o veličini baze podataka. U prosjeku se tablica s manje od milijun zapisa sintetizira za manje od 1 minuta.

Algoritmi strojnog učenja tvrtke Syntho mogu bolje generalizirati značajke s više dostupnih zapisa entiteta, što smanjuje rizik privatnosti. Preporuča se minimalni omjer stupca i retka od 1:500. Na primjer, ako vaša izvorna tablica ima 6 stupaca, trebala bi sadržavati najmanje 3000 redaka.

Nikako. Iako će možda trebati malo truda da se u potpunosti razumiju prednosti, rad i slučajevi korištenja sintetičkih podataka, proces sintetizacije je vrlo jednostavan i svatko s osnovnim računalnim znanjem to može učiniti. Za više informacija o postupku sintetiziranja pogledajte ovu stranicu or zatražite demo.

Syntho Engine najbolje radi na strukturiranim, tabličnim podacima (sve što sadrži retke i stupce). Unutar ovih struktura podržavamo sljedeće vrste podataka:

  • Strukturira podatke formatirane u tablicama (kategoričke, brojčane, itd.)
  • Izravni identifikatori i PII
  • Veliki skupovi podataka i baze podataka
  • Podaci o geografskoj lokaciji (kao što je GPS)
  • Podaci o vremenskim serijama
  • Baze podataka s više tablica (s referentnim integritetom)
  • Otvorite tekstualne podatke

 

Podrška za složene podatke
Uz sve obične vrste tabličnih podataka, Syntho Engine podržava složene tipove podataka i složene strukture podataka.

  • Vremenske serije
  • Baze podataka s više tablica
  • Otvoreni tekst

Čitaj više.

Ne, optimizirali smo našu platformu kako bismo smanjili računalne zahtjeve (npr. nije potreban GPU), bez ugrožavanja točnosti podataka. Osim toga, podržavamo automatsko skaliranje, tako da se mogu sintetizirati ogromne baze podataka.

Da. Softver Syntho optimiziran je za baze podataka koje sadrže više tablica.

Što se ovoga tiče, Syntho automatski otkriva tipove podataka, sheme i formate kako bi povećao točnost podataka. Za bazu podataka s više tablica podržavamo automatsko zaključivanje i sintezu odnosa tablica kako bismo očuvali referentni integritet.

skupina nasmijanih ljudi

Podaci su sintetički, ali naš tim je stvaran!

Kontaktirajte Syntho a jedan od naših stručnjaka stupit će u kontakt s vama brzinom svjetlosti kako bi istražio vrijednost sintetičkih podataka!