FAQ

Često postavljana pitanja o sintetičkim podacima

Razumljivo! Srećom, imamo odgovore i tu smo da pomognemo. Provjerite naša često postavljana pitanja.

Molimo otvorite pitanje ispod i kliknite na linkove da biste pronašli više informacija. Imate komplikovanije pitanje koje ovdje nije navedeno? Pitajte naše stručnjake direktno!

Najčešća pitanja

Sintetički podaci se odnose na podatke koji su umjetno generirani, a ne prikupljeni iz izvora u stvarnom svijetu. Općenito, dok se originalni podaci prikupljaju u svim vašim interakcijama s osobama (klijenti, pacijenti, itd.) i kroz sve vaše interne procese, sintetički podaci se generiraju pomoću kompjuterskog algoritma.

Sintetički podaci se također mogu koristiti za testiranje i evaluaciju modela u kontroliranom okruženju, ili za zaštitu osjetljivih informacija generiranjem podataka koji su slični podacima iz stvarnog svijeta, ali ne sadrže nikakve osjetljive informacije. Sintetički podaci se često koriste kao alternativa za podatke osjetljive na privatnost i mogu se koristiti kao testni podaci, za analitiku ili za obuku mašinskog učenja.

Čitaj više

Garantovanje da sintetički podaci imaju isti kvalitet podataka kao originalni podaci može biti izazovno i često zavisi od specifičnog slučaja upotrebe i metoda koje se koriste za generisanje sintetičkih podataka. Neke metode za generiranje sintetičkih podataka, kao što su generativni modeli, mogu proizvesti podatke koji su vrlo slični originalnim podacima. Ključno pitanje: kako to pokazati?

Postoji nekoliko načina da se osigura kvalitet sintetičkih podataka:

  • metrika kvaliteta podataka putem našeg izvještaja o kvaliteti podataka: Jedan od načina da osigurate da sintetički podaci imaju isti kvalitet podataka kao i originalni podaci je korištenje metrike kvaliteta podataka za poređenje sintetičkih podataka s originalnim podacima. Ove metrike se mogu koristiti za mjerenje stvari kao što su sličnost, tačnost i potpunost podataka. Syntho softver je uključivao izvještaj o kvaliteti podataka sa različitim metrikama kvaliteta podataka.
  • Eksterna evaluacija: budući da je kvalitet podataka sintetičkih podataka u odnosu na originalne podatke ključan, nedavno smo uradili procjenu sa stručnjacima za podatke SAS-a (tržišni lider u analitici) kako bismo demonstrirali kvalitet podataka sintetičkih podataka od strane Synthoa u odnosu na stvarne podatke. Edwin van Unen, stručnjak za analitiku iz SAS-a, procijenio je generirane sintetičke skupove podataka iz Synthoa putem različitih analitičkih (AI) procjena i podijelio rezultate. Pogledajte kratak rezime tog videa ovdje.
  • Testiranje i evaluacija sami: sintetički podaci se mogu testirati i evaluirati upoređujući ih s podacima iz stvarnog svijeta ili koristeći ih za obuku modela mašinskog učenja i upoređujući njihove performanse s modelima obučenim na podacima iz stvarnog svijeta. Zašto ne biste sami testirali kvalitet podataka sintetičkih podataka? Pitajte naše stručnjake za mogućnosti ovoga ovdje

Važno je napomenuti da sintetički podaci nikada ne mogu garantirati da će biti 100% slični originalnim podacima, ali mogu biti dovoljno blizu da budu korisni za određeni slučaj upotrebe. Ovaj specifični slučaj upotrebe može čak biti i napredna analitika ili modeli za obuku mašinskog učenja.

Klasična 'anonimizacija' nije uvijek najbolje rješenje, jer:

  1. Rizik privatnosti – uvek ćeš imati
    rizik privatnosti. Primjenjujući ih
    klasične tehnike anonimizacije
    samo otežava, ali ne
    nemoguće identifikovati pojedince.
  2. Uništavanje podataka – što više tebe
    anonimizirajte, to bolje štitite
    vaša privatnost, ali što više vas
    uništite vaše podatke. Ovo nije ono
    želite za analitiku, jer
    uništeni podaci će rezultirati lošim
    uvida.
  3. Vreme vremena – to je rešenje
    to oduzima dosta vremena, jer
    te tehnike rade drugačije
    po skupu podataka i po tipu podataka.

Sintetički podaci imaju za cilj da riješe sve ove nedostatke. Razlika je toliko upečatljiva da smo snimili video o tome. Gledajte ovdje.

Često Postavljena Pitanja

Sintetički podaci

Generalno, većina naših klijenata koristi sintetičke podatke za:

  • Testiranje i razvoj softvera
  • Sintetički podaci za analitiku, razvoj modela i naprednu analitiku (AI & ML)
  • Demonstracije proizvoda

Pročitajte više i istražite slučajeve upotrebe.

Sintetički blizanac podataka je algoritam generirana replika skupa podataka i/ili baze podataka iz stvarnog svijeta. Sa sintetičkim blizancem podataka, Syntho ima za cilj da imitira originalni skup podataka ili bazu podataka što je moguće bliže originalnim podacima kako bi stvorio realističan prikaz originala. Sa sintetičkim blizancem podataka, težimo vrhunskom kvalitetu sintetičkih podataka u odnosu na originalne podatke. Ovo radimo sa našim softverom za sintetičke podatke koji koristi najsavremenije AI modele. Ti modeli AI generiraju potpuno nove podatkovne točke i modeliraju ih na takav način da čuvamo karakteristike, odnose i statističke obrasce originalnih podataka do te mjere da ih možete koristiti kao da su originalni podaci.

Ovo se može koristiti u različite svrhe, kao što su testiranje i obuka modela mašinskog učenja, simulacija scenarija za istraživanje i razvoj i stvaranje virtuelnih okruženja za obuku i obrazovanje. Sintetički blizanci podataka mogu se koristiti za stvaranje realističnih i reprezentativnih podataka koji se mogu koristiti umjesto podataka iz stvarnog svijeta kada nisu dostupni ili kada bi korištenje podataka iz stvarnog svijeta bilo nepraktično ili neetično zbog strogih propisa o privatnosti podataka.

Čitaj više.

Da. Nudimo različite funkcije za optimizaciju i povećanje sintetičkih podataka koje dodaju vrijednost, uključujući ismijavanje, kako bi vaše podatke podigli na višu razinu.

Čitaj više.

Lažni podaci i sintetički podaci generirani umjetnom inteligencijom su obje vrste sintetičkih podataka, ali se generiraju na različite načine i služe različitim svrhama.

Lažni podaci su vrsta sintetičkih podataka koji se kreiraju ručno i često se koriste u svrhe testiranja i razvoja. Obično se koristi za simulaciju ponašanja podataka iz stvarnog svijeta u kontroliranom okruženju i često se koristi za testiranje funkcionalnosti sistema ili aplikacije. Često je jednostavan, lak za generisanje i ne zahteva složene modele ili algoritme. Često, neko upućuje i na lažne podatke kao na "lažne podatke" ili "lažne podatke".

Sintetički podaci generirani umjetnom inteligencijom, s druge strane, generiraju se pomoću tehnika umjetne inteligencije, kao što su strojno učenje ili generativni modeli. Koristi se za stvaranje realističnih i reprezentativnih podataka koji se mogu koristiti umjesto podataka iz stvarnog svijeta kada bi korištenje podataka iz stvarnog svijeta bilo nepraktično ili neetično zbog strogih propisa o privatnosti. Često je složeniji i zahtijeva više računskih resursa od ručnih lažnih podataka. Kao rezultat toga, mnogo je realističniji i što je moguće bliže oponaša originalne podatke.

Ukratko, lažni podaci se kreiraju ručno i obično se koriste za testiranje i razvoj, dok se sintetički podaci generirani umjetnom inteligencijom kreiraju korištenjem tehnika umjetne inteligencije i koriste se za kreiranje reprezentativnih i realističnih podataka.

Još pitanja? Pitajte naše stručnjake

Kvalitet podataka

Garantovanje da sintetički podaci imaju isti kvalitet podataka kao originalni podaci može biti izazovno i često zavisi od specifičnog slučaja upotrebe i metoda koje se koriste za generisanje sintetičkih podataka. Neke metode za generiranje sintetičkih podataka, kao što su generativni modeli, mogu proizvesti podatke koji su vrlo slični originalnim podacima. Ključno pitanje: kako to pokazati?

Postoji nekoliko načina da se osigura kvalitet sintetičkih podataka:

  • metrika kvaliteta podataka putem našeg izvještaja o kvaliteti podataka: Jedan od načina da osigurate da sintetički podaci imaju isti kvalitet podataka kao i originalni podaci je korištenje metrike kvaliteta podataka za poređenje sintetičkih podataka s originalnim podacima. Ove metrike se mogu koristiti za mjerenje stvari kao što su sličnost, tačnost i potpunost podataka. Syntho softver je uključivao izvještaj o kvaliteti podataka sa različitim metrikama kvaliteta podataka.
  • Eksterna evaluacija: budući da je kvalitet podataka sintetičkih podataka u odnosu na originalne podatke ključan, nedavno smo uradili procjenu sa stručnjacima za podatke SAS-a (tržišni lider u analitici) kako bismo demonstrirali kvalitet podataka sintetičkih podataka od strane Synthoa u odnosu na stvarne podatke. Edwin van Unen, stručnjak za analitiku iz SAS-a, procijenio je generirane sintetičke skupove podataka iz Synthoa putem različitih analitičkih (AI) procjena i podijelio rezultate. Pogledajte kratak rezime tog videa ovdje.
  • Testiranje i evaluacija sami: sintetički podaci se mogu testirati i evaluirati upoređujući ih s podacima iz stvarnog svijeta ili koristeći ih za obuku modela mašinskog učenja i upoređujući njihove performanse s modelima obučenim na podacima iz stvarnog svijeta. Zašto ne biste sami testirali kvalitet podataka sintetičkih podataka? Pitajte naše stručnjake za mogućnosti ovoga ovdje

Važno je napomenuti da sintetički podaci nikada ne mogu garantirati da će biti 100% slični originalnim podacima, ali mogu biti dovoljno blizu da budu korisni za određeni slučaj upotrebe. Ovaj specifični slučaj upotrebe može čak biti i napredna analitika ili modeli za obuku mašinskog učenja.

Da, jeste. Sintetički podaci čak sadrže obrasce za koje niste znali da su prisutni u originalnim podacima.

Ali nemojte nam samo vjerovati na riječ. Stručnjaci za analitiku SAS-a (globalnog tržišnog lidera u analitici) izvršili su (AI) procjenu naših sintetičkih podataka i uporedili ih s originalnim podacima. Radoznao? Gledajte ceo događaj ovde ili pogledajte kratku verziju o kvaliteta podataka ovdje.

Da. Naša platforma je optimizirana za baze podataka i shodno tome, očuvanje referentnog integriteta između skupova podataka u bazi podataka.

Radoznali ste da saznate više o ovome?

Pitajte naše stručnjake direktno.

privatnost

Ne, nemamo. Lako možemo implementirati Syntho Engine na licu mjesta ili u vašem privatnom oblaku putem docker-a.

Ne. Optimizirali smo našu platformu na takav način da se može lako primijeniti u pouzdanom okruženju korisnika. Ovo osigurava da podaci nikada neće napustiti okruženje od povjerenja korisnika. Opcije implementacije za pouzdano okruženje klijenta su “on-premise” i u “cloud okruženju korisnika (privatni oblak)”.

Opciono: Syntho podržava verziju koja se nalazi u „Syntho oblaku“.

Ne. Syntho Engine je samouslužna platforma. Kao rezultat toga, generiranje sintetičkih podataka pomoću Syntho Engine-a moguće je na način da u end-to-end proces, Syntho nikada nije u mogućnosti da vidi i nikada mu nije potrebno da obrađuje podatke.

Da, mi to radimo putem našeg QA izvještaja.

 

Prilikom sintetiziranja skupa podataka, bitno je pokazati da osoba nije u stanju ponovo identificirati pojedince. U ovaj video, Marijn uvodi mjere zaštite privatnosti koje se nalaze u našem izvještaju o kvaliteti kako bi to demonstrirali.

Synthoov QA izvještaj sadrži tri industrijski standard metrike za procjenu privatnosti podataka. Ideja iza svake od ovih metrika je sljedeća:

  • Sintetički podaci (S) mora biti „što je moguće bliže“, ali „ne preblizu“ ciljnim podacima (T).
  • Nasumično odabrani podaci o zadržavanju (H) određuje referentnu vrijednost za “preblizu”.
  • A savršeno rješenje generira nove sintetičke podatke koji se ponašaju točno kao originalni podaci, ali nisu viđeni prije (= H).

Jedan od slučajeva upotrebe koji je posebno istaknuo holandsko tijelo za zaštitu podataka je korištenje sintetičkih podataka kao podataka za testiranje.

Više možete pronaći u ovom članku.

Syntho Engine

Syntho Engine se isporučuje u Docker kontejneru i može se lako postaviti i uključiti u okruženje po vašem izboru.

Moguće opcije implementacije uključuju:

  • U objektu
  • Bilo koji (privatni) oblak
  • Bilo koje drugo okruženje

Čitaj više.

Syntho vam omogućava da se lako povežete sa vašim bazama podataka, aplikacijama, cevovodima podataka ili sistemima datoteka. 

Podržavamo različite integrisane konektore tako da se možete povezati sa izvornim okruženjem (gde se pohranjuju originalni podaci) i odredišnim okruženjem (u koje želite da upišete svoje sintetičke podatke) za end-to-end integrisani pristup.

Funkcije povezivanja koje podržavamo:

  • Plug-and-play uz Docker
  • 20+ konektora baze podataka
  • 20+ konektora za sistem datoteka

Čitaj više.

Naravno, vrijeme generiranja ovisi o veličini baze podataka. U prosjeku, tabela s manje od 1 milion zapisa sintetizira se za manje od 5 minuta.

Syntho-ovi algoritmi za mašinsko učenje mogu bolje generalizovati karakteristike sa više dostupnih zapisa entiteta, što smanjuje rizik privatnosti. Preporučuje se minimalni omjer kolone prema redu od 1:500. Na primjer, ako vaša izvorna tablica ima 6 stupaca, trebala bi sadržavati najmanje 3000 redova.

Ne sve. Iako je možda potrebno malo truda da se u potpunosti razumiju prednosti, rad i slučajevi upotrebe sintetičkih podataka, proces sintetizacije je vrlo jednostavan i svako sa osnovnim kompjuterskim znanjem to može učiniti. Za više informacija o procesu sinteze pogledajte ovu stranicu or zatražite demo.

Syntho Engine najbolje radi na strukturiranim, tabelarnim podacima (sve što sadrži redove i stupce). Unutar ovih struktura podržavamo sljedeće tipove podataka:

  • Strukturira podatke formatirane u tabelama (kategoričke, numeričke, itd.)
  • Direktni identifikatori i PII
  • Veliki skupovi podataka i baze podataka
  • Podaci o geografskoj lokaciji (kao što je GPS)
  • Podaci o vremenskim serijama
  • Višetabelarne baze podataka (sa referentnim integritetom)
  • Otvorite tekstualne podatke

 

Kompleksna podrška za podatke
Pored svih regularnih tipova tabelarnih podataka, Syntho Engine podržava složene tipove podataka i složene strukture podataka.

  • Vremenske serije
  • Baze podataka sa više tablica
  • Otvori tekst

Čitaj više.

Ne, optimizirali smo našu platformu kako bismo minimizirali računske zahtjeve (npr. nije potreban GPU), bez kompromisa u pogledu tačnosti podataka. Osim toga, podržavamo automatsko skaliranje, tako da se mogu sintetizirati ogromne baze podataka.

Da. Syntho softver je optimizovan za baze podataka koje sadrže više tabela.

Što se toga tiče, Syntho automatski detektuje tipove podataka, šeme i formate kako bi maksimizirao tačnost podataka. Za bazu podataka s više tablica, podržavamo automatsko zaključivanje i sintezu odnosa tablice radi očuvanja referentnog integriteta.

grupa ljudi nasmejanih

Podaci su sintetički, ali naš tim je stvaran!

Kontaktirajte Syntho i jedan od naših stručnjaka će vas kontaktirati brzinom svjetlosti kako bi istražio vrijednost sintetičkih podataka!