Što su sintetički podaci?
Odgovor je relativno jednostavan. Dok se izvorni podaci prikupljaju u svim vašim interakcijama sa stvarnim osobama (npr. klijentima, pacijentima, zaposlenicima itd.) i kroz sve vaše interne procese, sintetičke podatke generira računalni algoritam. Ovaj računalni algoritam generira potpuno nove i umjetne podatkovne točke.
Riješite probleme privatnosti podataka
Sintetički generirani podaci sastoje se od potpuno novih i umjetnih točaka podataka bez odnosa jedan-na-jedan s izvornim podacima. Stoga se niti jedna od sintetičkih točaka podataka ne može pratiti unatrag ili obrnutim inženjeringom prema izvornim podacima. Kao rezultat toga, sintetički podaci izuzeti su od propisa o privatnosti, kao što je GDPR, te služe kao rješenje za rješavanje i prevladavanje izazova u vezi s privatnošću podataka.
Povećajte i simulirajte
Generativni aspekt generiranja sintetičkih podataka omogućuje povećanje i simulaciju potpuno novih podataka. Ovo funkcionira kao rješenje kada nemate dovoljno podataka (nedostatak podataka), želite pojačati uzorkovanje rubnih slučajeva ili kada još nemate podatke.
Ovdje je fokus Syntha na strukturiranim podacima (podaci oblikovani u tablicama koje sadrže retke i stupce, kao što vidite na Excel tablicama), ali uvijek volimo ilustrirati koncept sintetičkih podataka putem slika, jer su privlačniji.
U okviru sintetičkih podataka postoje tri vrste sintetičkih podataka. Te 3 vrste sintetičkih podataka su: lažni podaci, sintetički podaci generirani na temelju pravila i sintetički podaci generirani umjetnom inteligencijom (AI). Ukratko objašnjavamo koje su 3 različite vrste sintetičkih podataka.
Lažni podaci su nasumično generirani podaci (npr. lažnim generatorom podataka).
Posljedično, karakteristike, odnosi i statistički obrasci koji se nalaze u izvornim podacima nisu sačuvani, zarobljeni i reproducirani u generiranim lažnim podacima. Stoga je reprezentativnost lažnih podataka / lažnih podataka minimalna u usporedbi s izvornim podacima.
Generirani sintetički podaci temeljeni na pravilima sintetski su podaci generirani unaprijed definiranim skupom pravila. Primjeri tih unaprijed definiranih pravila mogu biti da biste željeli imati sintetičke podatke s određenom minimalnom vrijednošću, maksimalnom vrijednošću ili prosječnom vrijednošću. Bilo koja od karakteristika, odnosa i statističkih obrazaca, koje biste željeli reproducirati u sintetičkim podacima koji se temelje na pravilima, moraju biti unaprijed definirani.
Posljedično, kvaliteta podataka bit će jednako dobra kao i unaprijed definirani skup pravila. To rezultira izazovima kada je visoka kvaliteta podataka bitna. Prvo, može se definirati samo ograničen skup pravila koja će biti zarobljena u sintetičkim podacima. Osim toga, postavljanje više pravila obično će dovesti do preklapanja i sukoba pravila. Štoviše, nikada nećete u potpunosti pokriti sva relevantna pravila. Nadalje, mogu postojati relevantna pravila kojih niste ni svjesni. I na kraju (i da ne zaboravim), ovo će vam oduzeti puno vremena i energije što rezultira neučinkovitim rješenjem.
Kao što očekujete od naziva, sintetski podaci koje generira umjetna inteligencija (AI) su sintetski podaci generirani algoritmom umjetne inteligencije (AI). AI model je obučen na izvornim podacima kako bi naučio sve karakteristike, odnose i statističke obrasce. Nakon toga, ovaj AI algoritam može generirati potpuno nove podatkovne točke i modelirati te nove podatkovne točke na takav način da reproducira karakteristike, odnose i statističke obrasce iz izvornog skupa podataka. To je ono što zovemo sintetički podatkovni blizanac.
AI model oponaša izvorne podatke za generiranje sintetičkih podataka blizanaca koji se mogu koristiti kao da su izvorni podaci. Ovo otključava različite slučajeve upotrebe u kojima se sintetički podaci generirani umjetnom inteligencijom mogu koristiti kao alternativa za korištenje izvornih (osjetljivih) podataka, kao što je korištenje sintetičkih podataka generiranih umjetnom inteligencijom kao testnih podataka, demo podataka ili za analitiku.
U usporedbi sa sintetičkim podacima koji se generiraju na temelju pravila: umjesto da vi proučavate i definirate relevantna pravila, AI algoritam to radi automatski umjesto vas. Ovdje neće biti obuhvaćene samo karakteristike, odnosi i statistički obrasci kojih ste svjesni, već će biti obuhvaćene i karakteristike, odnosi i statistički obrasci kojih niste ni svjesni.
Ovisno o vašem slučaju upotrebe, preporuča se kombinacija lažnih podataka / lažnih podataka, sintetičkih podataka generiranih na temelju pravila ili sintetičkih podataka generiranih umjetnom inteligencijom (AI). Ovaj pregled vam daje prvu naznaku koju vrstu sintetičkih podataka koristiti. Budući da Syntho podržava sve njih, slobodno kontaktirajte naše stručnjake kako bi s nama duboko zaronili u vaš slučaj upotrebe.