Što su sintetički podaci?

Sintetički podaci ubrzanog kursa

 

 

Uvod

Što su sintetički podaci?

Odgovor je relativno jednostavan. Dok se izvorni podaci prikupljaju u svim vašim interakcijama sa stvarnim osobama (npr. klijentima, pacijentima, zaposlenicima itd.) i kroz sve vaše interne procese, sintetičke podatke generira računalni algoritam. Ovaj računalni algoritam generira potpuno nove i umjetne podatkovne točke.

Riješite probleme privatnosti podataka

Sintetički generirani podaci sastoje se od potpuno novih i umjetnih točaka podataka bez odnosa jedan-na-jedan s izvornim podacima. Stoga se niti jedna od sintetičkih točaka podataka ne može pratiti unatrag ili obrnutim inženjeringom prema izvornim podacima. Kao rezultat toga, sintetički podaci izuzeti su od propisa o privatnosti, kao što je GDPR, te služe kao rješenje za rješavanje i prevladavanje izazova u vezi s privatnošću podataka.

Povećajte i simulirajte

Generativni aspekt generiranja sintetičkih podataka omogućuje povećanje i simulaciju potpuno novih podataka. Ovo funkcionira kao rješenje kada nemate dovoljno podataka (nedostatak podataka), želite pojačati uzorkovanje rubnih slučajeva ili kada još nemate podatke.

Ovdje je fokus Syntha na strukturiranim podacima (podaci oblikovani u tablicama koje sadrže retke i stupce, kao što vidite na Excel tablicama), ali uvijek volimo ilustrirati koncept sintetičkih podataka putem slika, jer su privlačniji.

Vrste sintetičkih podataka

U okviru sintetičkih podataka postoje tri vrste sintetičkih podataka. Te 3 vrste sintetičkih podataka su: lažni podaci, sintetički podaci generirani na temelju pravila i sintetički podaci generirani umjetnom inteligencijom (AI). Ukratko objašnjavamo koje su 3 različite vrste sintetičkih podataka.

Lažni podaci / lažni podaci

Lažni podaci su nasumično generirani podaci (npr. lažnim generatorom podataka).

Posljedično, karakteristike, odnosi i statistički obrasci koji se nalaze u izvornim podacima nisu sačuvani, zarobljeni i reproducirani u generiranim lažnim podacima. Stoga je reprezentativnost lažnih podataka / lažnih podataka minimalna u usporedbi s izvornim podacima.

  • Kada ga koristiti: za zamjenu izravnih identifikatora (PII) ili kada nemate podatke (još) i ne želite trošiti vrijeme i energiju na definiranje pravila.

Generirani sintetički podaci na temelju pravila

Generirani sintetički podaci temeljeni na pravilima sintetski su podaci generirani unaprijed definiranim skupom pravila. Primjeri tih unaprijed definiranih pravila mogu biti da biste željeli imati sintetičke podatke s određenom minimalnom vrijednošću, maksimalnom vrijednošću ili prosječnom vrijednošću. Bilo koja od karakteristika, odnosa i statističkih obrazaca, koje biste željeli reproducirati u sintetičkim podacima koji se temelje na pravilima, moraju biti unaprijed definirani.

Posljedično, kvaliteta podataka bit će jednako dobra kao i unaprijed definirani skup pravila. To rezultira izazovima kada je visoka kvaliteta podataka bitna. Prvo, može se definirati samo ograničen skup pravila koja će biti zarobljena u sintetičkim podacima. Osim toga, postavljanje više pravila obično će dovesti do preklapanja i sukoba pravila. Štoviše, nikada nećete u potpunosti pokriti sva relevantna pravila. Nadalje, mogu postojati relevantna pravila kojih niste ni svjesni. I na kraju (i da ne zaboravim), ovo će vam oduzeti puno vremena i energije što rezultira neučinkovitim rješenjem.

  • Kada ga koristiti: kada nemate podatke (još)

Sintetski podaci generirani umjetnom inteligencijom (AI)

Kao što očekujete od naziva, sintetski podaci koje generira umjetna inteligencija (AI) su sintetski podaci generirani algoritmom umjetne inteligencije (AI). AI model je obučen na izvornim podacima kako bi naučio sve karakteristike, odnose i statističke obrasce. Nakon toga, ovaj AI algoritam može generirati potpuno nove podatkovne točke i modelirati te nove podatkovne točke na takav način da reproducira karakteristike, odnose i statističke obrasce iz izvornog skupa podataka. To je ono što zovemo sintetički podatkovni blizanac.

AI model oponaša izvorne podatke za generiranje sintetičkih podataka blizanaca koji se mogu koristiti kao da su izvorni podaci. Ovo otključava različite slučajeve upotrebe u kojima se sintetički podaci generirani umjetnom inteligencijom mogu koristiti kao alternativa za korištenje izvornih (osjetljivih) podataka, kao što je korištenje sintetičkih podataka generiranih umjetnom inteligencijom kao testnih podataka, demo podataka ili za analitiku.

Vizualizacija stvaranja sintetičkih podataka

U usporedbi sa sintetičkim podacima koji se generiraju na temelju pravila: umjesto da vi proučavate i definirate relevantna pravila, AI algoritam to radi automatski umjesto vas. Ovdje neće biti obuhvaćene samo karakteristike, odnosi i statistički obrasci kojih ste svjesni, već će biti obuhvaćene i karakteristike, odnosi i statistički obrasci kojih niste ni svjesni.

  • Kada ga koristiti: kada imate (neke) podatke kao ulaz za oponašanje ili za korištenje kao početnu točku za pametno generiranje podataka i značajke povećanja

Koju vrstu sintetičkih podataka koristiti?

Ovisno o vašem slučaju upotrebe, preporuča se kombinacija lažnih podataka / lažnih podataka, sintetičkih podataka generiranih na temelju pravila ili sintetičkih podataka generiranih umjetnom inteligencijom (AI). Ovaj pregled vam daje prvu naznaku koju vrstu sintetičkih podataka koristiti. Budući da Syntho podržava sve njih, slobodno kontaktirajte naše stručnjake kako bi s nama duboko zaronili u vaš slučaj upotrebe.

Ovaj grafikon predstavlja različite vrste sintetičkih podataka

pokrov sinto vodiča

Spremite svoj vodič za sintetičke podatke sada!