Vodič za generiranje sintetičkih podataka: definicija, tipovi i aplikacije

Nije tajna da se preduzeća suočavaju s izazovima u prikupljanju i dijeljenju visokokvalitetnih podataka. Generisanje sintetičkih podataka je praktično rješenje koje pomaže u proizvodnji velikih umjetnih skupova podataka i visokokvalitetnih testnih podataka bez rizika po privatnost ili birokracije.

Sintetički skupovi podataka mogu se kreirati korištenjem raznih metoda, nudeći različite aplikacije. Kada se pravilno procijene, sintetički skupovi podataka generirani korištenjem naprednih algoritama pomažu organizacijama da ubrzaju svoju analitiku, istraživanje i testiranje. Pa hajde da pogledamo izbliza.

Ovaj članak vas upoznaje sa sintetičkim podacima, uključujući glavne tipove, razlike od anonimiziranih skupova podataka i regulatorne nijanse. Naučit ćete kako umjetno generirani podaci rješavaju kritične probleme s podacima i minimiziraju određene rizike. Također ćemo razgovarati o njegovoj primjeni u različitim industrijama, uz primjere iz naših studija slučaja.

Sadržaj

Sintetički podaci: definicija i tržišna statistika

Sintetički podaci je umjetno generirana informacija bez povjerljivog sadržaja i služi kao alternativa stvarnim skupovima podataka. Naučnici podataka često zovu Sintetički podaci generirani umjetnom inteligencijom sintetički blizanac podataka zbog svoje visoke statističke tačnosti u oponašanju stvarnih podataka.

Umjetni skupovi podataka kreiraju se korištenjem algoritama i simulacija umjetne inteligencije (AI) koje održavaju obrasce i korelacije izvornih podataka. Ovi podaci mogu uključivati ​​tekst, tabele i slike. Algoritmi zamjenjuju lične informacije (PII) sa lažni podaci.

Sintetička platforma podataka Syntho sa grafikonom svih rješenja

Grand View Research prognoze za koje tržište sintetičko generiranje podataka s generativnom umjetnom inteligencijom će porasti sa 1.63 milijarde dolara u 2022. na oko 13.5 milijardi dolara do 2030. uz CAGR od 35%. Prema Gartneru, 60% podataka koji se koriste za AI u 2024. će biti sintetički — to je 60 puta više nego 2021.

Platforme za sintetičke podatke su također u porastu. Market Statesville očekuje globalno tržište platformi za sintetičke podatke će porasti sa 218 miliona dolara u 2022. na 3.7 milijardi dolara do 2033. godine.

Zašto su umjetni podaci u porastu? Jedan pokretački faktor je sloboda od regulatornog nadzora.

Da li zakoni o privatnosti reguliraju sintetičke podatke generirane umjetnom inteligencijom?

Mnogi SAD i EU sigurnost i privatnost podataka propisi se primjenjuju na lične podatke koji se mogu identificirati. 

Ali ti propisi se ne odnose na sintetički podaci — sintetički podaci se tretiraju slično kao anonimizirani podaci. Oni čine takozvanu „jezgro“ drugih pravnih pravila.

Na primjer, uvodna izjava 26 GDPR-a kaže da se pravila o zaštiti privatnosti primjenjuju samo na podatke koji se odnose na osobu koja se može identificirati. Ako se vaši sintetički podaci generiraju tako da se ne mogu ući u trag do identificiranih pojedinaca, izuzeti su od regulatornog nadzora. Osim regulatornog nadzora, postoje i druge prepreke za korištenje stvarnih podataka koje podstiču kompanije na generiranje sintetičkih podataka.

Ključni izazovi korištenja stvarnih podataka

Mnoge kompanije teško pronalaze i koriste relevantne, visokokvalitetne podatke, posebno u dovoljnim količinama za obuku AI algoritma. Čak i kada ga pronađu, dijeljenje ili korištenje skupova podataka može biti izazovno zbog rizika privatnosti i problema s kompatibilnošću. Ovaj odjeljak opisuje ključ izaziva sintetičke podatke mogu riješiti.

Rizici privatnosti ometaju korištenje i dijeljenje podataka

Propisi o sigurnosti podataka i privatnosti, kao što su GDPR i HIPAA, uvode birokratske prepreke dijeljenju i korištenju podataka. U industrijama kao što je zdravstvo, čak i dijeljenje PII između odjela unutar iste organizacije može biti dugotrajno zbog provjera upravljanja. Dijeljenje podataka sa vanjskim entitetima je još izazovnije i nosi više sigurnosnih rizika.

Istraživanje iz Fortune Business Insights identificira rastuće rizike privatnosti kao primarni katalizator za usvajanje praksi sintetičkih podataka. Što više podataka pohranite, to više rizikujete da ugrozite privatnost. Prema izvještaj o IBM-ovim sigurnosnim troškovima za 2023. izvješće o kršenju podataka, prosječna cijena povrede podataka u SAD-u iznosila je 9.48 miliona dolara. Širom svijeta, prosječni trošak je bio 4.45 miliona dolara; kompanije sa manje od 500 radnika gube 3.31 milion dolara po kršenju. I to ne uračunava štetu reputaciji.

Poteškoće u pronalaženju visokokvalitetnih podataka

Anketa iz 2022. godine od 500 stručnjaka za podatke otkrilo je da se 77% inženjera, analitičara i naučnika za podatke suočilo s problemima kvaliteta podataka. Prema izvještaju, kvalitet podataka ometa finansijske performanse i produktivnost kompanije i čini postizanje holističkog pogleda na njene usluge teško dostižnim.

Kompanijama možda nedostaje dovoljno podataka iz određenih demografskih podataka da pravilno obuče svoje modele mašinskog učenja (ML). Skupovi podataka često sadrže nedosljednosti, netočnosti i vrijednosti koje nedostaju. Ako trenirate svoje AI platforme sa Modeli mašinskog učenja na podacima niskog kvaliteta kojima nedostaje demografska raznolikost, dat će netačna, pristrasna predviđanja. Slično, poput anonimnog generiranja podataka, nerafinirani algoritmi mogu proizvesti nepouzdane vještačke skupove podataka koji utiču na ishod analize podataka.

Povećanje uzorkovanja sa sintetičkim podacima može poboljšati kvalitet podataka rješavanjem neravnoteža u skupovima podataka. Ovo osigurava da nedovoljno zastupljene klase dobiju proporcionalniju zastupljenost i smanjuje pristrasnost. Robusniji i reprezentativniji skup podataka daje poboljšane rezultate analize i obuku modela.

Nekompatibilnosti skupova podataka

Skupovi podataka koji potiču iz različitih izvora ili unutar baza podataka sa više tablica mogu dovesti do nekompatibilnosti, stvarajući složenost u obradi i analizi podataka i ometajući inovacije.

Na primjer, agregacija podataka u zdravstvu uključuje elektronske zdravstvene kartone (EHR), nosive uređaje, vlasnički softver i alate trećih strana. Svaki izvor može koristiti različite formate podataka i informacione sisteme, što dovodi do dispariteta u formatima podataka, strukturama ili jedinicama tokom integracije. Upotreba sintetičkih podataka može riješiti ovaj izazov, osiguravajući kompatibilnost i omogućavajući to generirati podatke u željenom formatu.

Anonimizacija je nedovoljna

Tehnike anonimizacije nisu dovoljne za prevazilaženje rizika privatnosti ili problema s kvalitetom podataka. Štaviše, maskiranje ili uklanjanje identifikatora može ukloniti detalje potrebne za dubinsku analizu u velikim skupovima podataka.

Osim toga, anonimizirani podaci mogu se ponovo identificirati i pratiti do pojedinaca. Zlonamjerni akteri mogu koristiti naprednu analitiku kako bi otkrili obrasce zasnovane na vremenu koji ugrožavaju anonimnost naizgled neidentifikovanih podataka. Sintetički podaci su superiorniji od anonimnih podataka u tom pogledu.

suprotno anonimizacija, sintetički podaci ne mijenja postojeće skupove podataka već generiše nove podatke koji liče na karakteristike i strukturu neobrađeni podaci, čuvajući njegovu korisnost. To je potpuno novi skup podataka koji ne sadrži lične podatke.

Ali to je nijansiranije od toga. Postoji nekoliko vrsta sintetičke metode generiranja podataka.

Vrste generiranja sintetičkih podataka

Kreiranje sintetičkih podataka procesi se razlikuju u zavisnosti od vrste potrebnih podataka. Sintetički tipovi podataka uključuju u potpunosti generisane AI, bazirane na pravilima i lažne podatke — svaki zadovoljava različite potrebe.

Potpuno sintetički podaci generirani umjetnom inteligencijom

Ovaj tip sintetički podaci je izgrađen od nule koristeći ML algoritame. The model mašinskog učenja trains on stvarni podaci da naučite o strukturi podataka, obrascima i odnosima. Generativni AI zatim koristi ovo znanje da generiše nove podatke koji su veoma slični originalnim statističkim svojstvima (opet, dok ih čine neidentifikujućim).

Ovaj tip potpuno sintetički podaci je koristan za obuku AI modela i dovoljno je dobar da se koristi kao da su stvarni podaci. Posebno je korisno kada ne možete dijeliti svoje skupove podataka zbog ugovornih ugovora o privatnosti. Međutim, da biste generisali sintetičke podatke, potrebna vam je značajna količina originalnih podataka kao polazna tačka model mašinskog učenja obuka.

Sintetički lažni podaci

ovo sintetički podaci tip se odnosi na umjetno stvorene podatke koji oponašaju strukturu i format stvarnih podataka, ali ne odražavaju nužno stvarne informacije. Pomaže programerima da osiguraju da njihove aplikacije mogu rukovati različitim unosima i scenarijima bez korištenja originalnih, privatnih ili osjetljivi podaci i, što je najvažnije, bez oslanjanja na podatke iz stvarnog svijeta. Ova praksa je neophodna za testiranje funkcionalnosti i usavršavanje softverskih aplikacija na kontrolisan i siguran način.

Kada ga koristiti: Za zamjenu direktnih identifikatora (PII) ili kada vam trenutno nedostaju podaci i ne želite da ulažete vrijeme i energiju u definiranje pravila. Programeri obično koriste lažne podatke za procjenu funkcionalnosti i izgleda aplikacija tokom ranih faza razvoja, omogućavajući im da identifikuju potencijalne probleme ili nedostatke u dizajnu. 

Iako lažnim podacima nedostaje autentičnost informacija iz stvarnog svijeta, oni ostaju vrijedan alat za osiguravanje pravilnog funkcionisanja sistema i vizuelnog predstavljanja prije stvarne integracije podataka. 

Napomena: Sintetički izvrgnuti podaci se često nazivaju 'lažni podaci,' iako ne preporučujemo korištenje ovih termina naizmjenično jer se mogu razlikovati u konotacijama. 

Sintetički lažni podaci

Sintetički podaci zasnovani na pravilima

Sintetički podaci zasnovani na pravilima je koristan alat za generiranje prilagođenih skupova podataka na osnovu unaprijed definiranih pravila, ograničenja i logike. Ova metoda pruža fleksibilnost omogućavajući korisnicima da konfigurišu izlaz podataka prema specifičnim poslovnim potrebama, prilagođavajući parametre kao što su minimalne, maksimalne i prosječne vrijednosti. Za razliku od podataka koje je u potpunosti generirala umjetna inteligencija, kojima nedostaje prilagođavanje, sintetički podaci zasnovani na pravilima nude prilagođeno rješenje za ispunjavanje različitih operativnih zahtjeva. Ovo proces generisanja sintetičkih podataka pokazuje se posebno korisnim u testiranju, razvoju i analitici, gdje je precizna i kontrolirana generacija podataka neophodna.

Svaka metoda generiranja sintetičkih podataka ima različite primjene. Syntho-ova platforma se ističe stvaranjem sintetičkih blizanaca podataka uz malo ili nimalo truda s vaše strane. Postajete statistički precizni, visokokvalitetni sintetički podaci za vaše potrebe bez dodatnih troškova usklađenosti.

Tabelarni sintetički podaci

Pojam tabelarni sintetički podaci odnosi se na kreiranje vještačkih podataka podskupovi koji oponašaju strukturu i statistička svojstva stvarnog svijeta tabularni podaci, kao što su podaci pohranjeni u tabelama ili tabelama. Ovo sintetički podaci se kreira pomoću sintetički algoritmi za generiranje podataka i tehnike dizajnirane da repliciraju karakteristike izvorni podaci istovremeno osiguravajući da povjerljivi ili osjetljivi podaci nije objavljeno.

Tehnike za generiranje tabelarno sintetički podaci obično uključuje statističko modeliranje, Modeli mašinskog učenja, ili generativni modeli kao što su generativne adversarijske mreže (GAN) i varijacioni autoenkoderi (VAE). Ove sintetički alati za generiranje podataka analizira obrasce, distribucije i korelacije prisutne u pravi skup podataka a zatim generirati novi podatkovne točke da veoma liče na stvarne podatke ali ne sadrže nikakve stvarne informacije.

Tipična tabela slučajevi upotrebe sintetičkih podataka uključuju rješavanje pitanja privatnosti, povećanje dostupnosti podataka i olakšavanje istraživanja i inovacija u aplikacijama koje se temelje na podacima. Međutim, bitno je osigurati da sintetički podaci precizno bilježi osnovne obrasce i distribuciju originalnih podataka za održavanje data utility i valjanost za nizvodne zadatke.

sintetički graf podataka zasnovan na pravilima

Najpopularnije aplikacije za sintetičke podatke

Vještački generisani podaci otvaraju mogućnosti za inovacije u zdravstvu, maloprodaji, proizvodnji, finansijama i drugim industrijama. Primarni koristite slučajeve uključuju povećanje uzorkovanja podataka, analitiku, testiranje i dijeljenje.

Povećanje uzorkovanja za poboljšanje skupova podataka

Povećanje uzorkovanja znači generiranje većih skupova podataka iz manjih za skaliranje i diversifikaciju. Ova metoda se primjenjuje kada su stvarni podaci oskudni, neuravnoteženi ili nepotpuni.

Razmotrite nekoliko primjera. Za finansijske institucije, programeri mogu poboljšati tačnost modela otkrivanja prevara povećavajući uzorkovanje rijetkih zapažanja i obrazaca aktivnosti u finansijski podaci. Slično tome, marketinška agencija može vršiti nadogradnju uzoraka kako bi povećala podatke koji se odnose na nedovoljno zastupljene grupe, povećavajući preciznost segmentacije.

Napredna analitika s podacima generiranim umjetnom inteligencijom

Kompanije mogu iskoristiti visokokvalitetne sintetičke podatke generirane umjetnom inteligencijom za modeliranje podataka, poslovnu analitiku i klinička istraživanja. Sintetiziranje podataka pokazuje da je održiva alternativa kada je nabavka stvarnih skupova podataka ili preskupa ili dugotrajna.

Sintetički podaci ovlašćuje istraživače da provode dubinske analize bez ugrožavanja povjerljivosti pacijenata. Naučnici podataka a istraživači dobijaju pristup podacima o pacijentima, informacijama o kliničkim stanjima i detaljima lečenja, dobijajući uvide koji bi sa stvarnim podacima zahtevali znatno više vremena. Štaviše, proizvođači mogu slobodno dijeliti podatke sa dobavljačima, uključujući manipulirane GPS i podatke o lokaciji kako bi stvorili algoritme za testiranje performansi ili poboljšali prediktivno održavanje.

Kako god, sintetička evaluacija podataka je kritičan. Izlaz Syntho Engine-a je potvrđen od strane internog tima za osiguranje kvaliteta i eksternih stručnjaka iz Instituta SAS. U studiji prediktivnog modeliranja, obučili smo četiri Modeli mašinskog učenja na stvarnim, anonimnim i sintetičkim podacima. Rezultati su pokazali da modeli obučeni na našim sintetičkim skupovima podataka imaju isti nivo tačnosti kao oni obučeni na stvarnim skupovima podataka, dok anonimni podaci smanjuju korisnost modela.

Eksterno i interno dijeljenje podataka

Sintetički podaci pojednostavljuju dijeljenje podataka unutar i među organizacijama. Možeš koristiti sintetičke podatke to razmjenjuju informacije bez rizika od kršenja privatnosti ili nepoštivanja propisa. Prednosti sintetičkih podataka uključuju ubrzane rezultate istraživanja i efikasniju saradnju.

Maloprodajne kompanije mogu podijeliti uvide sa dobavljačima ili distributerima koristeći sintetičke podatke koji odražavaju ponašanje kupaca, nivoe zaliha ili druge ključne metrike. Međutim, kako bi se osigurao najviši nivo privatnost podataka, osjetljivi podaci o klijentima i korporativne tajne čuvaju se u tajnosti.

Syntho je osvojio Global SAS Hackathon 2023 za našu sposobnost generiranja i dijeljenja atačni sintetički podaci efikasno i bez rizika. Sintetizirali smo podatke o pacijentima za više bolnica s različitim populacijama pacijenata kako bismo pokazali učinkovitost prediktivnih modela. Pokazalo se da je korištenje kombinovanih sintetičkih skupova podataka jednako precizno kao i korištenje stvarnih podataka.

Podaci o sintetičkim testovima

Podaci o sintetičkim testovima su umjetno generirani podaci dizajnirani za simulaciju testiranje podataka okruženja za razvoj softvera. Osim smanjenja rizika po privatnost, sintetički testni podaci omogućavaju programerima da rigorozno procijene performanse aplikacija, sigurnost i funkcionalnost u nizu potencijalnih scenarija bez uticaja na stvarni sistem.

Naša saradnja sa jednom od najvećih holandskih banaka vitrine prednosti sintetičkih podataka za testiranje softvera. Generisanje testnih podataka sa Syntho Engine-om rezultiralo je skupovima podataka sličnim proizvodnji koji su pomogli banci da ubrza razvoj softvera i otkrivanje grešaka, što je dovelo do bržih i sigurnijih izdanja softvera.

Tehnike za generiranje tabelarno sintetički podaci obično uključuje statističko modeliranje, Modeli mašinskog učenja, ili generativni modeli kao što su generativne adversarijske mreže (GAN) i varijacioni autoenkoderi (VAE). Ove sintetički alati za generiranje podataka analizira obrasce, distribucije i korelacije prisutne u pravi skup podataka a zatim generirati novi podatkovne točke da veoma liče na stvarne podatke ali ne sadrže nikakve stvarne informacije.

Tipična tabela slučajevi upotrebe sintetičkih podataka uključuju rješavanje pitanja privatnosti, povećanje dostupnosti podataka i olakšavanje istraživanja i inovacija u aplikacijama koje se temelje na podacima. Međutim, bitno je osigurati da sintetički podaci precizno bilježi osnovne obrasce i distribuciju originalnih podataka za održavanje data utility i valjanost za nizvodne zadatke.

Syntho-ova platforma za generiranje sintetičkih podataka

Syntho pruža pametnu platformu za generiranje sintetičkih podataka, osnažujući organizacije da inteligentno transformišu podatke u konkurentsku prednost. Pružajući sve sintetičke metode generiranja podataka na jednoj platformi, Syntho nudi sveobuhvatno rješenje za organizacije koje imaju za cilj da koriste podatke koji pokrivaju:

Naše platforme se integriraju u bilo koje cloud ili lokalno okruženje. Štaviše, brinemo se o planiranju i implementaciji. Naš tim će obučiti vaše zaposlenike za korištenje Syntho Engine efikasno, a mi ćemo pružiti kontinuiranu podršku nakon implementacije.

Možete pročitati više o mogućnostima Syntho-a sintetički podaci generacijska platforma u Odjeljak rješenja na našoj web stranici.

Šta je u budućnosti sa sintetičkim podacima?

Sintetičko generiranje podataka s generativnom umjetnom inteligencijom pomaže u stvaranju i dijeljenju velikih količina relevantni podaci, zaobilazeći probleme kompatibilnosti formata, regulatorna ograničenja i rizik od kršenja podataka.

Za razliku od anonimizacije, generisanje sintetičkih podataka omogućava očuvanje strukturnih odnosa u podacima. Ovo čini sintetičke podatke pogodnim za naprednu analitiku, istraživanje i razvoj, diversifikaciju i testiranje.

Upotreba sintetičkih skupova podataka samo će se proširiti na sve industrije. Kompanije su spremne kreirati sintetičke podatke, proširujući svoj opseg na složene slike, audio i video sadržaj. Kompanije će proširiti upotrebu Modeli mašinskog učenja na naprednije simulacije i aplikacije.

Želite li naučiti više praktičnih primjena sintetički podaci? Osjećaj se slobodno da zakažite demo Našu web stranicu.

O Synthu

Syntho pruža smart sintetičko stvaranje podataka platforma, upravljanje više sintetičkih oblika podataka i metode generisanja, osnažujući organizacije da inteligentno transformišu podatke u konkurentsku prednost. Naši sintetički podaci generirani umjetnom inteligencijom oponašaju statističke obrasce originalnih podataka, osiguravajući točnost, privatnost i brzinu, kako su ocijenili vanjski stručnjaci poput SAS-a. Uz funkcije pametne deidentifikacije i dosljedno mapiranje, osjetljive informacije su zaštićene uz očuvanje referentnog integriteta. Naša platforma omogućava kreiranje, upravljanje i kontrolu testnih podataka za neproizvodna okruženja, koristeći pravila zasnovana sintetičke metode generiranja podataka za ciljane scenarije. Osim toga, korisnici mogu generirati sintetičke podatke programski i dobiti realistični podaci testa za razvoj sveobuhvatnih scenarija testiranja i razvoja s lakoćom.

O autoru

Fotografija glave izvršnog direktora i suosnivača Syntha, Wima Keesa Jannsena

Wim Kees Janssen

Izvršni direktor i osnivač

Syntho, skaliranje koje ometa industriju podataka sa sintetičkim podacima generiranim umjetnom inteligencijom. Wim Kees je dokazao sa Syntho-om da može otključati podatke osjetljive na privatnost kako bi podatke učinio pametnijim i bržima dostupnim kako bi organizacije mogle realizirati inovaciju vođenu podacima. Kao rezultat toga, Wim Kees i Syntho su osvojili prestižnu Philipsovu nagradu za inovacije, osvojili SAS globalni hakaton u zdravstvu i nauci o životu, a NVIDIA ih je izabrala za vodećeg generativnog AI Scale-Up.

objavljen
Februar 19, 2024