Sintetički podaci generirani umjetnom inteligencijom, jednostavan i brz pristup visokokvalitetnim podacima?

AI je generirao sintetičke podatke u praksi

Syntho, stručnjak za sintetičke podatke generirane umjetnom inteligencijom, želi se okrenuti privacy by design u konkurentsku prednost sa sintetičkim podacima generiranim umjetnom inteligencijom. Pomažu organizacijama da izgrade jake temelje podataka s jednostavnim i brzim pristupom visokokvalitetnim podacima i nedavno su osvojili nagradu za inovacije tvrtke Philips.

Međutim, sintetičko generiranje podataka s umjetnom inteligencijom relativno je novo rješenje koje obično uvodi često postavljana pitanja. Kako bi odgovorio na njih, Syntho je započeo studiju slučaja zajedno sa SAS-om, vodećim na tržištu u naprednoj analitici i softveru AI.

U suradnji s nizozemskom AI koalicijom (NL AIC), istražili su vrijednost sintetičkih podataka uspoređujući sintetičke podatke generirane umjetnom inteligencijom koje je generirao Syntho Engine s izvornim podacima putem različitih procjena kvalitete podataka, pravne valjanosti i upotrebljivosti.

Nije li anonimizacija podataka rješenje?

Klasične tehnike anonimizacije imaju zajedničko to što manipuliraju izvornim podacima kako bi ometale traženje pojedinaca. Primjeri su generalizacija, potiskivanje, brisanje, pseudonimizacija, maskiranje podataka i miješanje redaka i stupaca. Primjere možete pronaći u donjoj tablici.

anonimizacija podataka

Te tehnike uvode 3 ključna izazova:

  1. Oni rade drugačije po vrsti podataka i skupu podataka, što ih čini teškim za skaliranje. Nadalje, budući da djeluju drugačije, uvijek će se voditi rasprava o tome koje metode primijeniti i koja kombinacija tehnika je potrebna.
  2. Uvijek postoji odnos jedan-na-jedan s izvornim podacima. To znači da će uvijek postojati rizik privatnosti, posebno zbog svih otvorenih skupova podataka i dostupnih tehnika za povezivanje tih skupova podataka.
  3. Oni manipuliraju podacima i time uništavaju podatke u procesu. To je posebno pogubno za AI zadatke u kojima je ključna "predviđena snaga", jer će podaci loše kvalitete rezultirati lošim uvidima iz AI modela (Garbage-in će rezultirati otpadom).

Ove točke se također procjenjuju kroz ovu studiju slučaja.

Uvod u studiju slučaja

Za studiju slučaja, ciljni skup podataka bio je skup telekomunikacijskih podataka koji je dostavio SAS i koji sadrži podatke o 56.600 korisnika. Skup podataka sadrži 128 stupaca, uključujući jedan stupac koji pokazuje je li kupac napustio tvrtku (tj. 'izbacio') ili ne. Cilj studije slučaja bio je korištenje sintetičkih podataka za obuku nekih modela za predviđanje odljeva kupaca i za procjenu izvedbe tih obučenih modela. Kako je predviđanje odljeva zadatak klasifikacije, SAS je odabrao četiri popularna modela klasifikacije za izradu predviđanja, uključujući:

  1. Slučajna šuma
  2. Gradijentno pojačavanje
  3. Logistička regresija
  4. Živčana mreža

Prije generiranja sintetičkih podataka, SAS je nasumično podijelio telekomunikacijski skup podataka u skup vlakova (za obuku modela) i skup za zadržavanje (za bodovanje modela). Posjedovanje zasebnog skupa zadržavanja za bodovanje omogućuje nepristranu procjenu toga koliko bi klasifikacijski model mogao biti učinkovit kada se primijeni na nove podatke.

Koristeći skup vlakova kao ulaz, Syntho je koristio svoj Syntho Engine za generiranje sintetičkog skupa podataka. Za usporedbu, SAS je također stvorio manipuliranu verziju skupa vlakova nakon primjene različitih tehnika anonimizacije kako bi se dosegao određeni prag (k-anonimnosti). Prethodni koraci rezultirali su u četiri skupa podataka:

  1. Skup podataka o vlaku (tj. izvorni skup podataka minus skup podataka o zadržavanju)
  2. Skup podataka za čekanje (tj. podskup izvornog skupa podataka)
  3. Anonimizirani skup podataka (temeljen na skupu podataka o vlaku)
  4. Sintetički skup podataka (temeljen na skupu podataka o vlaku)

Skupovi podataka 1, 3 i 4 korišteni su za treniranje svakog modela klasifikacije, što je rezultiralo 12 (3 x 4) obučenih modela. SAS je naknadno upotrijebio skup podataka o zadržavanju za mjerenje točnosti s kojom svaki model predviđa odljev kupaca. Rezultati su prikazani u nastavku, počevši od nekih osnovnih statistika.

Cjevovod strojnog učenja generiran u SAS-u

Slika: Cjevovod strojnog učenja generiran u SAS-u Visual Data Mining i Machine Learning

Osnovna statistika pri usporedbi anonimiziranih podataka s izvornim podacima

Tehnike anonimizacije uništavaju čak i osnovne obrasce, poslovnu logiku, odnose i statistiku (kao u primjeru ispod). Korištenje anonimiziranih podataka za osnovnu analitiku tako daje nepouzdane rezultate. Zapravo, loša kvaliteta anonimiziranih podataka učinila je gotovo nemogućom njihovu upotrebu za napredne analitičke zadatke (npr. AI/ML modeliranje i nadzorna ploča).

uspoređivanje anonimiziranih podataka s izvornim podacima

Osnovna statistika pri usporedbi sintetičkih podataka s izvornim podacima

Sintetičko generiranje podataka s AI-om čuva osnovne obrasce, poslovnu logiku, odnose i statistiku (kao u primjeru ispod). Korištenje sintetičkih podataka za osnovnu analitiku tako daje pouzdane rezultate. Ključno pitanje, vrijedi li sintetički podaci za napredne analitičke zadatke (npr. AI/ML modeliranje i nadzorna ploča)?

uspoređivanje sintetičkih podataka s izvornim podacima

Sintetički podaci generirani umjetnom inteligencijom i napredna analitika

Sintetički podaci ne vrijede samo za osnovne uzorke (kao što je prikazano na prethodnim dijagramima), oni također hvataju duboke 'skrivene' statističke obrasce potrebne za napredne analitičke zadatke. Potonje je prikazano u stupčastom grafikonu u nastavku, što ukazuje da je točnost modela obučenih na sintetičkim podacima u odnosu na modele obučene na izvornim podacima slična. Nadalje, s površinom ispod krivulje (AUC*) blizu 0.5, modeli obučeni na anonimiziranim podacima imaju daleko najgore rezultate. Cjelovito izvješće sa svim naprednim analitičkim procjenama sintetičkih podataka u usporedbi s izvornim podacima dostupno je na zahtjev.

*AUC: površina ispod krivulje je mjera za točnost modela napredne analize, uzimajući u obzir prave pozitivne, lažno pozitivne, lažno negativne i prave negativne. 0,5 znači da model predviđa nasumično i da nema prediktivnu moć, a 1 znači da je model uvijek točan i da ima punu prediktivnu moć.

Osim toga, ovi se sintetički podaci mogu koristiti za razumijevanje karakteristika podataka i glavnih varijabli potrebnih za stvarno osposobljavanje modela. Unosi odabrani algoritmima na sintetičkim podacima u usporedbi s izvornim podacima bili su vrlo slični. Stoga se proces modeliranja može izvesti na ovoj sintetičkoj verziji, što smanjuje rizik od povrede podataka. Međutim, kod zaključivanja pojedinačnih zapisa (npr. telekomunikacijskih korisnika) preporuča se ponovno osposobljavanje na izvornim podacima radi objašnjenja, većeg prihvaćanja ili samo zbog propisa.                              

AUC prema algoritmu grupiranom prema metodi

AUC

Zaključak:

  • Modeli obučeni na sintetičkim podacima u usporedbi s modelima obučenim na izvornim podacima pokazuju vrlo slične performanse
  • Modeli obučeni na anonimiziranim podacima s 'klasičnim tehnikama anonimizacije' pokazuju lošije performanse u usporedbi s modelima obučenim na izvornim podacima ili sintetičkim podacima
  • Generiranje sintetičkih podataka je jednostavno i brzo jer tehnika radi potpuno isto po skupu podataka i vrsti podataka.

Slučajevi korištenja sintetičkih podataka koji dodaju vrijednost

Slučaj upotrebe 1: Sintetski podaci za razvoj modela i naprednu analitiku

Za razvoj modela (npr. nadzorne ploče [BI] i napredna analitika [AI & ML]) ključno je imati čvrst temelj podataka s jednostavnim i brzim pristupom upotrebljivim, visokokvalitetnim podacima. Međutim, mnoge organizacije pate od neoptimalne baze podataka što rezultira 3 ključna izazova:

  • Pristup podacima traje dugo zbog propisa (privatnosti), internih procesa ili silosa podataka
  • Klasične tehnike anonimizacije uništavaju podatke, čineći da podaci više nisu prikladni za analizu i naprednu analitiku (smeće ulazi = smeće izlazi)
  • Postojeća rješenja nisu skalabilna jer rade drugačije po skupu podataka i vrsti podataka i ne mogu se nositi s velikim bazama podataka s više tablica

Pristup sintetičkim podacima: razviti modele s jednako dobrim kao i stvarnim sintetičkim podacima za:

  • Smanjite uporabu izvornih podataka bez ometanja programera
  • Otključajte osobne podatke i imate pristup više podataka koji su prethodno bili ograničeni (npr. Zbog privatnosti)
  • Jednostavan i brz pristup podacima do relevantnih podataka
  • Skalabilno rješenje koje radi isto za svaki skup podataka, tip podataka i za masivne baze podataka

To omogućuje organizaciji da izgradi jak temelj podataka s jednostavnim i brzim pristupom upotrebljivim, visokokvalitetnim podacima za otključavanje podataka i korištenje mogućnosti podataka.

 

Slučaj upotrebe 2: pametni sintetički testni podaci za testiranje, razvoj i isporuku softvera

Testiranje i razvoj s visokokvalitetnim testnim podacima ključni su za isporuku najsuvremenijih softverskih rješenja. Korištenje izvornih proizvodnih podataka čini se očitim, ali nije dopušteno zbog propisa (privatnosti). Alternativa Test Data Management (TDM) alati predstavljaju “legacy-by-design” u dobivanju točnih podataka testa:

  • Ne odražavaju proizvodne podatke, a poslovna logika i referentni integritet nisu sačuvani
  • Radite sporo i dugotrajno
  • Potreban je ručni rad

Pristup sintetičkim podacima: testirajte i razvijajte pomoću sintetičkih testnih podataka generiranih umjetnom inteligencijom za isporuku najsuvremenijih softverskih rješenja pametnih s:

  • Podaci slični produkciji sa očuvanom poslovnom logikom i referentnim integritetom
  • Lako i brzo generiranje podataka pomoću najsuvremenije umjetne inteligencije
  • Privatnost po dizajnu
  • Lako, brzo i agile

To omogućuje organizaciji da testira i razvija s testnim podacima sljedeće razine za isporuku najsuvremenijih softverskih rješenja!

Više informacija

Zainteresiran? Za više informacija o sintetičkim podacima posjetite web stranicu Syntho ili kontaktirajte Wim Kees Janssen. Za više informacija o SAS-u posjetite www.sas.com ili kontaktirajte kees@syntho.ai.

U ovom slučaju upotrebe, Syntho, SAS i NL AIC rade zajedno kako bi postigli željene rezultate. Syntho je stručnjak za sintetičke podatke generirane umjetnom inteligencijom, a SAS je tržišni lider u analitici i nudi softver za istraživanje, analizu i vizualizaciju podataka.

* Predviđa 2021. – Strategije podataka i analitike za upravljanje, skaliranje i transformaciju digitalnog poslovanja, Gartner, 2020.

pokrov sinto vodiča

Spremite svoj vodič za sintetičke podatke sada!