Sintetične podatke, ki jih ustvari Syntho, ocenjujejo, validirajo in odobrijo z zunanjega in objektivnega vidika SAS-ovi strokovnjaki za podatke.
Čeprav Syntho s ponosom ponuja svojim uporabnikom napredno poročilo o zagotavljanju kakovosti, se prav tako zavedamo pomena zunanje in objektivne ocene naših sintetičnih podatkov s strani vodilnih v industriji. Zato sodelujemo s podjetjem SAS, vodilnim na področju analitike, pri oceni naših sintetičnih podatkov.
SAS izvaja različne temeljite ocene točnosti podatkov, zaščite zasebnosti in uporabnosti sintetičnih podatkov podjetja Syntho, ustvarjenih z umetno inteligenco, v primerjavi z izvirnimi podatki. Kot zaključek je SAS ocenil in odobril sintetične podatke podjetja Syntho kot natančne, varne in uporabne v primerjavi z izvirnimi podatki.
Kot ciljne podatke smo uporabili telekomunikacijske podatke, ki se uporabljajo za napovedovanje »odliva«. Cilj vrednotenja je bil uporabiti sintetične podatke za usposabljanje različnih modelov napovedovanja osipa in oceniti učinkovitost vsakega modela. Ker je napovedovanje opuščanja naloga klasifikacije, je SAS za napovedi izbral priljubljene modele klasifikacije, vključno z:
Pred generiranjem sintetičnih podatkov je SAS naključno razdelil nabor telekomunikacijskih podatkov na niz vlakov (za usposabljanje modelov) in niz zadrževanja (za točkovanje modelov). Ločen nabor zadrževanja za točkovanje omogoča nepristransko oceno o tem, kako dobro bi lahko bil klasifikacijski model pri uporabi za nove podatke.
Z uporabo niza vlakov kot vhoda je Syntho uporabil svoj Syntho Engine za ustvarjanje sintetičnega nabora podatkov. Za primerjalno analizo je SAS ustvaril tudi anonimizirano različico garniture vlakov po uporabi različnih tehnik anonimizacije, da bi dosegel določen prag (k-anonimnosti). Prejšnji koraki so privedli do štirih naborov podatkov:
Nabori podatkov 1, 3 in 4 so bili uporabljeni za usposabljanje vsakega klasifikacijskega modela, kar je povzročilo 12 (3 x 4) usposobljenih modelov. SAS je nato uporabil nabor podatkov o zadržanju za merjenje natančnosti vsakega modela pri napovedovanju odliva strank.
SAS izvaja različne temeljite ocene točnosti podatkov, zaščite zasebnosti in uporabnosti sintetičnih podatkov podjetja Syntho, ustvarjenih z umetno inteligenco, v primerjavi z izvirnimi podatki. Kot zaključek je SAS ocenil in odobril sintetične podatke podjetja Syntho kot natančne, varne in uporabne v primerjavi z izvirnimi podatki.
Sintetični podatki podjetja Syntho ne zajemajo samo osnovnih vzorcev, temveč zajamejo tudi globoko 'skrite' statistične vzorce, potrebne za napredne analitične naloge. Slednje je prikazano v paličnem grafikonu, ki kaže, da je natančnost modelov, usposobljenih na sintetičnih podatkih, v primerjavi z modeli, usposobljenih na izvirnih podatkih, podobna. Zato se sintetični podatki lahko uporabljajo za dejansko usposabljanje modelov. Vhodni podatki in spremenljivi pomen, ki so jih izbrali algoritmi na sintetičnih podatkih, so bili v primerjavi z izvirnimi podatki zelo podobni. Zato se sklepa, da je postopek modeliranja mogoče izvesti na sintetičnih podatkih kot alternativo za uporabo resničnih občutljivih podatkov.
Klasične tehnike anonimizacije imajo skupno to, da manipulirajo z izvirnimi podatki, da bi preprečile izsleditev posameznikov. Manipulirajo s podatki in jih pri tem uničijo. Bolj kot anonimizirate, bolje so vaši podatki zaščiteni, a tudi bolj se vaši podatki uničijo. To je še posebej uničujoče za AI in naloge modeliranja, kjer je "moč napovedovanja" bistvenega pomena, saj bodo podatki slabe kakovosti povzročili slabe vpoglede iz modela AI. SAS je to dokazal s površino pod krivuljo (AUC*) blizu 0.5, kar dokazuje, da so modeli, usposobljeni na anonimiziranih podatkih, daleč najslabši.
Korelacije in razmerja med spremenljivkami so bila natančno ohranjena v sintetičnih podatkih.
Območje pod krivuljo (AUC), metrika za merjenje učinkovitosti modela, je ostala dosledna.
Poleg tega je pomembnost spremenljivke, ki je kazala na napovedno moč spremenljivk v modelu, ostala nedotaknjena pri primerjavi sintetičnih podatkov z izvirnim naborom podatkov.
Na podlagi teh opažanj SAS in uporabe SAS Viya lahko z gotovostjo sklepamo, da so sintetični podatki, ki jih generira Syntho Engine, po kakovosti resnično enaki resničnim podatkom. To potrjuje uporabo sintetičnih podatkov za razvoj modela, kar utira pot napredni analitiki s sintetičnimi podatki.