Zunanja ocena naših sintetičnih podatkov s strani podatkovnih strokovnjakov SAS

Naši sintetični podatki so ocenili in odobren s strani strokovnjakov za podatke SAS

Uvod v zunanjo evalvacijo naših sintetičnih podatkov s strani podatkovnih strokovnjakov SAS

Kaj smo storili?

Sintetične podatke, ki jih ustvari Syntho, ocenjujejo, validirajo in odobrijo z zunanjega in objektivnega vidika SAS-ovi strokovnjaki za podatke.

Zakaj naše sintetične podatke eksterno ovrednotijo ​​podatkovni strokovnjaki SAS?

Čeprav Syntho s ponosom ponuja svojim uporabnikom napredno poročilo o zagotavljanju kakovosti, se prav tako zavedamo pomena zunanje in objektivne ocene naših sintetičnih podatkov s strani vodilnih v industriji. Zato sodelujemo s podjetjem SAS, vodilnim na področju analitike, pri oceni naših sintetičnih podatkov.

SAS izvaja različne temeljite ocene točnosti podatkov, zaščite zasebnosti in uporabnosti sintetičnih podatkov podjetja Syntho, ustvarjenih z umetno inteligenco, v primerjavi z izvirnimi podatki. Kot zaključek je SAS ocenil in odobril sintetične podatke podjetja Syntho kot natančne, varne in uporabne v primerjavi z izvirnimi podatki.

Kaj je SAS naredil med tem ocenjevanjem?

Kot ciljne podatke smo uporabili telekomunikacijske podatke, ki se uporabljajo za napovedovanje »odliva«. Cilj vrednotenja je bil uporabiti sintetične podatke za usposabljanje različnih modelov napovedovanja osipa in oceniti učinkovitost vsakega modela. Ker je napovedovanje opuščanja naloga klasifikacije, je SAS za napovedi izbral priljubljene modele klasifikacije, vključno z:

  1. Naključni gozd
  2. Povečanje gradienta
  3. Logistična regresija
  4. Zivcno omrezje

Pred generiranjem sintetičnih podatkov je SAS naključno razdelil nabor telekomunikacijskih podatkov na niz vlakov (za usposabljanje modelov) in niz zadrževanja (za točkovanje modelov). Ločen nabor zadrževanja za točkovanje omogoča nepristransko oceno o tem, kako dobro bi lahko bil klasifikacijski model pri uporabi za nove podatke.

Z uporabo niza vlakov kot vhoda je Syntho uporabil svoj Syntho Engine za ustvarjanje sintetičnega nabora podatkov. Za primerjalno analizo je SAS ustvaril tudi anonimizirano različico garniture vlakov po uporabi različnih tehnik anonimizacije, da bi dosegel določen prag (k-anonimnosti). Prejšnji koraki so privedli do štirih naborov podatkov:

  1. Nabor podatkov o vlaku (tj. izvirni nabor podatkov minus nabor podatkov o zadržanju)
  2. Zadrževalni nabor podatkov (tj. podmnožica izvirnega nabora podatkov)
  3. Anonimiziran nabor podatkov (anonimizirani podatki nabora podatkov o vlaku, izvirni nabor podatkov minus nabor zadržanih podatkov)
  4. Sintetični nabor podatkov (sintetizirani podatki nabora podatkov o vlaku, izvirni nabor podatkov minus nabor zadržanih podatkov)

Nabori podatkov 1, 3 in 4 so bili uporabljeni za usposabljanje vsakega klasifikacijskega modela, kar je povzročilo 12 (3 x 4) usposobljenih modelov. SAS je nato uporabil nabor podatkov o zadržanju za merjenje natančnosti vsakega modela pri napovedovanju odliva strank.

SAS izvaja različne temeljite ocene točnosti podatkov, zaščite zasebnosti in uporabnosti sintetičnih podatkov podjetja Syntho, ustvarjenih z umetno inteligenco, v primerjavi z izvirnimi podatki. Kot zaključek je SAS ocenil in odobril sintetične podatke podjetja Syntho kot natančne, varne in uporabne v primerjavi z izvirnimi podatki.

Imaš kakšno vprašanje?

Pogovorite se z enim od naših strokovnjakov

Začetni rezultati ocene podatkov s strani SAS

Modeli, usposobljeni na sintetičnih podatkih, imajo zelo podobne rezultate v primerjavi z modeli, usposobljenimi na izvirnih podatkih

Sintetični podatki podjetja Syntho ne zajemajo samo osnovnih vzorcev, temveč zajamejo tudi globoko 'skrite' statistične vzorce, potrebne za napredne analitične naloge. Slednje je prikazano v paličnem grafikonu, ki kaže, da je natančnost modelov, usposobljenih na sintetičnih podatkih, v primerjavi z modeli, usposobljenih na izvirnih podatkih, podobna. Zato se sintetični podatki lahko uporabljajo za dejansko usposabljanje modelov. Vhodni podatki in spremenljivi pomen, ki so jih izbrali algoritmi na sintetičnih podatkih, so bili v primerjavi z izvirnimi podatki zelo podobni. Zato se sklepa, da je postopek modeliranja mogoče izvesti na sintetičnih podatkih kot alternativo za uporabo resničnih občutljivih podatkov.

Zakaj imajo modeli, usposobljeni na anonimiziranih podatkih, slabše rezultate?

Klasične tehnike anonimizacije imajo skupno to, da manipulirajo z izvirnimi podatki, da bi preprečile izsleditev posameznikov. Manipulirajo s podatki in jih pri tem uničijo. Bolj kot anonimizirate, bolje so vaši podatki zaščiteni, a tudi bolj se vaši podatki uničijo. To je še posebej uničujoče za AI in naloge modeliranja, kjer je "moč napovedovanja" bistvenega pomena, saj bodo podatki slabe kakovosti povzročili slabe vpoglede iz modela AI. SAS je to dokazal s površino pod krivuljo (AUC*) blizu 0.5, kar dokazuje, da so modeli, usposobljeni na anonimiziranih podatkih, daleč najslabši.

Dodatni rezultati ocen sintetičnih podatkov s strani SAS

Dodatni rezultati ocen sintetičnih podatkov s strani SAS

Korelacije in razmerja med spremenljivkami so bila natančno ohranjena v sintetičnih podatkih.

Območje pod krivuljo (AUC), metrika za merjenje učinkovitosti modela, je ostala dosledna.

Poleg tega je pomembnost spremenljivke, ki je kazala na napovedno moč spremenljivk v modelu, ostala nedotaknjena pri primerjavi sintetičnih podatkov z izvirnim naborom podatkov.

Na podlagi teh opažanj SAS in uporabe SAS Viya lahko z gotovostjo sklepamo, da so sintetični podatki, ki jih generira Syntho Engine, po kakovosti resnično enaki resničnim podatkom. To potrjuje uporabo sintetičnih podatkov za razvoj modela, kar utira pot napredni analitiki s sintetičnimi podatki.

Sklepi podatkovnih strokovnjakov SAS

Sas logotip

Naši sintetični podatki so odobren podatkovni strokovnjaki SAS

Referenčni članki

pokrov sinto vodnika

Shranite svoj vodnik za sintetične podatke zdaj!