Išorinis mūsų sintetinių duomenų įvertinimas, kurį atlieka SAS duomenų ekspertai

Mūsų sintetiniai duomenys yra įvertinta ir patvirtintas duomenų ekspertai SAS

Įvadas į išorinį mūsų sintetinių duomenų vertinimą, kurį atlieka SAS duomenų ekspertai

Ką mes padarėme?

Sintetinius Syntho generuojamus duomenis išoriniu ir objektyviu požiūriu vertina, patvirtina ir patvirtina SAS duomenų ekspertai.

Kodėl mūsų sintetinius duomenis išoriškai vertina SAS duomenų ekspertai?

Nors „Syntho“ didžiuojasi galėdama savo vartotojams pasiūlyti pažangią kokybės užtikrinimo ataskaitą, mes taip pat suprantame, kaip svarbu turėti išorinį ir objektyvų pramonės lyderių sintetinių duomenų įvertinimą. Štai kodėl mes bendradarbiaujame su SAS, analitikos lydere, kad įvertintume savo sintetinius duomenis.

SAS atlieka įvairius nuodugnius „Syntho“ dirbtinio intelekto sukurtų sintetinių duomenų duomenų tikslumo, privatumo apsaugos ir tinkamumo vertinimus, palyginti su pradiniais duomenimis. Apibendrinant, SAS įvertino ir patvirtino „Syntho“ sintetinius duomenis kaip tikslius, saugius ir tinkamus naudoti, palyginti su pradiniais duomenimis.

Ką SAS padarė šio vertinimo metu?

Kaip tikslinius duomenis naudojome telekomunikacijų duomenis, kurie naudojami numatymui. Vertinimo tikslas buvo panaudoti sintetinius duomenis įvairiems nuovargio numatymo modeliams parengti ir kiekvieno modelio veikimui įvertinti. Kadangi numatymas yra klasifikavimo užduotis, SAS prognozėms atlikti pasirinko populiarius klasifikavimo modelius, įskaitant:

  1. Atsitiktinis miškas
  2. Gradiento didinimas
  3. Logistinė regresija
  4. Neuroninis tinklas

Prieš generuodamas sintetinius duomenis, SAS atsitiktinai padalino telekomunikacijų duomenų rinkinį į traukinių rinkinį (modelių mokymui) ir išlaikymo rinkinį (modelių įvertinimui). Turint atskirą balų išlaikymo rinkinį, galima nešališkai įvertinti, kaip klasifikavimo modelis gali veikti, kai jis taikomas naujiems duomenims.

Naudodamas traukinio rinkinį kaip įvestį, „Syntho“ naudojo „Syntho Engine“ sintetiniam duomenų rinkiniui generuoti. Palyginimui, SAS taip pat sukūrė anoniminę traukinio rinkinio versiją, taikęs įvairius anonimizacijos būdus, kad pasiektų tam tikrą slenkstį (k-anonimiškumo). Atlikus ankstesnius veiksmus, buvo sudaryti keturi duomenų rinkiniai:

  1. Traukinio duomenų rinkinys (ty pradinis duomenų rinkinys atėmus išlaikymo duomenų rinkinį)
  2. Išlaikantis duomenų rinkinys (ty pradinio duomenų rinkinio poaibis)
  3. Anoniminis duomenų rinkinys (anoniminiai traukinio duomenų rinkinio duomenys, pradinis duomenų rinkinys atėmus išlaikymo duomenų rinkinį)
  4. Sintetinis duomenų rinkinys (susintezuoti traukinio duomenų rinkinio duomenys, pradinis duomenų rinkinys atėmus išlaikymo duomenų rinkinį)

1, 3 ir 4 duomenų rinkiniai buvo naudojami kiekvienam klasifikavimo modeliui apmokyti, todėl buvo sukurta 12 (3 x 4) parengtų modelių. Vėliau SAS naudojo išlaikymo duomenų rinkinį, kad išmatuotų kiekvieno modelio tikslumą, numatant klientų trūkumą.

SAS atlieka įvairius nuodugnius „Syntho“ dirbtinio intelekto sukurtų sintetinių duomenų duomenų tikslumo, privatumo apsaugos ir tinkamumo vertinimus, palyginti su pradiniais duomenimis. Apibendrinant, SAS įvertino ir patvirtino „Syntho“ sintetinius duomenis kaip tikslius, saugius ir tinkamus naudoti, palyginti su pradiniais duomenimis.

Ar turite kokių nors klausimų?

Pasikalbėkite su vienu iš mūsų ekspertų

Pirminiai SAS duomenų vertinimo rezultatai

Modeliai, parengti naudojant sintetinius duomenis, yra labai panašūs, palyginti su modeliais, parengtais naudojant originalius duomenis

Sintetiniai „Syntho“ duomenys turi ne tik pagrindinius šablonus, bet ir fiksuoja gilius „paslėptus“ statistinius modelius, reikalingus sudėtingoms analizės užduotims atlikti. Pastarasis parodytas juostinėje diagramoje, nurodant, kad modelių, parengtų naudojant sintetinius duomenis, ir modelių, parengtų naudojant originalius duomenis, tikslumas yra panašus. Taigi, sintetiniai duomenys gali būti naudojami faktiniam modelių mokymui. Sintetinių duomenų algoritmų pasirinktos įvesties ir kintamos svarbos, palyginti su pradiniais duomenimis, buvo labai panašios. Taigi daroma išvada, kad modeliavimo procesas gali būti atliktas naudojant sintetinius duomenis, kaip alternatyvą naudoti tikrus jautrius duomenis.

Kodėl modeliai, išmokyti naudoti anoniminius duomenis, blogiau vertina?

Klasikiniai anonimizacijos metodai turi bendrų bruožų tai, kad jie manipuliuoja originaliais duomenimis, kad būtų trukdoma atsekti asmenis. Jie manipuliuoja duomenimis ir tokiu būdu sunaikina duomenis. Kuo daugiau anonimizuojate, tuo geriau jūsų duomenys yra apsaugoti, bet tuo labiau jūsų duomenys sunaikinami. Tai ypač pražūtinga atliekant dirbtinį intelektą ir modeliavimo užduotis, kai „numatymo galia“ yra būtina, nes dėl prastos kokybės duomenų AI modelio įžvalgos bus blogos. SAS tai parodė, plotas po kreive (AUC*) yra artimas 0.5, o tai rodo, kad modeliai, parengti remiantis anoniminiais duomenimis, veikia bene prasčiausiai.

Papildomi SAS sintetinių duomenų vertinimo rezultatai

Papildomi SAS sintetinių duomenų vertinimo rezultatai

Koreliacijos ir ryšiai tarp kintamųjų buvo tiksliai išsaugoti sintetiniuose duomenyse.

Plotas po kreive (AUC), modelio našumo matavimo metrika, išliko pastovus.

Be to, lyginant sintetinius duomenis su pradiniu duomenų rinkiniu, kintamojo svarba, nurodanti modelio kintamųjų nuspėjamąją galią, išliko nepakitusi.

Remdamiesi šiais SAS pastebėjimais ir naudodami SAS Viya, galime drąsiai daryti išvadą, kad „Syntho Engine“ sugeneruoti sintetiniai duomenys kokybės požiūriu iš tiesų prilygsta tikriems duomenims. Tai patvirtina sintetinių duomenų naudojimą modelio kūrimui, atveriant kelią pažangiai analizei su sintetiniais duomenimis.

SAS duomenų ekspertų išvados

Sas logotipas

Mūsų sintetiniai duomenys yra patvirtintas SAS duomenų ekspertai

Informaciniai straipsniai

sintinio gido dangtelis

Išsaugokite sintetinių duomenų vadovą dabar!