Sintetinius Syntho generuojamus duomenis išoriniu ir objektyviu požiūriu vertina, patvirtina ir patvirtina SAS duomenų ekspertai.
Nors „Syntho“ didžiuojasi galėdama savo vartotojams pasiūlyti pažangią kokybės užtikrinimo ataskaitą, mes taip pat suprantame, kaip svarbu turėti išorinį ir objektyvų pramonės lyderių sintetinių duomenų įvertinimą. Štai kodėl mes bendradarbiaujame su SAS, analitikos lydere, kad įvertintume savo sintetinius duomenis.
SAS atlieka įvairius nuodugnius „Syntho“ dirbtinio intelekto sukurtų sintetinių duomenų duomenų tikslumo, privatumo apsaugos ir tinkamumo vertinimus, palyginti su pradiniais duomenimis. Apibendrinant, SAS įvertino ir patvirtino „Syntho“ sintetinius duomenis kaip tikslius, saugius ir tinkamus naudoti, palyginti su pradiniais duomenimis.
Kaip tikslinius duomenis naudojome telekomunikacijų duomenis, kurie naudojami numatymui. Vertinimo tikslas buvo panaudoti sintetinius duomenis įvairiems nuovargio numatymo modeliams parengti ir kiekvieno modelio veikimui įvertinti. Kadangi numatymas yra klasifikavimo užduotis, SAS prognozėms atlikti pasirinko populiarius klasifikavimo modelius, įskaitant:
Prieš generuodamas sintetinius duomenis, SAS atsitiktinai padalino telekomunikacijų duomenų rinkinį į traukinių rinkinį (modelių mokymui) ir išlaikymo rinkinį (modelių įvertinimui). Turint atskirą balų išlaikymo rinkinį, galima nešališkai įvertinti, kaip klasifikavimo modelis gali veikti, kai jis taikomas naujiems duomenims.
Naudodamas traukinio rinkinį kaip įvestį, „Syntho“ naudojo „Syntho Engine“ sintetiniam duomenų rinkiniui generuoti. Palyginimui, SAS taip pat sukūrė anoniminę traukinio rinkinio versiją, taikęs įvairius anonimizacijos būdus, kad pasiektų tam tikrą slenkstį (k-anonimiškumo). Atlikus ankstesnius veiksmus, buvo sudaryti keturi duomenų rinkiniai:
1, 3 ir 4 duomenų rinkiniai buvo naudojami kiekvienam klasifikavimo modeliui apmokyti, todėl buvo sukurta 12 (3 x 4) parengtų modelių. Vėliau SAS naudojo išlaikymo duomenų rinkinį, kad išmatuotų kiekvieno modelio tikslumą, numatant klientų trūkumą.
SAS atlieka įvairius nuodugnius „Syntho“ dirbtinio intelekto sukurtų sintetinių duomenų duomenų tikslumo, privatumo apsaugos ir tinkamumo vertinimus, palyginti su pradiniais duomenimis. Apibendrinant, SAS įvertino ir patvirtino „Syntho“ sintetinius duomenis kaip tikslius, saugius ir tinkamus naudoti, palyginti su pradiniais duomenimis.
Sintetiniai „Syntho“ duomenys turi ne tik pagrindinius šablonus, bet ir fiksuoja gilius „paslėptus“ statistinius modelius, reikalingus sudėtingoms analizės užduotims atlikti. Pastarasis parodytas juostinėje diagramoje, nurodant, kad modelių, parengtų naudojant sintetinius duomenis, ir modelių, parengtų naudojant originalius duomenis, tikslumas yra panašus. Taigi, sintetiniai duomenys gali būti naudojami faktiniam modelių mokymui. Sintetinių duomenų algoritmų pasirinktos įvesties ir kintamos svarbos, palyginti su pradiniais duomenimis, buvo labai panašios. Taigi daroma išvada, kad modeliavimo procesas gali būti atliktas naudojant sintetinius duomenis, kaip alternatyvą naudoti tikrus jautrius duomenis.
Klasikiniai anonimizacijos metodai turi bendrų bruožų tai, kad jie manipuliuoja originaliais duomenimis, kad būtų trukdoma atsekti asmenis. Jie manipuliuoja duomenimis ir tokiu būdu sunaikina duomenis. Kuo daugiau anonimizuojate, tuo geriau jūsų duomenys yra apsaugoti, bet tuo labiau jūsų duomenys sunaikinami. Tai ypač pražūtinga atliekant dirbtinį intelektą ir modeliavimo užduotis, kai „numatymo galia“ yra būtina, nes dėl prastos kokybės duomenų AI modelio įžvalgos bus blogos. SAS tai parodė, plotas po kreive (AUC*) yra artimas 0.5, o tai rodo, kad modeliai, parengti remiantis anoniminiais duomenimis, veikia bene prasčiausiai.
Koreliacijos ir ryšiai tarp kintamųjų buvo tiksliai išsaugoti sintetiniuose duomenyse.
Plotas po kreive (AUC), modelio našumo matavimo metrika, išliko pastovus.
Be to, lyginant sintetinius duomenis su pradiniu duomenų rinkiniu, kintamojo svarba, nurodanti modelio kintamųjų nuspėjamąją galią, išliko nepakitusi.
Remdamiesi šiais SAS pastebėjimais ir naudodami SAS Viya, galime drąsiai daryti išvadą, kad „Syntho Engine“ sugeneruoti sintetiniai duomenys kokybės požiūriu iš tiesų prilygsta tikriems duomenims. Tai patvirtina sintetinių duomenų naudojimą modelio kūrimui, atveriant kelią pažangiai analizei su sintetiniais duomenimis.