Išorinis mūsų sintetinių duomenų įvertinimas, kurį atlieka SAS duomenų ekspertai

Mūsų sintetiniai duomenys yra įvertinta ir patvirtintas duomenų ekspertai SAS

Įvadas į išorinį mūsų sintetinių duomenų vertinimą, kurį atlieka SAS duomenų ekspertai

Ką mes padarėme?

Sintetinius Syntho generuojamus duomenis išoriniu ir objektyviu požiūriu vertina, patvirtina ir patvirtina SAS duomenų ekspertai.

Kodėl mūsų sintetinius duomenis išoriškai vertina SAS duomenų ekspertai?

Nors „Syntho“ didžiuojasi galėdama savo vartotojams pasiūlyti pažangią kokybės užtikrinimo ataskaitą, mes taip pat suprantame, kaip svarbu turėti išorinį ir objektyvų pramonės lyderių sintetinių duomenų įvertinimą. Štai kodėl mes bendradarbiaujame su SAS, analitikos lydere, kad įvertintume savo sintetinius duomenis.

SAS atlieka įvairius nuodugnius „Syntho“ dirbtinio intelekto sukurtų sintetinių duomenų duomenų tikslumo, privatumo apsaugos ir tinkamumo vertinimus, palyginti su pradiniais duomenimis. Apibendrinant, SAS įvertino ir patvirtino „Syntho“ sintetinius duomenis kaip tikslius, saugius ir tinkamus naudoti, palyginti su pradiniais duomenimis.

Ką SAS padarė šio vertinimo metu?

Kaip tikslinius duomenis naudojome telekomunikacijų duomenis, kurie naudojami numatymui. Vertinimo tikslas buvo panaudoti sintetinius duomenis įvairiems nuovargio numatymo modeliams parengti ir kiekvieno modelio veikimui įvertinti. Kadangi numatymas yra klasifikavimo užduotis, SAS prognozėms atlikti pasirinko populiarius klasifikavimo modelius, įskaitant:

Atsitiktinis miškas
Gradiento didinimas
Logistinė regresija
Neuroninis tinklas

Prieš generuodamas sintetinius duomenis, SAS atsitiktinai padalino telekomunikacijų duomenų rinkinį į traukinių rinkinį (modelių mokymui) ir išlaikymo rinkinį (modelių įvertinimui). Turint atskirą balų išlaikymo rinkinį, galima nešališkai įvertinti, kaip klasifikavimo modelis gali veikti, kai jis taikomas naujiems duomenims.

Naudodamas traukinio rinkinį kaip įvestį, „Syntho“ naudojo „Syntho Engine“ sintetiniam duomenų rinkiniui generuoti. Palyginimui, SAS taip pat sukūrė anoniminę traukinio rinkinio versiją, taikęs įvairius anonimizacijos būdus, kad pasiektų tam tikrą slenkstį (k-anonimiškumo). Atlikus ankstesnius veiksmus, buvo sudaryti keturi duomenų rinkiniai:

Traukinio duomenų rinkinys (ty pradinis duomenų rinkinys atėmus išlaikymo duomenų rinkinį)
Išlaikantis duomenų rinkinys (ty pradinio duomenų rinkinio poaibis)
Anoniminis duomenų rinkinys (anoniminiai traukinio duomenų rinkinio duomenys, pradinis duomenų rinkinys atėmus išlaikymo duomenų rinkinį)
Sintetinis duomenų rinkinys (susintezuoti traukinio duomenų rinkinio duomenys, pradinis duomenų rinkinys atėmus išlaikymo duomenų rinkinį)

1, 3 ir 4 duomenų rinkiniai buvo naudojami kiekvienam klasifikavimo modeliui apmokyti, todėl buvo sukurta 12 (3 x 4) parengtų modelių. Vėliau SAS naudojo išlaikymo duomenų rinkinį, kad išmatuotų kiekvieno modelio tikslumą, numatant klientų trūkumą.

Ar turite kokių nors klausimų?

Pasikalbėkite su vienu iš mūsų ekspertų

Susisiekite su mumis

Pirminiai SAS duomenų vertinimo rezultatai

Modeliai, parengti naudojant sintetinius duomenis, yra labai panašūs, palyginti su modeliais, parengtais naudojant originalius duomenis

Sintetiniai „Syntho“ duomenys turi ne tik pagrindinius šablonus, bet ir fiksuoja gilius „paslėptus“ statistinius modelius, reikalingus sudėtingoms analizės užduotims atlikti. Pastarasis parodytas juostinėje diagramoje, nurodant, kad modelių, parengtų naudojant sintetinius duomenis, ir modelių, parengtų naudojant originalius duomenis, tikslumas yra panašus. Taigi, sintetiniai duomenys gali būti naudojami faktiniam modelių mokymui. Sintetinių duomenų algoritmų pasirinktos įvesties ir kintamos svarbos, palyginti su pradiniais duomenimis, buvo labai panašios. Taigi daroma išvada, kad modeliavimo procesas gali būti atliktas naudojant sintetinius duomenis, kaip alternatyvą naudoti tikrus jautrius duomenis.

Kodėl modeliai, išmokyti naudoti anoniminius duomenis, blogiau vertina?

Klasikiniai anonimizacijos metodai turi bendrų bruožų tai, kad jie manipuliuoja originaliais duomenimis, kad būtų trukdoma atsekti asmenis. Jie manipuliuoja duomenimis ir tokiu būdu sunaikina duomenis. Kuo daugiau anonimizuojate, tuo geriau jūsų duomenys yra apsaugoti, bet tuo labiau jūsų duomenys sunaikinami. Tai ypač pražūtinga atliekant dirbtinį intelektą ir modeliavimo užduotis, kai „numatymo galia“ yra būtina, nes dėl prastos kokybės duomenų AI modelio įžvalgos bus blogos. SAS tai parodė, plotas po kreive (AUC*) yra artimas 0.5, o tai rodo, kad modeliai, parengti remiantis anoniminiais duomenimis, veikia bene prasčiausiai.

Papildomi SAS sintetinių duomenų vertinimo rezultatai

Koreliacijos ir ryšiai tarp kintamųjų buvo tiksliai išsaugoti sintetiniuose duomenyse.

Plotas po kreive (AUC), modelio našumo matavimo metrika, išliko pastovus.

Be to, lyginant sintetinius duomenis su pradiniu duomenų rinkiniu, kintamojo svarba, nurodanti modelio kintamųjų nuspėjamąją galią, išliko nepakitusi.

Remdamiesi šiais SAS pastebėjimais ir naudodami SAS Viya, galime drąsiai daryti išvadą, kad „Syntho Engine“ sugeneruoti sintetiniai duomenys kokybės požiūriu iš tiesų prilygsta tikriems duomenims. Tai patvirtina sintetinių duomenų naudojimą modelio kūrimui, atveriant kelią pažangiai analizei su sintetiniais duomenimis.

SAS duomenų ekspertų išvados

Modeliai, parengti naudojant sintetinius duomenis, palyginti su modeliais, parengtais remiantis originaliais duomenimis, rodo labai panašų našumą
Modeliai, apmokyti remiantis anoniminiais duomenimis naudojant „klasikinius anonimizacijos metodus“, pasižymi prastesniu našumu, palyginti su modeliais, parengtais remiantis originaliais arba sintetiniais duomenimis.
Sintetinių duomenų generavimas yra paprastas ir greitas, nes technologija veikia lygiai taip pat kiekvienam duomenų rinkiniui ir duomenų tipui

Mūsų sintetiniai duomenys yra patvirtintas SAS duomenų ekspertai

Skaityti straipsnį

Informaciniai straipsniai

SAS duomenų ekspertų vertinimas: https://blogs.sas.com/content/hiddeninsights/2022/07/07/ai-generated-synthetic-data-easy-and-fast-access-to-high-quality-data/

„Syntho“ pasaulinio SAS hakatono nugalėtojas: https://www.linkedin.com/feed/update/urn:li:activity:7070047376249376769/
Sveikatos priežiūros atvejų tyrimo rezultatai: https://communities.sas.com/t5/SAS-Hacker-s-Hub/AI-Generated-Synthetic-Data-in-Healthcare/ta-p/863407

Kas yra sintetiniai duomenys?

Kokybės užtikrinimo ataskaita

Išorinis SAS vertinimas

Sintetiniai laiko eilučių duomenys

PII skaitytuvas

Sintetiniai netikri duomenys

Nuoseklus žemėlapių sudarymas

Atpažinimas ir sintetinimas

Taisyklėmis pagrįsti sintetiniai duomenys

Pogrupis

Diegimas ir integravimas

Jungtys

Išplėstinės funkcijos

Palaikomi duomenys

Vartotojo dokumentacija

Suplanuokite demonstracinę versiją

Kainos

Bandymo duomenys

Google Analytics

Dalijimasis duomenimis

Produkto demo

Pajamų gavimas iš duomenų

Sveikatos apsauga

Finansuoti

Visuomeninės organizacijos

Vartotojo dokumentacija

Baltosios knygos ir vadovai

Blogas

Webinars

Case Studies

Kainos

Apie mus

karjera

Išorinis mūsų sintetinių duomenų įvertinimas, kurį atlieka SAS duomenų ekspertai

Mūsų sintetiniai duomenys yra įvertinta ir patvirtintas duomenų ekspertai SAS

Įvadas į išorinį mūsų sintetinių duomenų vertinimą, kurį atlieka SAS duomenų ekspertai

Ką mes padarėme?

Kodėl mūsų sintetinius duomenis išoriškai vertina SAS duomenų ekspertai?

Ką SAS padarė šio vertinimo metu?

Ar turite kokių nors klausimų?

Pasikalbėkite su vienu iš mūsų ekspertų

Pirminiai SAS duomenų vertinimo rezultatai

Modeliai, parengti naudojant sintetinius duomenis, yra labai panašūs, palyginti su modeliais, parengtais naudojant originalius duomenis

Kodėl modeliai, išmokyti naudoti anoniminius duomenis, blogiau vertina?

Papildomi SAS sintetinių duomenų vertinimo rezultatai

Papildomi SAS sintetinių duomenų vertinimo rezultatai

SAS duomenų ekspertų išvados

Mūsų sintetiniai duomenys yra patvirtintas SAS duomenų ekspertai

Informaciniai straipsniai

Išsaugokite sintetinių duomenų vadovą dabar!

Pagrindinis meniu

Išsaugokite sintetinių duomenų vadovą dabar!