Syntho ģenerētos sintētiskos datus no ārējā un objektīva viedokļa novērtē, apstiprina un apstiprina SAS datu eksperti.
Lai gan Syntho lepojas ar to, ka piedāvā saviem lietotājiem uzlabotu kvalitātes nodrošināšanas pārskatu, mēs arī saprotam, cik svarīgi ir iegūt ārēju un objektīvu mūsu sintētisko datu novērtējumu no nozares līderiem. Tāpēc mēs sadarbojamies ar SAS, analītikas līderi, lai novērtētu mūsu sintētiskos datus.
SAS veic dažādus rūpīgus Syntho AI ģenerēto sintētisko datu datu precizitātes, privātuma aizsardzības un lietojamības novērtējumus salīdzinājumā ar sākotnējiem datiem. Noslēgumā SAS novērtēja un apstiprināja Syntho sintētiskos datus kā precīzus, drošus un izmantojamus salīdzinājumā ar sākotnējiem datiem.
Mēs kā mērķa datus izmantojām telekomunikāciju datus, kas tiek izmantoti “apkures” prognozēšanai. Novērtēšanas mērķis bija izmantot sintētiskos datus, lai apmācītu dažādus novirzes prognozēšanas modeļus un novērtētu katra modeļa veiktspēju. Tā kā atteikšanās prognozēšana ir klasifikācijas uzdevums, SAS prognozēšanai izvēlējās populārus klasifikācijas modeļus, tostarp:
Pirms sintētisko datu ģenerēšanas SAS nejauši sadalīja telekomunikāciju datu kopu vilcienu komplektā (modeļu apmācībai) un noturēšanas komplektā (modeļu vērtēšanai). Atsevišķa aizturēšanas kopa vērtēšanai ļauj objektīvi novērtēt, cik labi klasifikācijas modelis varētu darboties, ja to piemēro jauniem datiem.
Izmantojot vilciena komplektu kā ievadi, Syntho izmantoja savu Syntho Engine, lai ģenerētu sintētisko datu kopu. Salīdzinošajai novērtēšanai SAS izveidoja arī anonimizētu vilciena komplekta versiju pēc dažādu anonimizācijas paņēmienu izmantošanas, lai sasniegtu noteiktu slieksni (k-anonimitāti). Iepriekšējo darbību rezultātā tika izveidotas četras datu kopas:
Katra klasifikācijas modeļa apmācīšanai tika izmantotas 1., 3. un 4. datu kopas, kā rezultātā tika iegūti 12 (3 x 4) apmācīti modeļi. Pēc tam SAS izmantoja aizturēšanas datu kopu, lai noteiktu katra modeļa precizitāti, prognozējot klientu atteikšanos.
SAS veic dažādus rūpīgus Syntho AI ģenerēto sintētisko datu datu precizitātes, privātuma aizsardzības un lietojamības novērtējumus salīdzinājumā ar sākotnējiem datiem. Noslēgumā SAS novērtēja un apstiprināja Syntho sintētiskos datus kā precīzus, drošus un izmantojamus salīdzinājumā ar sākotnējiem datiem.
Sintētiskie dati no Syntho attiecas ne tikai uz pamata modeļiem, bet arī tver dziļus “slēptos” statistikas modeļus, kas nepieciešami uzlabotiem analītikas uzdevumiem. Pēdējais ir parādīts joslu diagrammā, norādot, ka modeļu, kas apmācīti uz sintētiskiem datiem, precizitāte salīdzinājumā ar modeļiem, kas apmācīti uz sākotnējiem datiem, ir līdzīgas. Tādējādi sintētiskos datus var izmantot faktiskai modeļu apmācībai. Sintētisko datu algoritmu izvēlētās ievades un mainīgā nozīme salīdzinājumā ar sākotnējiem datiem bija ļoti līdzīga. Tādējādi tiek secināts, ka modelēšanas procesu var veikt uz sintētiskiem datiem, kā alternatīvu reālu sensitīvu datu izmantošanai.
Klasiskām anonimizācijas metodēm ir kopīgs tas, ka tās manipulē ar oriģinālajiem datiem, lai kavētu personu izsekošanu. Viņi manipulē ar datiem un tādējādi iznīcina datus procesā. Jo vairāk jūs anonimizējat, jo labāk tiek aizsargāti jūsu dati, bet arī vairāk jūsu dati tiek iznīcināti. Tas ir īpaši postoši AI un modelēšanas uzdevumiem, kur “paredzamā jauda” ir būtiska, jo sliktas kvalitātes dati radīs sliktu ieskatu no AI modeļa. SAS to pierādīja ar laukumu zem līknes (AUC*) tuvu 0.5, parādot, ka modeļi, kas apmācīti uz anonimizētiem datiem, darbojas vissliktāk.
Korelācijas un attiecības starp mainīgajiem tika precīzi saglabātas sintētiskos datos.
Platība zem līknes (AUC), modeļa veiktspējas mērīšanas metrika, saglabājās nemainīga.
Turklāt, salīdzinot sintētiskos datus ar sākotnējo datu kopu, mainīgā nozīme, kas norādīja uz mainīgo lielumu paredzamo jaudu modelī, palika neskarta.
Pamatojoties uz šiem SAS novērojumiem un izmantojot SAS Viya, mēs varam droši secināt, ka Syntho Engine ģenerētie sintētiskie dati kvalitātes ziņā patiešām ir līdzvērtīgi reālajiem datiem. Tas apstiprina sintētisko datu izmantošanu modeļu izstrādei, paverot ceļu uzlabotai analītikai ar sintētiskiem datiem.