Mūsu sintētisko datu ārējais novērtējums, ko veic SAS datu eksperti

Mūsu sintētiskie dati ir novērtēts un apstiprināts gada datu eksperti SAS

Ievads mūsu sintētisko datu ārējā novērtēšanā, ko veic SAS datu eksperti

Ko mēs darījām?

Syntho ģenerētos sintētiskos datus no ārējā un objektīva viedokļa novērtē, apstiprina un apstiprina SAS datu eksperti.

Kāpēc mūsu sintētiskos datus ārēji novērtē SAS datu eksperti?

Lai gan Syntho lepojas ar to, ka piedāvā saviem lietotājiem uzlabotu kvalitātes nodrošināšanas pārskatu, mēs arī saprotam, cik svarīgi ir iegūt ārēju un objektīvu mūsu sintētisko datu novērtējumu no nozares līderiem. Tāpēc mēs sadarbojamies ar SAS, analītikas līderi, lai novērtētu mūsu sintētiskos datus.

SAS veic dažādus rūpīgus Syntho AI ģenerēto sintētisko datu datu precizitātes, privātuma aizsardzības un lietojamības novērtējumus salīdzinājumā ar sākotnējiem datiem. Noslēgumā SAS novērtēja un apstiprināja Syntho sintētiskos datus kā precīzus, drošus un izmantojamus salīdzinājumā ar sākotnējiem datiem.

Ko SAS darīja šī novērtējuma laikā?

Mēs kā mērķa datus izmantojām telekomunikāciju datus, kas tiek izmantoti “apkures” prognozēšanai. Novērtēšanas mērķis bija izmantot sintētiskos datus, lai apmācītu dažādus novirzes prognozēšanas modeļus un novērtētu katra modeļa veiktspēju. Tā kā atteikšanās prognozēšana ir klasifikācijas uzdevums, SAS prognozēšanai izvēlējās populārus klasifikācijas modeļus, tostarp:

  1. Nejaušs mežs
  2. Gradienta palielināšana
  3. Loģistiskā regresija
  4. Neironu tīkls

Pirms sintētisko datu ģenerēšanas SAS nejauši sadalīja telekomunikāciju datu kopu vilcienu komplektā (modeļu apmācībai) un noturēšanas komplektā (modeļu vērtēšanai). Atsevišķa aizturēšanas kopa vērtēšanai ļauj objektīvi novērtēt, cik labi klasifikācijas modelis varētu darboties, ja to piemēro jauniem datiem.

Izmantojot vilciena komplektu kā ievadi, Syntho izmantoja savu Syntho Engine, lai ģenerētu sintētisko datu kopu. Salīdzinošajai novērtēšanai SAS izveidoja arī anonimizētu vilciena komplekta versiju pēc dažādu anonimizācijas paņēmienu izmantošanas, lai sasniegtu noteiktu slieksni (k-anonimitāti). Iepriekšējo darbību rezultātā tika izveidotas četras datu kopas:

  1. Vilciena datu kopa (ti, sākotnējā datu kopa mīnus aizturēšanas datu kopa)
  2. Aiztures datu kopa (ti, sākotnējās datu kopas apakškopa)
  3. Anonimizēta datu kopa (anonimizēti vilciena datu kopas dati, sākotnējā datu kopa mīnus aizturēšanas datu kopa)
  4. Sintētiska datu kopa (sintezētie vilciena datu kopas dati, sākotnējā datu kopa mīnus aizturētā datu kopa)

Katra klasifikācijas modeļa apmācīšanai tika izmantotas 1., 3. un 4. datu kopas, kā rezultātā tika iegūti 12 (3 x 4) apmācīti modeļi. Pēc tam SAS izmantoja aizturēšanas datu kopu, lai noteiktu katra modeļa precizitāti, prognozējot klientu atteikšanos.

SAS veic dažādus rūpīgus Syntho AI ģenerēto sintētisko datu datu precizitātes, privātuma aizsardzības un lietojamības novērtējumus salīdzinājumā ar sākotnējiem datiem. Noslēgumā SAS novērtēja un apstiprināja Syntho sintētiskos datus kā precīzus, drošus un izmantojamus salīdzinājumā ar sākotnējiem datiem.

Vai jums ir kādi jautājumi?

Runājiet ar kādu no mūsu ekspertiem

SAS veiktā datu novērtējuma sākotnējie rezultāti

Modeļi, kas apmācīti uz sintētiskiem datiem, ir ļoti līdzīgi salīdzinājumā ar modeļiem, kas apmācīti, izmantojot sākotnējos datus

Sintētiskie dati no Syntho attiecas ne tikai uz pamata modeļiem, bet arī tver dziļus “slēptos” statistikas modeļus, kas nepieciešami uzlabotiem analītikas uzdevumiem. Pēdējais ir parādīts joslu diagrammā, norādot, ka modeļu, kas apmācīti uz sintētiskiem datiem, precizitāte salīdzinājumā ar modeļiem, kas apmācīti uz sākotnējiem datiem, ir līdzīgas. Tādējādi sintētiskos datus var izmantot faktiskai modeļu apmācībai. Sintētisko datu algoritmu izvēlētās ievades un mainīgā nozīme salīdzinājumā ar sākotnējiem datiem bija ļoti līdzīga. Tādējādi tiek secināts, ka modelēšanas procesu var veikt uz sintētiskiem datiem, kā alternatīvu reālu sensitīvu datu izmantošanai.

Kāpēc modeļi, kas apmācīti, izmantojot anonimizētus datus, iegūst sliktākus rezultātus?

Klasiskām anonimizācijas metodēm ir kopīgs tas, ka tās manipulē ar oriģinālajiem datiem, lai kavētu personu izsekošanu. Viņi manipulē ar datiem un tādējādi iznīcina datus procesā. Jo vairāk jūs anonimizējat, jo labāk tiek aizsargāti jūsu dati, bet arī vairāk jūsu dati tiek iznīcināti. Tas ir īpaši postoši AI un modelēšanas uzdevumiem, kur “paredzamā jauda” ir būtiska, jo sliktas kvalitātes dati radīs sliktu ieskatu no AI modeļa. SAS to pierādīja ar laukumu zem līknes (AUC*) tuvu 0.5, parādot, ka modeļi, kas apmācīti uz anonimizētiem datiem, darbojas vissliktāk.

SAS veikto sintētisko datu novērtējuma papildu rezultāti

SAS veikto sintētisko datu novērtējuma papildu rezultāti

Korelācijas un attiecības starp mainīgajiem tika precīzi saglabātas sintētiskos datos.

Platība zem līknes (AUC), modeļa veiktspējas mērīšanas metrika, saglabājās nemainīga.

Turklāt, salīdzinot sintētiskos datus ar sākotnējo datu kopu, mainīgā nozīme, kas norādīja uz mainīgo lielumu paredzamo jaudu modelī, palika neskarta.

Pamatojoties uz šiem SAS novērojumiem un izmantojot SAS Viya, mēs varam droši secināt, ka Syntho Engine ģenerētie sintētiskie dati kvalitātes ziņā patiešām ir līdzvērtīgi reālajiem datiem. Tas apstiprina sintētisko datu izmantošanu modeļu izstrādei, paverot ceļu uzlabotai analītikai ar sintētiskiem datiem.

SAS datu ekspertu secinājumi

Sas logotips

Mūsu sintētiskie dati ir apstiprināts SAS datu eksperti

Atsauces raksti

sinto vadotnes vāks

Saglabājiet savu sintētisko datu ceļvedi tūlīt!