Ekstera taksado de niaj sintezaj datumoj de la fakuloj pri datumoj de SAS

Niaj sintezaj datumoj estas taksita kaj aprobita de la fakuloj pri datumoj de SAS

Enkonduko al la ekstera taksado de niaj sintezaj datumoj de la fakuloj pri datumoj de SAS

Kion ni faris?

Sintezaj datumoj generitaj de Syntho estas taksitaj, validigitaj kaj aprobitaj de ekstera kaj objektiva vidpunkto de la datumaj fakuloj de SAS.

Kial niaj sintezaj datumoj estas ekstere taksitaj de la fakuloj pri datumoj de SAS?

Kvankam Syntho fieras proponi al siaj uzantoj altnivelan kvalitan certigon, ni ankaŭ komprenas la gravecon havi eksteran kaj objektivan taksadon de niaj sintezaj datumoj de industriaj gvidantoj. Tial ni kunlaboras kun SAS, gvidanto en analitiko, por taksi niajn sintezajn datumojn.

SAS faras diversajn ĝisfundajn taksojn pri datumprecizeco, privateca protekto kaj uzebleco de la sintezaj datumoj generitaj de AI de Syntho kompare al la originaj datumoj. Kiel konkludo, SAS taksis kaj aprobis la sintezajn datumojn de Syntho kiel precizajn, sekurajn kaj uzeblajn kompare kun la originaj datumoj.

Kion faris SAS dum ĉi tiu takso?

Ni uzis telekomunikajn datumojn, kiuj estas uzataj por antaŭdiro de "ĉiriĝo" kiel celajn datumojn. La celo de la taksado estis uzi sintezajn datenojn por trejni diversajn churn-prognozmodelojn kaj por taksi la efikecon de ĉiu modelo. Ĉar la antaŭdiro estas klasifika tasko, SAS elektis popularajn klasifikmodelojn por fari la prognozojn, inkluzive de:

  1. Hazarda arbaro
  2. Pliigo de gradienteco
  3. Loĝistika regreso
  4. Neura reto

Antaŭ generado de la sintezaj datenoj, SAS hazarde dividis la telekomunikadatumaron en trajnaron (por trejnado de la modeloj) kaj holdout aro (por gajnado de la modeloj). Havi apartan holdon aron por poentado permesas senantaŭjuĝan takson de kiom bone la klasifikmodelo povus fari kiam aplikite al novaj datenoj.

Utiligante la vagonaron kiel enigaĵon, Syntho uzis ĝian Syntho Engine por generi sintezan datumaron. Por benchmarking, SAS ankaŭ kreis anonimigitan version de la trajnaro post aplikado de diversaj anonimigteknikoj por atingi certan sojlon (de k-anonimeco). La antaŭaj paŝoj rezultigis kvar datumarojn:

  1. Trajna datumaro (t.e. la originala datumaro minus la tenita datumaro)
  2. Rezigna datumaro (t.e. subaro de la origina datumaro)
  3. Anonimigita datumaro (anonimigitaj datenoj de la trajna datumaro, originala datumaro minus la tenita datumaro)
  4. Sinteza datumaro (sintezitaj datenoj de la trajna datumaro, origina datumaro minus la tenita datumaro)

Datenserioj 1, 3 kaj 4 estis uzitaj por trejni ĉiun klasifikmodelon, rezultigante 12 (3 x 4) trejnitajn modelojn. SAS poste uzis la tenan datumaron por mezuri la precizecon de ĉiu modelo en la antaŭdiro de klientfalo.

SAS faras diversajn ĝisfundajn taksojn pri datumprecizeco, privateca protekto kaj uzebleco de la sintezaj datumoj generitaj de AI de Syntho kompare al la originaj datumoj. Kiel konkludo, SAS taksis kaj aprobis la sintezajn datumojn de Syntho kiel precizajn, sekurajn kaj uzeblajn kompare kun la originaj datumoj.

Ĉu vi havas demandojn?

Parolu kun unu el niaj spertuloj

Komencaj rezultoj de la datuma taksado de SAS

Modeloj trejnitaj sur sintezaj datenoj poentas tre similaj en komparo al modeloj trejnitaj en originaj datenoj

Sintezaj datumoj de Syntho validas ne nur por bazaj ŝablonoj, ĝi ankaŭ kaptas profundajn "kaŝitajn" statistikajn ŝablonojn necesajn por altnivelaj analizaj taskoj. Ĉi-lasta estas pruvita en la stangodiagramo, indikante ke la precizeco de modeloj trejnitaj sur sintezaj datumoj kontraŭ modeloj trejnitaj sur originalaj datumoj estas similaj. Tial, sintezaj datenoj povas esti utiligitaj por fakta trejnado de la modeloj. La enigaĵoj kaj varia graveco elektitaj de la algoritmoj pri sintezaj datumoj kompare kun originalaj datumoj estis tre similaj. Tial, estas finite ke la modeliga procezo povas esti farita sur sintezaj datumoj, kiel alternativo por uzi realajn sentemajn datumojn.

Kial modeloj trejnitaj sur anonimigitaj datumoj gajnas pli malbone?

Klasikaj anonimigaj teknikoj havas komune, ke ili manipulas originajn datumojn por malhelpi spuradon de individuoj. Ili manipulas datumojn kaj tiel detruas datumojn en la procezo. Ju pli vi anonimigas, des pli bone viaj datumoj estas protektitaj, sed ankaŭ des pli viaj datumoj estas detruitaj. Ĉi tio estas precipe giganta por AI kaj modelaj taskoj kie "prognoza potenco" estas esenca, ĉar malbonaj kvalitaj datumoj rezultigos malbonajn komprenojn de la AI-modelo. SAS pruvis ĉi tion, kun areo sub la kurbo (AUC*) proksima al 0.5, pruvante, ke la modeloj trejnitaj sur anonimigitaj datumoj rezultas multe la plej malbonaj.

Kromaj rezultoj de sintezaj datentaksoj de SAS

Kromaj rezultoj de sintezaj datentaksoj de SAS

La korelacioj kaj rilatoj inter variabloj estis precize konservitaj en sintezaj datumoj.

La Areo Sub la Kurbo (AUC), metriko por mezuri modelefikecon, restis konsekvenca.

Krome, la varia graveco, kiu indikis la prognozan potencon de variabloj en modelo, restis sendifekta dum komparado de sintezaj datenoj kun la origina datumaro.

Surbaze de ĉi tiuj observoj de SAS kaj uzante SAS Viya, ni povas memfide konkludi, ke sintezaj datumoj generitaj de la Syntho Engine ja estas egalaj al realaj datumoj laŭ kvalito. Ĉi tio konfirmas la uzon de sintezaj datumoj por modelevoluo, pavimante la vojon por progresinta analizo kun sintezaj datumoj.

Konkludoj de la fakuloj pri datumoj de SAS

Sas-emblemo

Niaj sintezaj datumoj estas aprobita de la fakuloj pri datumoj de SAS

Referencaj artikoloj

sinteza gvidilo kovrilo

Konservu vian sintezan datuman gvidilon nun!