Meie sünteetiliste andmete väline hindamine SAS-i andmeekspertide poolt

Meie sünteetilised andmed on hinnatud ja heaks aasta andmeeksperdid SAS

Sissejuhatus meie sünteetiliste andmete välishindamisesse SAS-i andmeekspertide poolt

Mida me tegime?

Syntho loodud sünteetilisi andmeid hindavad, kinnitavad ja kinnitavad välisest ja objektiivsest vaatepunktist SASi andmeeksperdid.

Miks hindavad SAS-i andmeeksperdid meie sünteetilisi andmeid väliselt?

Kuigi Syntho pakub uhkusega oma kasutajatele täiustatud kvaliteedi tagamise aruannet, mõistame ka seda, kui oluline on oma sünteetiliste andmete välist ja objektiivset hindamist tööstusharu liidritelt. Seetõttu teeme oma sünteetiliste andmete hindamiseks koostööd SAS-iga, mis on analüütika liider.

SAS viib läbi erinevaid põhjalikke hinnanguid Syntho tehisintellekti loodud sünteetiliste andmete täpsuse, privaatsuse kaitse ja kasutatavuse kohta algandmetega võrreldes. Kokkuvõtteks hindas ja kiitis SAS Syntho sünteetilised andmed algandmetega võrreldes täpseks, turvaliseks ja kasutatavaks.

Mida SAS selle hindamise ajal tegi?

Sihtandmetena kasutasime telekommunikatsiooniandmeid, mida kasutatakse vahetumise prognoosimiseks. Hindamise eesmärk oli kasutada sünteetilisi andmeid, et koolitada erinevaid churn-ennustusmudeleid ja hinnata iga mudeli toimivust. Kuna kaotuse ennustamine on klassifitseerimisülesanne, valis SAS ennustuste tegemiseks populaarsed klassifitseerimismudelid, sealhulgas:

  1. Juhuslik mets
  2. Gradiendi suurendamine
  3. Logistiline regressioon
  4. Närvivõrk

Enne sünteetiliste andmete genereerimist jagas SAS telekommunikatsiooni andmestiku juhuslikult rongikomplektiks (mudelite koolitamiseks) ja hoidmiskomplektiks (mudelite hindamiseks). Hindamise jaoks eraldi hoidmiskomplekti olemasolu võimaldab erapooletult hinnata, kui hästi võib klassifitseerimismudel uutele andmetele rakendamisel toimida.

Kasutades rongikomplekti sisendina, kasutas Syntho sünteetilise andmestiku loomiseks oma Syntho mootorit. Võrdlusuuringu jaoks lõi SAS ka rongikomplekti anonüümseks muudetud versiooni pärast erinevate anonüümsuse muutmise tehnikate rakendamist teatud läve (k-anonüümsuse) saavutamiseks. Eelmiste sammude tulemuseks oli neli andmekogumit:

  1. Rongi andmestik (st algne andmestik, millest on lahutatud kinnipidamise andmestik)
  2. Hoiatav andmestik (st algse andmekogumi alamhulk)
  3. Anonüümne andmestik (rongi andmestiku anonüümsed andmed, algne andmestik miinus kinnipidamise andmekogum)
  4. Sünteetiline andmestik (rongi andmestiku sünteesitud andmed, algne andmestik miinus hoideandmekogum)

Iga klassifikatsioonimudeli koolitamiseks kasutati andmekogumeid 1, 3 ja 4, mille tulemuseks oli 12 (3 x 4) koolitatud mudelit. Seejärel kasutas SAS hoidmisandmestikku, et mõõta iga mudeli täpsust klientide vähenemise prognoosimisel.

SAS viib läbi erinevaid põhjalikke hinnanguid Syntho tehisintellekti loodud sünteetiliste andmete täpsuse, privaatsuse kaitse ja kasutatavuse kohta algandmetega võrreldes. Kokkuvõtteks hindas ja kiitis SAS Syntho sünteetilised andmed algandmetega võrreldes täpseks, turvaliseks ja kasutatavaks.

Kas teil on küsimusi?

Rääkige ühe meie eksperdiga

SASi andmete hindamise esialgsed tulemused

Sünteetilistel andmetel treenitud mudelid on väga sarnased algandmetel koolitatud mudelitega

Syntho sünteetilised andmed ei sisalda mitte ainult põhimustreid, vaid ka sügavaid "peidetud" statistilisi mustreid, mida on vaja täiustatud analüüsiülesannete jaoks. Viimast on näidatud tulpdiagrammis, mis näitab, et sünteetilistel andmetel treenitud mudelite ja algandmetel treenitud mudelite täpsus on sarnane. Seega saab mudelite tegelikuks treenimiseks kasutada sünteetilisi andmeid. Algoritmide poolt sünteetilistel andmetel valitud sisendid ja muutuv tähtsus olid algandmetega võrreldes väga sarnased. Seega järeldatakse, et tegelike tundlike andmete kasutamise alternatiivina saab modelleerimisprotsessi teha sünteetiliste andmete põhjal.

Miks anonüümsetele andmetele koolitatud mudelid saavad halvemini?

Klassikaliste anonüümseks muutmise tehnikate ühine joon on see, et nad manipuleerivad algandmetega, et takistada isikute jälitamist. Nad manipuleerivad andmetega ja hävitavad seeläbi andmeid protsessi käigus. Mida rohkem anonüümseks muudate, seda paremini on teie andmed kaitstud, aga ka seda rohkem teie andmeid hävitatakse. See on eriti laastav tehisintellekti ja modelleerimisülesannete puhul, kus "ennustusjõud" on hädavajalik, sest halva kvaliteediga andmed põhjustavad tehisintellekti mudelist halva ülevaate. SAS näitas seda kõveraaluse pindalaga (AUC*) 0.5 lähedal, näidates, et anonüümsetele andmetele treenitud mudelid toimivad kaugelt kõige halvemini.

SASi sünteetiliste andmete hindamise lisatulemused

SASi sünteetiliste andmete hindamise lisatulemused

Muutujate vahelised korrelatsioonid ja seosed olid sünteetilistes andmetes täpselt säilinud.

Kõveraalune pindala (AUC), mudeli jõudluse mõõtmise mõõdik, jäi samaks.

Lisaks jäi muutujate tähtsus, mis näitas mudeli muutujate prognoosimisvõimet, sünteetilisi andmeid algse andmekogumiga võrreldes puutumata.

Nendele SAS-i tähelepanekutele ja SAS Viya kasutamisele tuginedes võime kindlalt järeldada, et Syntho Engine'i loodud sünteetilised andmed on kvaliteedi poolest tõepoolest võrdsed tegelike andmetega. See kinnitab sünteetiliste andmete kasutamist mudelite arendamiseks, sillutades teed sünteetiliste andmetega täiustatud analüütikale.

SASi andmeekspertide järeldused

Sas logo

Meie sünteetilised andmed on heaks SASi andmeeksperdid

Viiteartiklid

süntojuhiku kate

Salvestage oma sünteetiliste andmete juhend kohe!