Synthok sortutako datu sintetikoak SASeko datu-adituek kanpoko eta objektibotasunetik ebaluatu, balioztatu eta onartzen dituzte.
Syntho-k bere erabiltzaileei kalitatea bermatzeko txosten aurreratua eskaintzeaz harro dagoen arren, industriako liderren eskutik gure datu sintetikoen kanpo-ebaluazio objektiboa izatearen garrantzia ere ulertzen dugu. Horregatik, analitikan liderra den SASekin elkarlanean aritzen gara gure datu sintetikoak ebaluatzeko.
SAS-ek hainbat ebaluazio sakon egiten ditu Syntho-ren AI-k sortutako datu sintetikoen datuen zehaztasunari, pribatutasunaren babesari eta erabilgarritasunari buruzko jatorrizko datuekin alderatuta. Ondorio gisa, SAS-ek Syntho-ren datu sintetikoak zehatzak, seguruak eta erabilgarri direla ebaluatu eta onartu zituen jatorrizko datuekin alderatuta.
"Curn" iragarpenerako erabiltzen diren telekomunikazio datuak erabili ditugu helburuko datu gisa. Ebaluazioaren helburua datu sintetikoak erabiltzea izan da churn iragarpen-eredu ezberdinak prestatzeko eta eredu bakoitzaren errendimendua ebaluatzeko. Churn-a iragarpena sailkapen-zeregin bat denez, SAS-ek sailkapen-eredu ezagunak hautatu zituen iragarpenak egiteko, besteak beste:
Datu sintetikoak sortu aurretik, SAS-ek telekomunikazioen datu-multzoa ausaz zatitu du tren multzo batean (ereduak entrenatzeko) eta holdout multzo batean (ereduak puntuatzeko). Puntuaziorako holdout bereizi bat izateak datu berriei aplikatzen zaien sailkapen-ereduak zenbaterainoko ona izan dezakeen alboraturik baloratzeko aukera ematen du.
Tren-multzoa sarrera gisa erabiliz, Synthok bere Syntho motorra erabili zuen datu-multzo sintetiko bat sortzeko. Benchmarking egiteko, SAS-ek tren-multzoaren bertsio anonimizatu bat ere sortu zuen, hainbat anonimizazio-teknika aplikatu ondoren atalase jakin batera (k-anonimitatearen) iristeko. Lehengo pausoek lau datu multzo sortu zituzten:
1., 3. eta 4. datu-multzoak sailkapen-eredu bakoitza entrenatzeko erabili ziren, eta ondorioz trebatutako 12 (3 x 4) eredu izan ziren. Ondoren, SASek holdout datu-multzoa erabili zuen eredu bakoitzaren zehaztasuna neurtzeko bezeroen txandaren iragarpenean.
SAS-ek hainbat ebaluazio sakon egiten ditu Syntho-ren AI-k sortutako datu sintetikoen datuen zehaztasunari, pribatutasunaren babesari eta erabilgarritasunari buruzko jatorrizko datuekin alderatuta. Ondorio gisa, SAS-ek Syntho-ren datu sintetikoak zehatzak, seguruak eta erabilgarri direla ebaluatu eta onartu zituen jatorrizko datuekin alderatuta.
Syntho-ren datu sintetikoak oinarrizko ereduetarako ez ezik, analitika-lan aurreratuetarako beharrezkoak diren "ezkutuko" eredu estatistiko sakonak ere jasotzen ditu. Azken hori barra-diagraman frogatzen da, datu sintetikoetan trebatutako ereduen zehaztasuna antzekoa dela eta jatorrizko datuetan trebatutako ereduen aldean. Beraz, datu sintetikoak erabil daitezke ereduen benetako prestakuntzarako. Algoritmoek datu sintetikoei buruz aukeratutako sarrera eta garrantzi aldakorra jatorrizko datuekin alderatuta oso antzekoak ziren. Horregatik, ondorioztatzen da modelizazio-prozesua datu sintetikoetan egin daitekeela, benetako datu sentikorrak erabiltzeko alternatiba gisa.
Anonimizazio-teknika klasikoek komunean dute jatorrizko datuak manipulatzea, gizabanakoen jarraipena oztopatzeko. Datuak manipulatzen dituzte eta, ondorioz, datuak suntsitzen dituzte prozesuan. Zenbat eta gehiago anonimatu, orduan eta hobeto babestuko dira zure datuak, baina baita zure datuak gehiago suntsitzen dira. Hau bereziki suntsitzailea da "iragarpen-ahalmena" ezinbestekoa den AI eta modelizazio-zereginetarako, kalitate txarreko datuek AI ereduaren ikuspegi txarrak eragingo dituztelako. SASek hori frogatu zuen, kurbaren azpiko eremua (AUC*) 0.5etik gertukoa izanik, datu anonimizatuetan trebatutako ereduek urrundik okerren egiten dutela frogatuz.
Datu sintetikoetan zehaztasunez gorde ziren aldagaien arteko korrelazioak eta erlazioak.
Kurba azpiko Area (AUC), ereduaren errendimendua neurtzeko metrika, koherentea izan zen.
Gainera, aldagaiaren garrantzia, eredu bateko aldagaien iragarpen-ahalmena adierazten zuena, bere horretan mantendu zen datu sintetikoak jatorrizko datu-multzoarekin alderatzean.
SAS-ek egindako behaketa hauetan oinarrituta eta SAS Viya erabiliz, ziurtasunez ondoriozta dezakegu Syntho Engine-k sortutako datu sintetikoak kalitatezko datu errealen parekoak direla. Honek datu sintetikoen erabilera balioztatzen du ereduak garatzeko, datu sintetikoekin analitika aurreratuari bidea irekiz.