SASeko datu-adituek gure datu sintetikoen kanpoko ebaluazioa

Gure datu sintetikoak dira ebaluatu onartu -ko datuen adituek SAS

SASeko datu-adituek gure datu sintetikoen kanpoko ebaluazioaren sarrera

Zer egin dugu?

Synthok sortutako datu sintetikoak SASeko datu-adituek kanpoko eta objektibotasunetik ebaluatu, balioztatu eta onartzen dituzte.

Zergatik ebaluatzen dituzte gure datu sintetikoak SASeko datu-adituek kanpotik?

Syntho-k bere erabiltzaileei kalitatea bermatzeko txosten aurreratua eskaintzeaz harro dagoen arren, industriako liderren eskutik gure datu sintetikoen kanpo-ebaluazio objektiboa izatearen garrantzia ere ulertzen dugu. Horregatik, analitikan liderra den SASekin elkarlanean aritzen gara gure datu sintetikoak ebaluatzeko.

SAS-ek hainbat ebaluazio sakon egiten ditu Syntho-ren AI-k sortutako datu sintetikoen datuen zehaztasunari, pribatutasunaren babesari eta erabilgarritasunari buruzko jatorrizko datuekin alderatuta. Ondorio gisa, SAS-ek Syntho-ren datu sintetikoak zehatzak, seguruak eta erabilgarri direla ebaluatu eta onartu zituen jatorrizko datuekin alderatuta.

Zer egin zuen SASek ebaluazio honetan?

"Curn" iragarpenerako erabiltzen diren telekomunikazio datuak erabili ditugu helburuko datu gisa. Ebaluazioaren helburua datu sintetikoak erabiltzea izan da churn iragarpen-eredu ezberdinak prestatzeko eta eredu bakoitzaren errendimendua ebaluatzeko. Churn-a iragarpena sailkapen-zeregin bat denez, SAS-ek sailkapen-eredu ezagunak hautatu zituen iragarpenak egiteko, besteak beste:

  1. Ausazko basoa
  2. Gradientea areagotzea
  3. Erregresio logistikoa
  4. Neurona sarea

Datu sintetikoak sortu aurretik, SAS-ek telekomunikazioen datu-multzoa ausaz zatitu du tren multzo batean (ereduak entrenatzeko) eta holdout multzo batean (ereduak puntuatzeko). Puntuaziorako holdout bereizi bat izateak datu berriei aplikatzen zaien sailkapen-ereduak zenbaterainoko ona izan dezakeen alboraturik baloratzeko aukera ematen du.

Tren-multzoa sarrera gisa erabiliz, Synthok bere Syntho motorra erabili zuen datu-multzo sintetiko bat sortzeko. Benchmarking egiteko, SAS-ek tren-multzoaren bertsio anonimizatu bat ere sortu zuen, hainbat anonimizazio-teknika aplikatu ondoren atalase jakin batera (k-anonimitatearen) iristeko. Lehengo pausoek lau datu multzo sortu zituzten:

  1. Trenaren datu-multzo bat (hau da, jatorrizko datu-multzoa kenduta atxikipen-datu multzoa)
  2. Atxikitako datu-multzo bat (hau da, jatorrizko datu-multzoaren azpimultzo bat)
  3. Datu-multzo anonimizatu bat (trenaren datu-multzoaren datu anonimizatuak, jatorrizko datu-multzoa kenduta gordetako datu-multzoa)
  4. Datu-multzo sintetikoa (tren-datu-multzoaren datu sintetizatuak, jatorrizko datu-multzoa kenduta gordetako datu-multzoa)

1., 3. eta 4. datu-multzoak sailkapen-eredu bakoitza entrenatzeko erabili ziren, eta ondorioz trebatutako 12 (3 x 4) eredu izan ziren. Ondoren, SASek holdout datu-multzoa erabili zuen eredu bakoitzaren zehaztasuna neurtzeko bezeroen txandaren iragarpenean.

SAS-ek hainbat ebaluazio sakon egiten ditu Syntho-ren AI-k sortutako datu sintetikoen datuen zehaztasunari, pribatutasunaren babesari eta erabilgarritasunari buruzko jatorrizko datuekin alderatuta. Ondorio gisa, SAS-ek Syntho-ren datu sintetikoak zehatzak, seguruak eta erabilgarri direla ebaluatu eta onartu zituen jatorrizko datuekin alderatuta.

Galderarik baduzu?

Hitz egin gure adituetako batekin

SASek egindako datuen ebaluazioaren hasierako emaitzak

Datu sintetikoetan trebatutako ereduek oso antzekoak dira jatorrizko datuekin trebatutako ereduekin alderatuta

Syntho-ren datu sintetikoak oinarrizko ereduetarako ez ezik, analitika-lan aurreratuetarako beharrezkoak diren "ezkutuko" eredu estatistiko sakonak ere jasotzen ditu. Azken hori barra-diagraman frogatzen da, datu sintetikoetan trebatutako ereduen zehaztasuna antzekoa dela eta jatorrizko datuetan trebatutako ereduen aldean. Beraz, datu sintetikoak erabil daitezke ereduen benetako prestakuntzarako. Algoritmoek datu sintetikoei buruz aukeratutako sarrera eta garrantzi aldakorra jatorrizko datuekin alderatuta oso antzekoak ziren. Horregatik, ondorioztatzen da modelizazio-prozesua datu sintetikoetan egin daitekeela, benetako datu sentikorrak erabiltzeko alternatiba gisa.

Zergatik puntuazio okerragoa dute datu anonimizatuetan trebatutako ereduek?

Anonimizazio-teknika klasikoek komunean dute jatorrizko datuak manipulatzea, gizabanakoen jarraipena oztopatzeko. Datuak manipulatzen dituzte eta, ondorioz, datuak suntsitzen dituzte prozesuan. Zenbat eta gehiago anonimatu, orduan eta hobeto babestuko dira zure datuak, baina baita zure datuak gehiago suntsitzen dira. Hau bereziki suntsitzailea da "iragarpen-ahalmena" ezinbestekoa den AI eta modelizazio-zereginetarako, kalitate txarreko datuek AI ereduaren ikuspegi txarrak eragingo dituztelako. SASek hori frogatu zuen, kurbaren azpiko eremua (AUC*) 0.5etik gertukoa izanik, datu anonimizatuetan trebatutako ereduek urrundik okerren egiten dutela frogatuz.

SASek egindako datu sintetikoen ebaluazioen emaitza gehigarriak

SASek egindako datu sintetikoen ebaluazioen emaitza gehigarriak

Datu sintetikoetan zehaztasunez gorde ziren aldagaien arteko korrelazioak eta erlazioak.

Kurba azpiko Area (AUC), ereduaren errendimendua neurtzeko metrika, koherentea izan zen.

Gainera, aldagaiaren garrantzia, eredu bateko aldagaien iragarpen-ahalmena adierazten zuena, bere horretan mantendu zen datu sintetikoak jatorrizko datu-multzoarekin alderatzean.

SAS-ek egindako behaketa hauetan oinarrituta eta SAS Viya erabiliz, ziurtasunez ondoriozta dezakegu Syntho Engine-k sortutako datu sintetikoak kalitatezko datu errealen parekoak direla. Honek datu sintetikoen erabilera balioztatzen du ereduak garatzeko, datu sintetikoekin analitika aurreratuari bidea irekiz.

SASeko datu adituen ondorioak

Sas logotipoa

Gure datu sintetikoak dira onartu SASeko datu-adituek

Erreferentzia artikuluak

syntho gidaren estalkia

Gorde zure datu sintetikoen gida orain!