Panlabas na pagsusuri ng aming sintetikong data ng mga eksperto sa data ng SAS

Ang aming sintetikong data ay tasahin at pinagtibay ng mga dalubhasa sa datos ng SAS

Panimula sa panlabas na pagsusuri ng aming sintetikong data ng mga eksperto sa data ng SAS

Ano ang ginawa namin?

Ang sintetikong data na nabuo ng Syntho ay tinatasa, pinapatunayan at naaprubahan mula sa isang panlabas at layunin na pananaw ng mga dalubhasa sa data ng SAS.

Bakit external na sinusuri ng mga data expert ng SAS ang aming synthetic data?

Bagama't ipinagmamalaki ng Syntho na mag-alok sa mga user nito ng advanced na ulat sa pagtiyak ng kalidad, naiintindihan din namin ang kahalagahan ng pagkakaroon ng panlabas at layunin na pagsusuri ng aming sintetikong data mula sa mga pinuno ng industriya. Iyon ang dahilan kung bakit nakikipagtulungan kami sa SAS, nangunguna sa analytics, upang masuri ang aming sintetikong data.

Nagsasagawa ang SAS ng iba't ibang masusing pagsusuri sa katumpakan ng data, proteksyon sa privacy, at kakayahang magamit ng synthetic na data na binuo ng AI ng Syntho kumpara sa orihinal na data. Bilang konklusyon, tinasa at inaprubahan ng SAS ang sintetikong data ng Syntho bilang tumpak, secure, at magagamit kumpara sa orihinal na data.

Ano ang ginawa ng SAS sa panahon ng pagtatasa na ito?

Gumamit kami ng data ng telecom na ginagamit para sa hula ng "churn" bilang target na data. Ang layunin ng pagsusuri ay gumamit ng sintetikong data upang sanayin ang iba't ibang mga modelo ng hula ng churn at upang masuri ang pagganap ng bawat modelo. Dahil ang hula sa churn ay isang gawain sa pag-uuri, pinili ng SAS ang mga sikat na modelo ng pag-uuri para gawin ang mga hula, kabilang ang:

  1. Random na kagubatan
  2. Pagpapalakas ng gradient
  3. Logistic regression
  4. Neural network

Bago bumuo ng sintetikong data, random na hinati ng SAS ang dataset ng telecom sa isang set ng tren (para sa pagsasanay ng mga modelo) at isang set ng holdout (para sa pag-iskor ng mga modelo). Ang pagkakaroon ng hiwalay na hanay ng holdout para sa pagmamarka ay nagbibigay-daan para sa isang walang pinapanigan na pagtatasa kung gaano kahusay ang magagawa ng modelo ng pag-uuri kapag inilapat sa bagong data.

Gamit ang set ng tren bilang input, ginamit ng Syntho ang Syntho Engine nito para bumuo ng synthetic na dataset. Para sa benchmarking, gumawa din ang SAS ng isang hindi kilalang bersyon ng set ng tren pagkatapos maglapat ng iba't ibang mga diskarte sa pag-anonymize upang maabot ang isang partikular na threshold (ng k-anonymity). Ang mga dating hakbang ay nagresulta sa apat na dataset:

  1. Isang dataset ng tren (ibig sabihin, ang orihinal na dataset na binawasan ang holdout dataset)
  2. Isang holdout na dataset (ibig sabihin, isang subset ng orihinal na dataset)
  3. Isang naka-anonymize na dataset (na-anonymize na data ng dataset ng tren, orihinal na dataset na binawasan ang holdout na dataset)
  4. Isang sintetikong dataset (na-synthesize na data ng dataset ng tren, orihinal na dataset na binawasan ang holdout na dataset)

Ang mga dataset 1, 3 at 4 ay ginamit upang sanayin ang bawat modelo ng pag-uuri, na nagresulta sa 12 (3 x 4) na sinanay na mga modelo. Kasunod na ginamit ng SAS ang holdout dataset upang sukatin ang katumpakan ng bawat modelo sa hula ng customer churn.

Nagsasagawa ang SAS ng iba't ibang masusing pagsusuri sa katumpakan ng data, proteksyon sa privacy, at kakayahang magamit ng synthetic na data na binuo ng AI ng Syntho kumpara sa orihinal na data. Bilang konklusyon, tinasa at inaprubahan ng SAS ang sintetikong data ng Syntho bilang tumpak, secure, at magagamit kumpara sa orihinal na data.

Mayroon ka bang anumang mga katanungan?

Makipag-usap sa isa sa aming mga eksperto

Mga paunang resulta ng pagtatasa ng data ng SAS

Ang mga modelong sinanay sa synthetic na marka ng data ay lubos na magkatulad kumpara sa mga modelong sinanay sa orihinal na data

Ang sintetikong data mula sa Syntho ay nagtataglay hindi lamang para sa mga pangunahing pattern, nakukuha din nito ang malalim na 'nakatagong' mga pattern ng istatistika na kinakailangan para sa mga advanced na gawain sa analytics. Ang huli ay ipinapakita sa bar chart, na nagsasaad na ang katumpakan ng mga modelong sinanay sa sintetikong data kumpara sa mga modelong sinanay sa orihinal na data ay magkatulad. Samakatuwid, ang sintetikong data ay maaaring gamitin para sa aktwal na pagsasanay ng mga modelo. Ang mga input at variable na kahalagahan na pinili ng mga algorithm sa synthetic data kumpara sa orihinal na data ay halos magkapareho. Samakatuwid, napagpasyahan na ang proseso ng pagmomodelo ay maaaring gawin sa sintetikong data, bilang isang alternatibo sa paggamit ng tunay na sensitibong data.

Bakit mas malala ang marka ng mga modelong sinanay sa anonymized na data?

Ang mga klasikong diskarte sa pag-anonymize ay may pagkakatulad na minamanipula ng mga ito ang orihinal na data upang hadlangan ang pagsubaybay sa likod ng mga indibidwal. Minamanipula nila ang data at sa gayon ay sinisira ang data sa proseso. Kapag mas nag-anonymize ka, mas mapoprotektahan ang iyong data, ngunit mas masisira ang iyong data. Ito ay lalong nakakasira para sa AI at mga gawain sa pagmomodelo kung saan ang "panghuhula na kapangyarihan" ay mahalaga, dahil ang hindi magandang kalidad ng data ay magreresulta sa hindi magandang insight mula sa modelo ng AI. Ipinakita ito ng SAS, na may isang lugar sa ilalim ng curve (AUC*) na malapit sa 0.5, na nagpapakita na ang mga modelong sinanay sa hindi nakikilalang data ay gumaganap ng pinakamasama.

Mga karagdagang resulta ng synthetic data assessments ng SAS

Mga karagdagang resulta ng synthetic data assessments ng SAS

Ang mga ugnayan at ugnayan sa pagitan ng mga variable ay tumpak na napanatili sa sintetikong data.

Ang Area Under the Curve (AUC), isang sukatan para sa pagsukat ng performance ng modelo, ay nanatiling pare-pareho.

Higit pa rito, ang variable na kahalagahan, na nagpahiwatig ng predictive na kapangyarihan ng mga variable sa isang modelo, ay nanatiling buo kapag inihahambing ang sintetikong data sa orihinal na dataset.

Batay sa mga obserbasyon na ito ng SAS at sa pamamagitan ng paggamit ng SAS Viya, kumpiyansa kaming mahihinuha na ang sintetikong data na nabuo ng Syntho Engine ay talagang katumbas ng totoong data sa mga tuntunin ng kalidad. Pinapatunayan nito ang paggamit ng synthetic na data para sa pagbuo ng modelo, na nagbibigay daan para sa advanced na analytics na may synthetic na data.

Mga konklusyon ng mga dalubhasa sa datos ng SAS

Logo ng Sas

Ang aming sintetikong data ay pinagtibay ng mga dalubhasa sa datos ng SAS

Mga sangguniang artikulo

syntho guide cover

I-save ang iyong synthetic data guide ngayon!