External nga pagtimbang-timbang sa among sintetikong datos sa mga eksperto sa datos sa SAS

Ang among sintetikong datos mao gibana-bana ug aprobahan sa mga eksperto sa datos sa SAS

Pasiuna sa gawas nga pagtimbang-timbang sa among sintetikong datos sa mga eksperto sa datos sa SAS

Unsay among gibuhat?

Ang sintetikong datos nga gihimo ni Syntho gi-assess, gi-validate ug gi-aprobahan gikan sa gawas ug tumong nga punto sa panglantaw sa mga eksperto sa datos sa SAS.

Ngano nga ang among sintetikong datos gisusi sa gawas sa mga eksperto sa datos sa SAS?

Bisan kung ang Syntho mapasigarbuhon nga nagtanyag sa mga tiggamit niini usa ka advanced nga kalidad nga pagsiguro nga taho, nahibal-an usab namon ang kahinungdanon sa pagbaton ug usa ka gawas ug katuyoan nga pagtimbangtimbang sa among sintetikong datos gikan sa mga lider sa industriya. Mao nga nakigtambayayong kami sa SAS, nanguna sa analytics, aron masusi ang among sintetikong datos.

Ang SAS nagpahigayon sa nagkalain-laing bug-os nga mga ebalwasyon sa data-acuracy, privacy protection, ug usability sa Syntho's AI-generated synthetic data kon itandi sa orihinal nga data. Isip konklusyon, gisusi ug giaprobahan sa SAS ang sintetikong datos ni Syntho isip tukma, luwas, ug magamit kon itandi sa orihinal nga datos.

Unsa ang gibuhat sa SAS atol niini nga assessment?

Gigamit namo ang data sa telecom nga gigamit alang sa "churn" nga prediksyon isip target data. Ang tumong sa ebalwasyon mao ang paggamit sa sintetikong datos aron mabansay ang nagkalain-laing mga modelo sa prediksyon sa churn ug aron masusi ang performance sa matag modelo. Ingon nga ang panagna sa churn usa ka buluhaton sa pagklasipikar, gipili sa SAS ang mga sikat nga modelo sa klasipikasyon aron mahimo ang mga panagna, lakip ang:

  1. Random nga lasang
  2. Pagdugang sa gradient
  3. Logistic regression
  4. Neural network

Sa wala pa paghimo sa sintetikong datos, ang SAS random nga nagbahin sa telecom dataset ngadto sa usa ka set sa tren (para sa pagbansay sa mga modelo) ug usa ka holdout set (alang sa pag-iskor sa mga modelo). Ang pagbaton ug bulag nga set sa holdout alang sa pag-iskor nagtugot sa usa ka walay pagpihig nga pagtimbang-timbang kon unsa kamaayo ang mahimo sa modelo sa klasipikasyon kung gamiton sa bag-ong datos.

Gamit ang set sa tren isip input, gigamit ni Syntho ang Syntho Engine niini aron makamugna og sintetikong dataset. Para sa benchmarking, naghimo usab ang SAS og anonymized nga bersyon sa set sa tren human magamit ang lain-laing mga teknik sa anonymization aron maabot ang usa ka piho nga threshold (sa k-anonymity). Ang kanhi nga mga lakang miresulta ngadto sa upat ka mga dataset:

  1. Usa ka dataset sa tren (ie ang orihinal nga dataset minus ang holdout dataset)
  2. Usa ka holdout dataset (ie usa ka subset sa orihinal nga dataset)
  3. Usa ka anonymized nga dataset (anonymized data sa tren dataset, orihinal nga dataset minus ang holdout dataset)
  4. Usa ka sintetikong dataset (gi-synthesize nga datos sa dataset sa tren, orihinal nga dataset minus ang holdout dataset)

Ang mga dataset 1, 3 ug 4 gigamit sa pagbansay sa matag modelo sa klasipikasyon, nga miresulta sa 12 (3 x 4) nga nabansay nga mga modelo. Sunod nga gigamit sa SAS ang holdout dataset aron sukdon ang katukma sa matag modelo sa prediksyon sa customer churn.

Ang SAS nagpahigayon sa nagkalain-laing bug-os nga mga ebalwasyon sa data-acuracy, privacy protection, ug usability sa Syntho's AI-generated synthetic data kon itandi sa orihinal nga data. Isip konklusyon, gisusi ug giaprobahan sa SAS ang sintetikong datos ni Syntho isip tukma, luwas, ug magamit kon itandi sa orihinal nga datos.

Aduna ka bay mga pangutana?

Pakigsulti sa usa sa among mga eksperto

Inisyal nga mga resulta sa pagtasa sa datos sa SAS

Ang mga modelo nga gibansay sa sintetikong datos nga marka susama kaayo kon itandi sa mga modelo nga gibansay sa orihinal nga datos

Ang sintetikong datos gikan sa Syntho nagkupot dili lamang alang sa mga batakang sumbanan, nakuha usab niini ang lawom nga 'tinago' nga mga sumbanan sa istatistika nga gikinahanglan alang sa mga advanced nga buluhaton sa analytics. Ang ulahi gipakita sa bar chart, nga nagpakita nga ang katukma sa mga modelo nga gibansay sa sintetikong datos kumpara sa mga modelo nga gibansay sa orihinal nga datos parehas. Busa, ang sintetikong datos mahimong magamit alang sa aktuwal nga pagbansay sa mga modelo. Ang mga input ug variable importansya nga gipili sa mga algorithm sa sintetikong datos kumpara sa orihinal nga datos parehas kaayo. Busa, gihinapos nga ang proseso sa pagmodelo mahimo sa sintetikong datos, isip alternatibo sa paggamit sa tinuod nga sensitibo nga datos.

Ngano nga ang mga modelo nga gibansay sa wala mailhi nga mga marka sa datos mas grabe?

Ang mga klasiko nga pamaagi sa pag-anonymize adunay managsama nga pagmaniobra sa orihinal nga datos aron mapugngan ang pagsubay sa mga indibidwal. Gimanipula nila ang datos ug sa ingon giguba ang datos sa proseso. Kung labi ka nga dili mailhan, labi ka maayo nga mapanalipdan ang imong datos, apan labi usab nga maguba ang imong datos. Labi na kini nga makadaot alang sa AI ug mga buluhaton sa pagmodelo diin ang "pagtagna nga gahum" hinungdanon, tungod kay ang dili maayo nga kalidad nga datos moresulta sa dili maayo nga mga panan-aw gikan sa modelo sa AI. Gipakita kini sa SAS, nga adunay usa ka lugar sa ilawom sa kurba (AUC *) nga hapit sa 0.5, nga nagpakita nga ang mga modelo nga gibansay sa wala mailhi nga datos naghimo sa labing daotan.

Dugang nga mga resulta sa synthetic data assessments sa SAS

Dugang nga mga resulta sa synthetic data assessments sa SAS

Ang mga correlations ug mga relasyon tali sa mga variable tukma nga gipreserba sa sintetikong datos.

Ang Area Under the Curve (AUC), usa ka metric para sa pagsukod sa performance sa modelo, nagpabiling makanunayon.

Dugang pa, ang variable importansya, nga nagpaila sa predictive nga gahum sa mga variables sa usa ka modelo, nagpabilin nga wala'y labot sa pagtandi sa sintetikong datos sa orihinal nga dataset.

Pinasukad sa kini nga mga obserbasyon sa SAS ug pinaagi sa paggamit sa SAS Viya, masaligon kami nga makahinapos nga ang sintetikong datos nga gihimo sa Syntho Engine sa tinuud parehas sa tinuud nga datos sa mga termino sa kalidad. Gipamatud-an niini ang paggamit sa sintetikong datos alang sa pagpalambo sa modelo, nga naghatag ug dalan alang sa mga advanced analytics nga adunay sintetikong datos.

Mga konklusyon sa mga eksperto sa datos sa SAS

Sas logo

Ang among sintetikong datos mao aprobahan sa mga eksperto sa datos sa SAS

Mga reperensiya nga artikulo

syntho guide cover

I-save ang imong synthetic data guide karon!