Anonymized nga datos kumpara sa Synthetic nga datos

Kung dili nimo mailhan ang imong datos sa wala pa ipahigayon ang pagsulay sa datos sa data analytics, adunay daghang mga hinungdan nga gidula:

  1. Sa hapit tanan nga mga kaso, ang wala mailhi nga datos mahimo gihapon nga masubay balik sa mga indibidwal tungod sa piho ug talagsaon nga mga linya (eg medikal nga mga rekord)
  2. Kung labi ka nga nag-anonymize o nag-generalize, mas daghang data ang imong giguba. Gipaubos niini ang kalidad sa imong datos ug sa ingon ang imong mga panabut
  3. Lainlain ang pagtrabaho sa anonymization alang sa lainlaing mga format sa datos. Nagpasabot kini nga dili kini scalable ug mahimong makagugol ug panahon

Ang sintetikong datos nagsulbad sa tanan niining mga kakulangan ug uban pa. Tan-awa ang video sa ubos aron makita ang eksperto sa analytics gikan sa SAS (global market leader sa analytics) nga nagpatin-aw bahin sa iyang assessment sa kalainan sa kalidad tali sa orihinal nga datos, wala mailhi nga datos ug pinaagi sa Syntho nga namugna nga sintetikong datos.

Kini nga video nakuha gikan sa Syntho x SAS D[N]A Café bahin sa AI Generated Synthetic Data. Pangitaa ang tibuok nga video dinhi.

Si Edwin van Unen nagpadala ug orihinal nga dataset sa Syntho ug among gi-synthesize ang dataset. Apan ang pangutana mao usab: "Unsa ang mahitabo kung itandi naton ang sintetikong datos sa wala mailhi nga datos?" Tungod kay nawad-an ka daghang impormasyon sa usa ka wala mailhi nga datos, mahitabo ba usab kini kung mag-synthesize sa usa ka dataset? Nagsugod kami sa usa ka dataset gikan sa industriya sa telekomunikasyon nga adunay 56.000 nga mga laray ug 128 nga mga kolum sa kasayuran sa kompanya sa churn. Kini nga dataset pareho nga gi-synthesize ug wala mailhi aron makomparar ni Edwin ang synthetization sa anonymization. Dayon, nagsugod si Edwin sa pagmodelo gamit ang SAS Viya. Nagtukod siya og duha ka modelo sa churn sa orihinal nga dataset, gamit ang classical regression techniques ug decision trees, apan mas sopistikado usab nga mga teknik sama sa neural networks, gradient boosting, random forest – kining mga matang sa teknik. Gamit ang standard nga mga kapilian sa SAS Viya sa paghimo sa mga modelo.

Unya, panahon na aron tan-awon ang mga resulta. Ang mga resulta maayo kaayo alang sa sintetikong datos ug dili alang sa anonymization. Alang sa mga eksperto nga wala’y makina nga pagkat-on sa mamiminaw, gitan-aw namon ang lugar sa ilawom sa kurba sa ROC nga nagsulti bahin sa katukma sa modelo. Ang pagtandi sa orihinal nga datos sa wala mailhi nga datos, atong makita nga ang orihinal nga modelo sa datos adunay usa ka lugar ubos sa ROC-curve sa .8, nga maayo kaayo, Apan, ang anonymized nga datos adunay usa ka lugar ubos sa ROC-curve sa .6. Nagpasabot kini nga mawad-an kami og daghang impormasyon sa wala mailhi nga modelo aron mawad-an ka og daghang prediksyon nga gahum.

Apan unya, ang pangutana kung unsa ang bahin sa datos sa synthetics? Dinhi, parehas ang among gibuhat apan imbes nga i-anonymize ang datos, gi-synthesize ni Syntho ang datos. Karon, nakita nato ang orihinal nga datos ug ang sintetikong datos nga adunay lugar ubos sa ROC-curve nga .8, nga susama kaayo. Dili gyud parehas tungod sa pagkalainlain, apan parehas kaayo. Kini nagpasabot, ang potensyal sa sintetikong datos dako kaayog saad – si Edwin nalipay kaayo niini.

grupo sa mga tawo nga nagpahiyom

Sintetiko ang datos, apan tinuod ang among team!

Pakigsulti kang Syntho ug usa sa among mga eksperto makigsulti kanimo sa gikusgon sa kahayag aron masusi ang kantidad sa sintetikong datos!