Dati anonimati versus Dati sintetici

Se anonimizzate i vostri dati prima di fà a prova di dati di l'analisi di dati, ci sò parechji fatturi in ghjocu:

  1. In quasi tutti i casi, i dati anonimati ponu sempre esse tracciati à l'individui per via di file specifiche è uniche (per esempiu, registri medichi)
  2. Più anonimate o generalisate, più dati distruggete. Questu diminuite a qualità di i vostri dati è cusì i vostri insights
  3. L'anonimizazione funziona diversamente per diversi formati di dati. Questu significa chì ùn hè micca scalabile è pò esse assai tempu

Dati sintetici risolve tutti questi difetti è più. Fighjate u video sottu per vede un espertu analiticu da SAS (leader di u mercatu globale in analitica) spiegà nantu à a so valutazione nantu à a diffarenza di qualità trà e dati originali, dati anonimizati è dati sintetici generati da Syntho.

Stu video hè catturatu da Syntho x SAS D[N]A Café nantu à Dati Sintetici Generati da AI. Truvate u video cumpletu quì.

Edwin van Unen hà mandatu un dataset originale à Syntho è avemu sintetizatu u dataset. Ma a quistione era ancu: "Chì succede se paragunemu dati sintetici à dati anonimizzati?" Perchè perdi assai infurmazioni in una data anonima, questu succede ancu quandu si sintetizza un dataset? Avemu cuminciatu cù un set di dati da l'industria di e telecomunicazioni cù 56.000 fila è 128 colonne di informazione di l'impresa. Stu dataset hè stata sia sintetizzata sia anonimata per chì Edwin puderia paragunà a sintesi cù l'anonimizazione. Allora, Edwin hà cuminciatu à mudificà cù SAS Viya. Hà custruitu un coppiu di mudelli churn nantu à u dataset uriginale, utilizendu tecniche di regressione classica è arburi di decisione, ma ancu tecnichi più sufisticati cum'è e rete neurali, gradient boosting, random forest - sti tipi di tecniche. Utilizà l'opzioni standard SAS Viya quandu custruiscenu i mudelli.

Dopu, era ora di fighjà i risultati. I risultati eranu assai promettenti per i dati sintetici è micca per l'anonimizazione. Per l'esperti chì ùn anu micca apprendimentu di a macchina in l'audienza, fighjemu l'area sottu a curva ROC chì dice qualcosa di l'accuratezza di u mudellu. Paragunendu i dati originali à i dati anonimizati, vedemu chì u mudellu di dati uriginale hà una zona sottu à a curva ROC di .8, chì hè abbastanza bè, Tuttavia, i dati anonimati anu un spaziu sottu à a curva ROC di .6. Questu significa chì perdemu assai infurmazioni cù u mudellu anonimatu cusì perde assai putenza predittiva.

Ma allora, a quistione hè chì circa i dati sintetici? Quì, avemu fattu esattamente u listessu, ma invece di anonimizà e dati, Syntho hà sintetizatu i dati. Avà, vedemu chì i dati originali è i dati sintetici anu una zona sottu à a curva ROC di .8, chì hè assai simili. Micca esattamente u listessu per via di a variabilità, ma assai simili. Questu significa, u putenziale di dati sintetici hè assai prometenti - Edwin hè assai cuntentu di questu.

gruppu di persone chì surrisu

I dati sò sintetici, ma a nostra squadra hè vera!

Cuntattate Syntho è unu di i nostri esperti entrerà in cuntattu cun voi à a velocità di a luce per esplorà u valore di i dati sintetici!