I dati sintetici generati da Syntho sò valutati, validati è appruvati da un puntu di vista esternu è obiettivu da l'esperti di dati di SAS.
Ancu se Syntho hè fieru di offre à i so utilizatori un rapportu avanzatu di garanzia di qualità, capiscenu ancu l'impurtanza di avè una valutazione esterna è obiettiva di i nostri dati sintetici da i capi di l'industria. Hè per quessa chì cullaburemu cù SAS, capu in analitica, per valutà i nostri dati sintetici.
SAS conduce diverse valutazioni approfondite nantu à a precisione di i dati, a prutezzione di a privacy è l'usabilità di i dati sintetici generati da AI di Syntho in paragone à i dati originali. In cunclusione, SAS hà valutatu è appruvatu i dati sintetici di Syntho cum'è precisi, sicuri è utilizabili in paragone à i dati originali.
Avemu utilizatu dati di telecomunicazione chì sò usati per a prediczione "churn" cum'è dati di destinazione. L'obiettivu di a valutazione era di utilizà dati sintetici per furmà diversi mudelli di prediczione di churn è per valutà u rendiment di ogni mudellu. Siccomu a prediczione di churn hè un compitu di classificazione, SAS hà sceltu mudelli di classificazione populari per fà e prediczioni, cumprese:
Prima di generà e dati sintetici, SAS hà divisu aleatoriamente u dataset di telecomunicazione in un trenu (per furmà i mudelli) è un set holdout (per scoring i mudelli). Avè un holdout separatu per u puntuazione permette una valutazione imparziale di quantu u mudellu di classificazione puderia fà quandu hè appiicatu à novi dati.
Utilizendu u trenu cum'è input, Syntho hà utilizatu u so Syntho Engine per generà un dataset sinteticu. Per benchmarking, SAS hà ancu creatu una versione anonima di u trenu di u trenu dopu applicà diverse tecniche di anonimatu per ghjunghje à un certu limitu (di k-anonimatu). I primi passi anu risultatu in quattru datasets:
Datasets 1, 3 è 4 sò stati utilizati per furmà ogni mudellu di classificazione, risultatu in 12 (3 x 4) mudelli furmati. In seguitu, SAS hà utilizatu u dataset di holdout per misurà l'accuratezza di ogni mudellu in a prediczione di u cliente churn.
SAS conduce diverse valutazioni approfondite nantu à a precisione di i dati, a prutezzione di a privacy è l'usabilità di i dati sintetici generati da AI di Syntho in paragone à i dati originali. In cunclusione, SAS hà valutatu è appruvatu i dati sintetici di Syntho cum'è precisi, sicuri è utilizabili in paragone à i dati originali.
I dati sintetici da Syntho cuntenenu micca solu per i mudelli basi, ma catturanu ancu mudelli statistici "nascuti" prufondi necessarii per i travaglii analitici avanzati. L'ultime hè dimustratu in u bar chart, chì indica chì l'accuratezza di mudelli furmati nantu à dati sintetici versus mudelli furmati nantu à dati originali sò simili. Dunque, i dati sintetici ponu esse aduprati per a furmazione attuale di i mudelli. L'inputs è l'impurtanza variabile selezziunati da l'algoritmi nantu à e dati sintetici paragunati à i dati originali eranu assai simili. Dunque, hè cunclusu chì u prucessu di mudeli pò esse fattu nantu à dati sintetici, cum'è una alternativa per l'usu di dati sensibili veri.
I tecnichi classici di l'anonimizazione anu in cumunu chì manipulanu e dati originali per impediscenu a traccia di individui. Manipulanu dati è cusì distrughjenu dati in u prucessu. Quantu più anonimate, megliu i vostri dati sò prutetti, ma ancu più i vostri dati sò distrutti. Questu hè soprattuttu devastante per i travaglii di IA è di modellazione induve u "putere predittivu" hè essenziale, perchè e dati di mala qualità daranu risultati insights da u mudellu AI. SAS hà dimustratu questu, cù una zona sottu a curva (AUC *) vicinu à 0.5, dimustrendu chì i mudelli furmati nantu à e dati anonimizati facenu assai u peghju.
I correlazioni è e relazioni trà e variàbili sò stati cunservati accuratamente in dati sintetici.
L'Area Under the Curve (AUC), una metrica per a misurazione di u rendiment di u mudellu, hè stata cunsistente.
Inoltre, l'impurtanza variabile, chì indicava a putenza predittiva di e variàbili in un mudellu, restava intacta quandu si comparava dati sintetici cù u dataset originale.
Basatu annantu à queste osservazioni da SAS è utilizendu SAS Viya, pudemu cuncludi cun fiducia chì i dati sintetici generati da u Syntho Engine sò veramente à parità di dati reali in termini di qualità. Questu valida l'usu di dati sintetici per u sviluppu di mudelli, aprendu a strada per analitiche avanzate cù dati sintetici.