Valutazione esterna di i nostri dati sintetici da l'esperti di dati di SAS

I nostri dati sintetici sò valutatu e appruvata da l'esperti di dati di SAS

Introduzione à a valutazione esterna di i nostri dati sintetici da i sperti di dati di SAS

Chì avemu fattu ?

I dati sintetici generati da Syntho sò valutati, validati è appruvati da un puntu di vista esternu è obiettivu da l'esperti di dati di SAS.

Perchè i nostri dati sintetici sò valutati esternamente da l'esperti di dati di SAS?

Ancu se Syntho hè fieru di offre à i so utilizatori un rapportu avanzatu di garanzia di qualità, capiscenu ancu l'impurtanza di avè una valutazione esterna è obiettiva di i nostri dati sintetici da i capi di l'industria. Hè per quessa chì cullaburemu cù SAS, capu in analitica, per valutà i nostri dati sintetici.

SAS conduce diverse valutazioni approfondite nantu à a precisione di i dati, a prutezzione di a privacy è l'usabilità di i dati sintetici generati da AI di Syntho in paragone à i dati originali. In cunclusione, SAS hà valutatu è appruvatu i dati sintetici di Syntho cum'è precisi, sicuri è utilizabili in paragone à i dati originali.

Chì hà fattu SAS durante sta valutazione?

Avemu utilizatu dati di telecomunicazione chì sò usati per a prediczione "churn" cum'è dati di destinazione. L'obiettivu di a valutazione era di utilizà dati sintetici per furmà diversi mudelli di prediczione di churn è per valutà u rendiment di ogni mudellu. Siccomu a prediczione di churn hè un compitu di classificazione, SAS hà sceltu mudelli di classificazione populari per fà e prediczioni, cumprese:

  1. Foresta aleatoria
  2. Spinta à u gradiente
  3. Regressione logistica
  4. Rice neurale

Prima di generà e dati sintetici, SAS hà divisu aleatoriamente u dataset di telecomunicazione in un trenu (per furmà i mudelli) è un set holdout (per scoring i mudelli). Avè un holdout separatu per u puntuazione permette una valutazione imparziale di quantu u mudellu di classificazione puderia fà quandu hè appiicatu à novi dati.

Utilizendu u trenu cum'è input, Syntho hà utilizatu u so Syntho Engine per generà un dataset sinteticu. Per benchmarking, SAS hà ancu creatu una versione anonima di u trenu di u trenu dopu applicà diverse tecniche di anonimatu per ghjunghje à un certu limitu (di k-anonimatu). I primi passi anu risultatu in quattru datasets:

  1. Un inseme di dati di u trenu (vale à dì u dataset originale minus u dataset di holdout)
  2. Un inseme di dati holdout (vale à dì un subset di u dataset originale)
  3. Un inseme di dati anonimatu (dati anonimi di u dataset di u trenu, dataset originale minus dataset di holdout)
  4. Un dataset sinteticu (dati sintetizzati di u dataset di u trenu, dataset originale minus dataset di holdout)

Datasets 1, 3 è 4 sò stati utilizati per furmà ogni mudellu di classificazione, risultatu in 12 (3 x 4) mudelli furmati. In seguitu, SAS hà utilizatu u dataset di holdout per misurà l'accuratezza di ogni mudellu in a prediczione di u cliente churn.

SAS conduce diverse valutazioni approfondite nantu à a precisione di i dati, a prutezzione di a privacy è l'usabilità di i dati sintetici generati da AI di Syntho in paragone à i dati originali. In cunclusione, SAS hà valutatu è appruvatu i dati sintetici di Syntho cum'è precisi, sicuri è utilizabili in paragone à i dati originali.

Avete qualchì quistione?

Parlate à unu di i nostri esperti

I risultati iniziali di a valutazione di dati da SAS

I mudelli furmati nantu à dati sintetici puntuanu assai simili in paragone à i mudelli furmati nantu à e dati originali

I dati sintetici da Syntho cuntenenu micca solu per i mudelli basi, ma catturanu ancu mudelli statistici "nascuti" prufondi necessarii per i travaglii analitici avanzati. L'ultime hè dimustratu in u bar chart, chì indica chì l'accuratezza di mudelli furmati nantu à dati sintetici versus mudelli furmati nantu à dati originali sò simili. Dunque, i dati sintetici ponu esse aduprati per a furmazione attuale di i mudelli. L'inputs è l'impurtanza variabile selezziunati da l'algoritmi nantu à e dati sintetici paragunati à i dati originali eranu assai simili. Dunque, hè cunclusu chì u prucessu di mudeli pò esse fattu nantu à dati sintetici, cum'è una alternativa per l'usu di dati sensibili veri.

Perchè i mudelli furmati nantu à i dati anonimati puntuanu peghju?

I tecnichi classici di l'anonimizazione anu in cumunu chì manipulanu e dati originali per impediscenu a traccia di individui. Manipulanu dati è cusì distrughjenu dati in u prucessu. Quantu più anonimate, megliu i vostri dati sò prutetti, ma ancu più i vostri dati sò distrutti. Questu hè soprattuttu devastante per i travaglii di IA è di modellazione induve u "putere predittivu" hè essenziale, perchè e dati di mala qualità daranu risultati insights da u mudellu AI. SAS hà dimustratu questu, cù una zona sottu a curva (AUC *) vicinu à 0.5, dimustrendu chì i mudelli furmati nantu à e dati anonimizati facenu assai u peghju.

Ulteriori risultati di valutazioni di dati sintetici da SAS

Ulteriori risultati di valutazioni di dati sintetici da SAS

I correlazioni è e relazioni trà e variàbili sò stati cunservati accuratamente in dati sintetici.

L'Area Under the Curve (AUC), una metrica per a misurazione di u rendiment di u mudellu, hè stata cunsistente.

Inoltre, l'impurtanza variabile, chì indicava a putenza predittiva di e variàbili in un mudellu, restava intacta quandu si comparava dati sintetici cù u dataset originale.

Basatu annantu à queste osservazioni da SAS è utilizendu SAS Viya, pudemu cuncludi cun fiducia chì i dati sintetici generati da u Syntho Engine sò veramente à parità di dati reali in termini di qualità. Questu valida l'usu di dati sintetici per u sviluppu di mudelli, aprendu a strada per analitiche avanzate cù dati sintetici.

Conclusioni di l'esperti di dati di SAS

Logo Sas

I nostri dati sintetici sò appruvata da l'esperti di dati di SAS

Articuli di riferimentu

copertina di guida di syntho

Salvà a vostra guida di dati sintetici avà!