Valutazione esterna dei nostri dati sintetici da parte degli esperti di dati di SAS

I nostri dati sintetici lo sono valutato ed approvato dagli esperti di dati di SAS

Introduzione alla valutazione esterna dei nostri dati sintetici da parte degli esperti di dati di SAS

Cosa abbiamo fatto?

I dati sintetici generati da Syntho vengono valutati, validati e approvati da un punto di vista esterno e oggettivo dagli esperti di dati di SAS.

Perché i nostri dati sintetici vengono valutati esternamente dagli esperti di dati di SAS?

Sebbene Syntho sia orgoglioso di offrire ai propri utenti un rapporto avanzato di garanzia della qualità, comprendiamo anche l'importanza di avere una valutazione esterna e obiettiva dei nostri dati sintetici da parte dei leader del settore. Ecco perché collaboriamo con SAS, leader nell'analisi, per valutare i nostri dati sintetici.

SAS conduce varie valutazioni approfondite sull'accuratezza dei dati, sulla protezione della privacy e sull'usabilità dei dati sintetici generati dall'intelligenza artificiale di Syntho rispetto ai dati originali. In conclusione, SAS ha valutato e approvato i dati sintetici di Syntho come accurati, sicuri e utilizzabili rispetto ai dati originali.

Cosa ha fatto SAS durante questa valutazione?

Abbiamo utilizzato i dati delle telecomunicazioni utilizzati per la previsione del "abbandono" come dati target. L'obiettivo della valutazione era utilizzare dati sintetici per addestrare vari modelli di previsione del tasso di abbandono e valutare le prestazioni di ciascun modello. Poiché la previsione dell'abbandono è un compito di classificazione, SAS ha selezionato modelli di classificazione popolari per effettuare le previsioni, tra cui:

  1. Foresta casuale
  2. Aumento del gradiente
  3. Regressione logistica
  4. Rete neurale

Prima di generare i dati sintetici, SAS divide in modo casuale il set di dati di telecomunicazione in un set di treni (per addestrare i modelli) e un set di controllo (per assegnare un punteggio ai modelli). Avere un set di controllo separato per il punteggio consente una valutazione imparziale di quanto bene potrebbe funzionare il modello di classificazione quando applicato a nuovi dati.

Utilizzando il treno come input, Syntho ha utilizzato il suo Syntho Engine per generare un set di dati sintetico. Per il benchmarking, SAS ha anche creato una versione anonimizzata del convoglio dopo aver applicato varie tecniche di anonimizzazione per raggiungere una certa soglia (di k-anonimato). I passaggi precedenti hanno prodotto quattro set di dati:

  1. Un set di dati del treno (ovvero il set di dati originale meno il set di dati di controllo)
  2. Un set di dati di controllo (ovvero un sottoinsieme del set di dati originale)
  3. Un set di dati anonimizzato (dati anonimizzati del set di dati del treno, set di dati originale meno il set di dati di controllo)
  4. Un set di dati sintetico (dati sintetizzati del set di dati del treno, set di dati originale meno il set di dati di controllo)

I set di dati 1, 3 e 4 sono stati utilizzati per addestrare ciascun modello di classificazione, ottenendo 12 (3 x 4) modelli addestrati. SAS ha successivamente utilizzato il set di dati di controllo per misurare l'accuratezza di ciascun modello nella previsione dell'abbandono dei clienti.

SAS conduce varie valutazioni approfondite sull'accuratezza dei dati, sulla protezione della privacy e sull'usabilità dei dati sintetici generati dall'intelligenza artificiale di Syntho rispetto ai dati originali. In conclusione, SAS ha valutato e approvato i dati sintetici di Syntho come accurati, sicuri e utilizzabili rispetto ai dati originali.

Hai qualche domanda?

Parla con uno dei nostri esperti

Primi risultati della valutazione dei dati da parte di SAS

I modelli addestrati su dati sintetici ottengono punteggi molto simili rispetto ai modelli addestrati su dati originali

I dati sintetici di Syntho valgono non solo per i modelli di base, ma catturano anche modelli statistici profondi "nascosti" necessari per attività di analisi avanzate. Quest'ultimo è dimostrato nel grafico a barre, indicando che l'accuratezza dei modelli formati su dati sintetici rispetto ai modelli formati su dati originali è simile. Pertanto, i dati sintetici possono essere utilizzati per l’addestramento effettivo dei modelli. Gli input e l'importanza delle variabili selezionate dagli algoritmi sui dati sintetici rispetto ai dati originali erano molto simili. Pertanto, si conclude che il processo di modellazione può essere effettuato su dati sintetici, come alternativa all’utilizzo di dati sensibili reali.

Perché i modelli addestrati su dati anonimizzati ottengono punteggi peggiori?

Le classiche tecniche di anonimizzazione hanno in comune il fatto di manipolare i dati originali per impedire la tracciabilità delle persone. Manipolano i dati e quindi li distruggono nel processo. Più rendi anonimi, migliore sarà la protezione dei tuoi dati, ma anche più i tuoi dati verranno distrutti. Ciò è particolarmente devastante per l’intelligenza artificiale e le attività di modellazione in cui il “potere predittivo” è essenziale, perché i dati di scarsa qualità si tradurranno in informazioni errate dal modello di intelligenza artificiale. SAS lo ha dimostrato, con un’area sotto la curva (AUC*) vicina a 0.5, dimostrando che i modelli addestrati su dati anonimizzati ottengono di gran lunga i risultati peggiori.

Ulteriori risultati delle valutazioni dei dati sintetici da parte di SAS

Ulteriori risultati delle valutazioni dei dati sintetici da parte di SAS

Le correlazioni e le relazioni tra le variabili sono state accuratamente preservate nei dati sintetici.

L'area sotto la curva (AUC), una metrica per misurare le prestazioni del modello, è rimasta coerente.

Inoltre, l'importanza della variabile, che indicava il potere predittivo delle variabili in un modello, è rimasta intatta quando si confrontano i dati sintetici con il set di dati originale.

Sulla base di queste osservazioni di SAS e utilizzando SAS Viya, possiamo concludere con sicurezza che i dati sintetici generati dal Syntho Engine sono effettivamente alla pari con i dati reali in termini di qualità. Ciò convalida l’uso di dati sintetici per lo sviluppo del modello, aprendo la strada all’analisi avanzata con dati sintetici.

Conclusioni degli esperti di dati di SAS

Logo Sas

I nostri dati sintetici lo sono approvato dagli esperti di dati di SAS

Articoli di riferimento

copertina della guida sintetica

Salva ora la tua guida ai dati sintetici!