Dati anonimi vs dati sintetici

Se anonimizzi i tuoi dati prima di eseguire il test dei dati dell'analisi dei dati, ci sono diversi fattori in gioco:

  1. Nella quasi totalità dei casi, i dati anonimi possono ancora essere ricondotti a persone fisiche grazie a righe specifiche e univoche (es. cartelle cliniche)
  2. Più anonimizzi o generalizzi, più dati distruggi. Questo riduce la qualità dei tuoi dati e quindi le tue intuizioni
  3. L'anonimizzazione funziona in modo diverso per i diversi formati di dati. Ciò significa che non è scalabile e può richiedere molto tempo

I dati sintetici risolvono tutte queste carenze e altro ancora. Guarda il video qui sotto per vedere un esperto di analisi di SAS (leader di mercato globale nell'analisi) spiegare la sua valutazione sulla differenza di qualità tra dati originali, dati anonimi e dati sintetici generati da Syntho.

Questo video è stato catturato dal Syntho x SAS D[N]A Café sui dati sintetici generati dall'intelligenza artificiale. Trovate il video completo qui.

Edwin van Unen ha inviato un set di dati originale a Syntho e abbiamo sintetizzato il set di dati. Ma la domanda era anche: "Cosa accadrà se confrontiamo i dati sintetici con i dati anonimizzati?" Poiché si perdono molte informazioni in un dato anonimo, ciò accadrà anche durante la sintesi di un set di dati? Abbiamo iniziato con un set di dati del settore delle telecomunicazioni con 56.000 righe e 128 colonne di informazioni sull'abbandono dell'azienda. Questo set di dati è stato sia sintetizzato che anonimo in modo che Edwin potesse confrontare la sintesi con l'anonimizzazione. Quindi, Edwin ha iniziato a modellare utilizzando SAS Viya. Ha costruito un paio di modelli di churn sul set di dati originale, utilizzando tecniche di regressione classica e alberi decisionali, ma anche tecniche più sofisticate come reti neurali, gradient boosting, random forest - questo tipo di tecniche. Utilizzo delle opzioni SAS Viya standard durante la creazione dei modelli.

Poi, è arrivato il momento di guardare i risultati. I risultati sono stati molto promettenti per i dati sintetici e non per l'anonimizzazione. Per i non esperti di apprendimento automatico tra il pubblico, esaminiamo l'area sotto la curva ROC che dice qualcosa sull'accuratezza del modello. Confrontando i dati originali con i dati anonimi, vediamo che il modello di dati originale ha un'area sotto la curva ROC di .8, il che è abbastanza buono, tuttavia, i dati anonimi hanno un'area sotto la curva ROC di .6. Ciò significa che perdiamo molte informazioni con il modello anonimo, quindi perdi molto potere predittivo.

Ma allora, la domanda è: che dire dei dati sintetici? Qui, abbiamo fatto esattamente lo stesso, ma invece di rendere anonimi i dati, Syntho ha sintetizzato i dati. Ora, vediamo che sia i dati originali che i dati sintetici hanno un'area sotto la curva ROC di .8, che è molto simile. Non esattamente lo stesso a causa della variabilità, ma molto simile. Ciò significa che il potenziale dei dati sintetici è molto promettente – Edwin ne è molto felice.

gruppo di persone che sorridono

I dati sono sintetici, ma il nostro team è reale!

Contatta Syntho e un nostro esperto si metterà in contatto con te alla velocità della luce per esplorare il valore dei dati sintetici!