Cosa sono i dati sintetici?

Un corso accelerato di dati sintetici

 

 

Introduzione

Cosa sono i dati sintetici?

La risposta è relativamente semplice. Mentre i dati originali vengono raccolti in tutte le tue interazioni con persone reali (es. clienti, pazienti, dipendenti ecc.) e tramite tutti i tuoi processi interni, i dati sintetici sono generati da un algoritmo informatico. Questo algoritmo informatico genera datapoint completamente nuovi e artificiali.

Risolvi le sfide relative alla privacy dei dati

I dati generati sinteticamente sono costituiti da datapoint completamente nuovi e artificiali senza alcuna relazione uno-a-uno con i dati originali. Pertanto, nessuno dei datapoint sintetici può essere ricondotto o decodificato sui dati originali. Di conseguenza, i dati sintetici sono esenti dalle normative sulla privacy, come il GDPR e servono come soluzione per risolvere e superare le sfide relative alla privacy dei dati.

Aumenta e simula

L'aspetto generativo della generazione di dati sintetici consente di aumentare e simulare dati completamente nuovi. Funziona come soluzione quando non si dispone di dati sufficienti (scarsità di dati), si desidera sovracampionare i casi limite o quando non si dispone ancora di dati.

Qui, il focus di Syntho sono i dati strutturati (dati formattati in tabelle contenenti righe e colonne, come si vedono in un foglio Excel), ma ci piace sempre illustrare il concetto di dati sintetici tramite immagini, perché è più accattivante.

Tipi di dati sintetici

Esistono tre tipi di dati sintetici all'interno dell'ombrello dei dati sintetici. Questi 3 tipi di dati sintetici sono: dati fittizi, dati sintetici generati in base a regole e dati sintetici generati dall'intelligenza artificiale (AI). Spieghiamo brevemente quali sono i 3 diversi tipi di dati sintetici.

Dati fittizi / dati fittizi

I dati fittizi sono dati generati casualmente (ad es. da un generatore di dati fittizi).

Di conseguenza, le caratteristiche, le relazioni e gli schemi statistici presenti nei dati originali non vengono conservati, acquisiti e riprodotti nei dati fittizi generati. Pertanto, la rappresentatività dei dati fittizi/dati fittizi è minima rispetto ai dati originali.

  • Quando usarlo: per sostituire gli identificatori diretti (PII) o quando non si hanno (ancora) dati e non si vuole spendere tempo ed energie nella definizione delle regole.

Dati sintetici generati basati su regole

I dati sintetici generati in base a regole sono dati sintetici generati da un insieme predefinito di regole. Esempi di queste regole predefinite potrebbero essere che vorresti avere dati sintetici con un certo valore minimo, valore massimo o valore medio. Tutte le caratteristiche, le relazioni e gli schemi statistici che si desidera siano riprodotti nei dati sintetici generati in base a regole, devono essere predefiniti.

Di conseguenza, la qualità dei dati sarà buona quanto l'insieme di regole predefinito. Ciò si traduce in sfide quando l'elevata qualità dei dati è essenziale. In primo luogo, è possibile definire solo un insieme limitato di regole da acquisire nei dati sintetici. Inoltre, l'impostazione di più regole comporta in genere regole sovrapposte e in conflitto. Inoltre, non coprirai mai completamente tutte le regole pertinenti. Inoltre, potrebbero esserci regole rilevanti di cui non sei nemmeno a conoscenza. E infine (e non dimenticare), questo ti richiederà molto tempo ed energia risultando in una soluzione non efficiente.

  • Quando usarlo: quando non hai (ancora) dati

Dati sintetici generati dall'intelligenza artificiale (AI)

Come ci si aspetta dal nome, i dati sintetici generati dall'intelligenza artificiale (AI) sono dati sintetici generati da un algoritmo di intelligenza artificiale (AI). Il modello AI viene addestrato sui dati originali per apprendere tutte le caratteristiche, le relazioni e i modelli statistici. Successivamente, questo algoritmo di intelligenza artificiale è in grado di generare punti dati completamente nuovi e modellarli in modo tale da riprodurre le caratteristiche, le relazioni e i modelli statistici del set di dati originale. Questo è ciò che chiamiamo un gemello di dati sintetici.

Il modello di intelligenza artificiale imita i dati originali per generare gemelli di dati sintetici che possono essere utilizzati come se fossero dati originali. Ciò sblocca vari casi d'uso in cui i dati sintetici generati dall'IA possono essere utilizzati come alternativa per l'utilizzo di dati (sensibili) originali, come l'uso di dati sintetici generati dall'IA come dati di test, dati demo o per analisi.

Una visualizzazione su come vengono creati i dati sintetici

Rispetto ai dati sintetici generati basati su regole: invece di studiare e definire regole rilevanti, l'algoritmo AI lo fa automaticamente per te. Qui non verranno trattate solo le caratteristiche, le relazioni e gli schemi statistici di cui sei a conoscenza, ma anche le caratteristiche, le relazioni e gli schemi statistici di cui non sei nemmeno a conoscenza.

  • Quando usarlo: quando hai (alcuni) dati come input da imitare o da utilizzare come punto di partenza per la generazione di dati intelligenti e le funzionalità di aumento

Che tipo di dati sintetici utilizzare?

A seconda del caso d'uso, si consiglia una combinazione di dati fittizi/dati fittizi, dati sintetici generati in base a regole o dati sintetici generati dall'intelligenza artificiale (AI). Questa panoramica fornisce una prima indicazione del tipo di dati sintetici da utilizzare. Poiché Syntho li supporta tutti, non esitare a contattare i nostri esperti per approfondire il tuo caso d'uso con noi.

Questo grafico presenta diversi tipi di dati sintetici

copertina della guida sintetica

Salva ora la tua guida ai dati sintetici!