Guida alla generazione di dati sintetici: definizione, tipi e applicazioni

Non è un segreto che le aziende debbano affrontare sfide nell'acquisizione e nella condivisione di dati di alta qualità. Generazione di dati sintetici è una soluzione pratica che aiuta a produrre grandi set di dati artificiali e dati di test di alta qualità senza rischi per la privacy o burocrazia.

I set di dati sintetici possono essere creati utilizzando una varietà di metodi, offrendo diverse applicazioni. Se valutati correttamente, i set di dati sintetici generati utilizzando algoritmi avanzati aiutano le organizzazioni ad accelerare le analisi, la ricerca e i test. Quindi diamo uno sguardo più da vicino.

Questo articolo presenta i dati sintetici, inclusi i tipi principali, le differenze rispetto ai set di dati anonimizzati e le sfumature normative. Imparerai come i dati generati artificialmente risolvono problemi critici relativi ai dati e riducono al minimo determinati rischi. Discuteremo anche le sue applicazioni in tutti i settori, accompagnati da esempi tratti dai nostri casi di studio.

Sommario

Dati sintetici: definizione e statistiche di mercato

Dati sintetici sono informazioni generate artificialmente prive di contenuto riservato e servono come alternativa ai set di dati reali. I data scientist chiamano spesso Dati sintetici generati dall'intelligenza artificiale un gemello di dati sintetici a causa della sua elevata precisione statistica nell'imitare i dati reali.

I set di dati artificiali vengono creati utilizzando algoritmi e simulazioni di intelligenza artificiale (AI) che mantengono i modelli e le correlazioni dei dati originali. Questi dati possono includere testo, tabelle e immagini. Gli algoritmi sostituiscono le informazioni di identificazione personale (PII) con dati fittizi.

Piattaforma dati sintetici Syntho con il grafico di tutte le soluzioni

Previsioni della ricerca Grand View per cui il mercato generazione di dati sintetici con l’intelligenza artificiale generativa crescerà da 1.63 miliardi di dollari nel 2022 a circa 13.5 miliardi di dollari entro il 2030 con un CAGR del 35%. Secondo Gartner, Il 60% dei dati utilizzati per l’IA nel 2024 saranno sintetici – ovvero 60 volte di più rispetto al 2021.

Anche le piattaforme di dati sintetici sono in aumento. Il mercato Statesville si aspetta il mercato globale delle piattaforme di dati sintetici crescerà da 218 milioni di dollari nel 2022 a 3.7 miliardi di dollari entro il 2033.

Perché i dati artificiali sono in aumento? Un fattore trainante è la libertà dal controllo normativo.

Le leggi sulla privacy regolano i dati sintetici generati dall’intelligenza artificiale?

Molti USA e UE sicurezza dei dati e privacy La normativa si applica ai dati personali identificabili. 

Ma queste norme non si applicano dati sintetici — i dati sintetici sono trattati in modo simile a dati anonimizzati. Costituiscono il cosiddetto “nucleo” di altre norme giuridiche.

Per esempio, considerando 26 del GDPR afferma che le norme sulla protezione della privacy si applicano solo ai dati che si riferiscono a una persona identificabile. Se i tuoi dati sintetici vengono generati in modo tale da non poter essere ricondotti a individui identificabili, sono esenti da controllo normativo. A parte il controllo normativo, ci sono altri ostacoli all’utilizzo di dati reali che spingono le aziende a generare dati sintetici.

Le principali sfide legate all’utilizzo di dati reali

Molte aziende hanno difficoltà a trovare e utilizzare dati rilevanti e di alta qualità, soprattutto in quantità sufficienti per l’addestramento degli algoritmi di intelligenza artificiale. Anche quando lo trovano, condividere o utilizzare i set di dati può essere complicato a causa di rischi per la privacy e problemi di compatibilità. Questa sezione delinea la chiave sfida i dati sintetici può risolvere.

I rischi per la privacy ostacolano l’utilizzo e la condivisione dei dati

Le normative sulla sicurezza e sulla privacy dei dati, come GDPR e HIPAA, introducono ostacoli burocratici alla condivisione e all’utilizzo dei dati. In settori come quello sanitario, anche la condivisione delle PII tra i dipartimenti della stessa organizzazione può richiedere molto tempo a causa dei controlli di governance. La condivisione dei dati con entità esterne è ancora più impegnativa e comporta maggiori rischi per la sicurezza.

Una ricerca dal Intuizioni aziendali di fortuna identifica i crescenti rischi per la privacy come catalizzatore principale per l’adozione di pratiche di dati sintetici. Più dati archivi, più rischi di compromettere la privacy. Secondo il costo della sicurezza IBM 2023 di un rapporto sulla violazione dei dati, il costo medio della violazione dei dati negli Stati Uniti è stato di 9.48 milioni di dollari. A livello mondiale, il costo medio è stato di 4.45 milioni di dollari; le aziende con meno di 500 dipendenti perdono 3.31 milioni di dollari per ogni violazione. E questo non tiene conto del danno alla reputazione.

Difficoltà nel reperire dati di alta qualità

Un sondaggio 2022 su 500 professionisti dei dati ha rivelato che il 77% di ingegneri, analisti e data scientist ha dovuto affrontare problemi di qualità dei dati. Secondo il rapporto, la qualità dei dati ostacola la performance finanziaria e la produttività di un'azienda e rende difficilmente raggiungibile il raggiungimento di una visione olistica dei suoi servizi.

Le aziende potrebbero non disporre di dati sufficienti provenienti da dati demografici specifici per addestrare adeguatamente i propri modelli di machine learning (ML). Inoltre, i set di dati spesso contengono incoerenze, imprecisioni e valori mancanti. Se alleni le tue piattaforme AI con modelli di apprendimento automatico basandosi su dati di bassa qualità privi di diversità demografica, farà previsioni imprecise e distorte. Allo stesso modo, come la generazione di dati anonimizzati, gli algoritmi non raffinati possono produrre set di dati artificiali inaffidabili che influenzano il risultato dell’analisi dei dati.

L’upsampling con dati sintetici può migliorare la qualità dei dati risolvendo gli squilibri nei set di dati. Ciò garantisce che le classi sottorappresentate ricevano una rappresentanza più proporzionale e riduce i pregiudizi. Un set di dati più robusto e rappresentativo produce risultati di analisi e addestramento del modello migliori.

Incompatibilità del set di dati

I set di dati provenienti da origini diverse o all’interno di database multitabella possono introdurre incompatibilità, creando complessità nell’elaborazione e nell’analisi dei dati e ostacolando l’innovazione.

Ad esempio, l’aggregazione dei dati nel settore sanitario coinvolge cartelle cliniche elettroniche (EHR), dispositivi indossabili, software proprietario e strumenti di terze parti. Ciascuna fonte può utilizzare formati di dati e sistemi informativi distinti, portando a disparità nei formati, nelle strutture o nelle unità dei dati durante l'integrazione. L'uso di dati sintetici può affrontare questa sfida, garantendo la compatibilità e consentendo di farlo generare dati nel formato desiderato.

L'anonimizzazione è insufficiente

Le tecniche di anonimizzazione non sono sufficienti per superare i rischi per la privacy o i problemi di qualità dei dati. Inoltre, mascherare o rimuovere identificatori può eliminare i dettagli necessari per un'analisi approfondita in set di dati di grandi dimensioni.

Inoltre, i dati anonimizzati possono essere reidentificati e ricondotti a individui. Gli autori malintenzionati possono utilizzare analisi avanzate per scoprire modelli basati sul tempo che compromettono l'anonimato di dati apparentemente non identificati. A tale riguardo, i dati sintetici sono superiori ai dati anonimizzati.

a differenza di anonimizzazione, dati sintetici non modifica i set di dati esistenti ma genera nuovi dati che assomigliano alle caratteristiche e alla struttura del dati grezzi, preservandone l'utilità. È un set di dati completamente nuovo che non contiene informazioni di identificazione personale.

Ma la questione è più sfumata di così. Ne esistono diversi tipi metodi di generazione di dati sintetici.

Tipi di generazione di dati sintetici

Creazione di dati sintetici i processi variano in base alla tipologia di dati richiesti. I tipi di dati sintetici includono dati completamente generati dall'intelligenza artificiale, basati su regole e simulati, ciascuno dei quali soddisfa un'esigenza diversa.

Dati sintetici completamente generati dall'intelligenza artificiale

Questo tipo di dati sintetici è costruito da zero utilizzando algoritmi ML. IL modello di machine learning treni in funzione dati reali per conoscere la struttura, i modelli e le relazioni dei dati. L'intelligenza artificiale generativa utilizza quindi questa conoscenza per generare nuovi dati che somigliano molto alle proprietà statistiche dell'originale (di nuovo, rendendoli non identificabili).

Questo tipo di dati completamente sintetici è utile per l'addestramento del modello AI ed è sufficientemente buono da poter essere utilizzato come se si trattasse di dati reali. È particolarmente vantaggioso quando non puoi condividere i tuoi set di dati a causa di accordi contrattuali sulla privacy. Tuttavia, per generare dati sintetici, è necessaria una quantità significativa di dati originali come punto di partenza modello di machine learning formazione.

Dati simulati sintetici

La sezione dati sintetici il tipo si riferisce a dati creati artificialmente che imitano la struttura e il formato dei dati reali ma non riflettono necessariamente le informazioni reali. Aiuta gli sviluppatori a garantire che le loro applicazioni possano gestire vari input e scenari senza utilizzare file originali, privati ​​o dati sensibili e, soprattutto, senza fare affidamento sui dati del mondo reale. Questa pratica è essenziale per testare la funzionalità e perfezionare le applicazioni software in modo controllato e sicuro.

Quando usarlo: per sostituire gli identificatori diretti (PII) o quando al momento ti mancano dati e preferisci non investire tempo ed energie nella definizione delle regole. Gli sviluppatori utilizzano comunemente dati fittizi per valutare la funzionalità e l'aspetto delle applicazioni durante le prime fasi di sviluppo, consentendo loro di identificare potenziali problemi o difetti di progettazione. 

Anche se i dati simulati non hanno l'autenticità delle informazioni del mondo reale, rimangono uno strumento prezioso per garantire il corretto funzionamento e la rappresentazione visiva dei sistemi prima dell'effettiva integrazione dei dati. 

Nota: i dati sintetici simulati vengono spesso definiti "dati falsi,' anche se non consigliamo di utilizzare questi termini in modo intercambiabile poiché potrebbero differire nelle connotazioni. 

Dati simulati sintetici

Dati sintetici basati su regole

Dati sintetici basati su regole è uno strumento utile per generare set di dati personalizzati basati su regole, vincoli e logica predefiniti. Questo metodo offre flessibilità consentendo agli utenti di configurare l'output dei dati in base alle specifiche esigenze aziendali, regolando parametri quali valori minimo, massimo e medio. A differenza dei dati completamente generati dall’intelligenza artificiale, che mancano di personalizzazione, i dati sintetici basati su regole offrono una soluzione su misura per soddisfare requisiti operativi distinti. Questo processo di generazione dei dati sintetici si rivela particolarmente utile nei test, nello sviluppo e nell'analisi, dove la generazione di dati precisa e controllata è essenziale.

Ciascun metodo di generazione di dati sintetici ha applicazioni diverse. La piattaforma di Syntho si distingue creando gemelli di dati sintetici con uno sforzo minimo o nullo da parte tua. Ottieni una precisione statistica, dati sintetici di alta qualità per le tue esigenze, senza costi di conformità.

Dati sintetici tabulari

Il termine dati sintetici tabellari si riferisce creazione di dati artificiali sottoinsiemi che imitano la struttura e le proprietà statistiche del mondo reale dati tabulari, come i dati archiviati in tabelle o fogli di calcolo. Questo dati sintetici è creato usando algoritmi di generazione di dati sintetici e tecniche progettate per replicare le caratteristiche del dati di origine garantendo al contempo che la riservatezza o dati sensibili non viene divulgato.

Tecniche per generare di tabella dati sintetici tipicamente implicano modelli statistici, modelli di apprendimento automaticoo modelli generativi come reti generative avversarie (GAN) e autoencoder variazionali (VAE). Questi strumenti di generazione di dati sintetici analizzare i modelli, le distribuzioni e le correlazioni presenti nel set di dati reale e poi generarne di nuovi punti dati che assomigliano molto ai dati reali ma non contengono alcuna informazione reale.

Tipico tabulare casi d'uso di dati sintetici includono la gestione delle preoccupazioni relative alla privacy, l’aumento della disponibilità dei dati e la facilitazione della ricerca e dell’innovazione nelle applicazioni basate sui dati. Tuttavia, è essenziale garantire che il dati sintetici cattura accuratamente i modelli e le distribuzioni sottostanti dei dati originali da mantenere utilità dei dati e validità per i compiti a valle.

grafico di dati sintetici basato su regole

Applicazioni di dati sintetici più popolari

I dati generati artificialmente aprono possibilità di innovazione per l’assistenza sanitaria, la vendita al dettaglio, la produzione, la finanza e altri settori. Il primario casi d'uso includere il sovracampionamento dei dati, l'analisi, i test e la condivisione.

Upsampling per migliorare i set di dati

Upsampling significa generare set di dati più grandi da quelli più piccoli per il ridimensionamento e la diversificazione. Questo metodo viene applicato quando i dati reali sono scarsi, sbilanciati o incompleti.

Consideriamo alcuni esempi. Per gli istituti finanziari, gli sviluppatori possono migliorare l'accuratezza dei modelli di rilevamento delle frodi sovracampionando osservazioni rare e modelli di attività nel file dati finanziari. Allo stesso modo, un’agenzia di marketing potrebbe eseguire l’upsampling per aumentare i dati relativi ai gruppi sottorappresentati, migliorando l’accuratezza della segmentazione.

Analisi avanzate con dati generati dall'intelligenza artificiale

Le aziende possono sfruttare i dati sintetici di alta qualità generati dall’intelligenza artificiale per la modellazione dei dati, l’analisi aziendale e la ricerca clinica. Sintetizzare i dati si rivela una valida alternativa quando l’acquisizione di set di dati reali è troppo costosa o richiede molto tempo.

Dati sintetici consente ai ricercatori di condurre analisi approfondite senza compromettere la riservatezza del paziente. Data scientist e i ricercatori hanno accesso ai dati dei pazienti, alle informazioni sulle condizioni cliniche e ai dettagli del trattamento, ottenendo approfondimenti che richiederebbero molto più tempo con dati reali. Inoltre, i produttori possono condividere liberamente i dati con i fornitori, incorporando GPS manipolati e dati di posizione per creare algoritmi per testare le prestazioni o migliorare la manutenzione predittiva.

Però, i valutazione dei dati sintetici è critico. L'output del Syntho Engine è convalidato da un team interno di garanzia della qualità e esperti esterni del SAS Institute. In uno studio sulla modellazione predittiva, ne abbiamo addestrati quattro modelli di apprendimento automatico su dati reali, anonimizzati e sintetici. I risultati hanno mostrato che i modelli addestrati sui nostri set di dati sintetici avevano lo stesso livello di accuratezza di quelli addestrati su set di dati reali, mentre i dati anonimizzati riducevano l'utilità dei modelli.

Condivisione dei dati esterni ed interni

I dati sintetici semplificano la condivisione dei dati all’interno e tra le organizzazioni. Puoi utilizzare dati sintetici a scambiare informazioni senza rischiare violazioni della privacy o non conformità normativa. I vantaggi dei dati sintetici includono risultati di ricerca più rapidi e una collaborazione più efficace.

Le aziende di vendita al dettaglio possono condividere informazioni con fornitori o distributori utilizzando dati sintetici che riflettono il comportamento dei clienti, i livelli di inventario o altri parametri chiave. Tuttavia, per garantire il massimo livello di privacy dei dati, i dati sensibili dei clienti e i segreti aziendali vengono mantenuti riservati.

Syntho ha vinto il Global SAS Hackathon 2023 per la nostra capacità di generare e condividere adati sintetici accurati in modo efficace e senza rischi. Abbiamo sintetizzato i dati dei pazienti per più ospedali con diverse popolazioni di pazienti per dimostrare l'efficacia dei modelli predittivi. L’utilizzo dei set di dati sintetici combinati si è dimostrato altrettanto accurato quanto l’utilizzo dei dati reali.

Dati di test sintetici

I dati di test sintetici sono dati generati artificialmente progettati per simulare test dei dati ambienti per lo sviluppo del software. Oltre a ridurre i rischi per la privacy, i dati di test sintetici consentono agli sviluppatori di valutare rigorosamente le prestazioni, la sicurezza e la funzionalità delle applicazioni in una gamma di scenari potenziali senza influire sul sistema reale.

La nostra collaborazione con una delle più grandi banche olandesi vetrine vantaggi dei dati sintetici per il test del software. Testare la generazione dei dati con Syntho Engine ha prodotto set di dati di tipo produttivo che hanno aiutato la banca ad accelerare lo sviluppo del software e il rilevamento dei bug, portando a rilasci di software più rapidi e sicuri.

Tecniche per generare di tabella dati sintetici tipicamente implicano modelli statistici, modelli di apprendimento automaticoo modelli generativi come reti generative avversarie (GAN) e autoencoder variazionali (VAE). Questi strumenti di generazione di dati sintetici analizzare i modelli, le distribuzioni e le correlazioni presenti nel set di dati reale e poi generarne di nuovi punti dati che assomigliano molto ai dati reali ma non contengono alcuna informazione reale.

Tipico tabulare casi d'uso di dati sintetici includono la gestione delle preoccupazioni relative alla privacy, l’aumento della disponibilità dei dati e la facilitazione della ricerca e dell’innovazione nelle applicazioni basate sui dati. Tuttavia, è essenziale garantire che il dati sintetici cattura accuratamente i modelli e le distribuzioni sottostanti dei dati originali da mantenere utilità dei dati e validità per i compiti a valle.

La piattaforma di generazione di dati sintetici di Syntho

Syntho fornisce una piattaforma intelligente per la generazione di dati sintetici, consentendo alle organizzazioni di trasformare in modo intelligente i dati in un vantaggio competitivo. Fornendo tutti i metodi di generazione di dati sintetici in un'unica piattaforma, Syntho offre una soluzione completa per le organizzazioni che mirano a utilizzare dati che coprono:

Le nostre piattaforme si integrano in qualsiasi ambiente cloud o on-premise. Inoltre, ci occupiamo della pianificazione e dell'implementazione. Il nostro team formerà i tuoi dipendenti all'utilizzo Motore di sintesi in modo efficace e forniremo supporto continuo post-distribuzione.

Puoi leggere di più sulle capacità di Syntho dati sintetici piattaforma di generazione nel Sezione Soluzioni del nostro sito web.

Cosa c'è nel futuro per i dati sintetici?

Generazione di dati sintetici con intelligenza artificiale generativa aiuta a creare e condividere elevati volumi di dati importanti, aggirando i problemi di compatibilità dei formati, i vincoli normativi e il rischio di violazione dei dati.

A differenza dell'anonimizzazione, generazione di dati sintetici consente di preservare le relazioni strutturali nei dati. Ciò rende i dati sintetici adatti per analisi avanzate, ricerca e sviluppo, diversificazione e test.

L’uso di set di dati sintetici non potrà che espandersi nei vari settori. Le aziende sono pronte a farlo creare dati sintetici, estendendo il suo campo di applicazione a immagini complesse, contenuti audio e video. Le aziende amplieranno l'uso di modelli di apprendimento automatico a simulazioni più avanzate e applicazioni.

Vuoi saperne di più applicazioni pratiche di dati sintetici? Sentiti libero di programma una demo su nella nostra pagina internet.

Informazioni su Syntho

Sinto fornisce una smart generazione di dati sintetici piattaforma, sfruttando più moduli di dati sintetici e metodi di generazione, consentendo alle organizzazioni di trasformare in modo intelligente i dati in un vantaggio competitivo. I nostri dati sintetici generati dall'intelligenza artificiale imitano i modelli statistici dei dati originali, garantendo accuratezza, privacy e velocità, come valutato da esperti esterni come SAS. Con funzionalità di deidentificazione intelligente e mappatura coerente, le informazioni sensibili sono protette preservando l'integrità referenziale. La nostra piattaforma consente la creazione, la gestione e il controllo dei dati di test per ambienti non di produzione, utilizzando metodi basati su regole metodi di generazione di dati sintetici per scenari mirati. Inoltre, gli utenti possono generare dati sintetici a livello di codice e ottenere dati di test realistici per sviluppare facilmente scenari di test e sviluppo completi.

Circa l'autore

Foto del volto del CEO e co-fondatore di Syntho, Wim Kees Jannsen

Wim Kees Janssen

CEO e fondatore

Syntho, l’espansione che sta sconvolgendo il settore dei dati con dati sintetici generati dall’intelligenza artificiale. Wim Kees ha dimostrato con Syntho di poter sbloccare dati sensibili alla privacy per renderli disponibili in modo più intelligente e veloce in modo che le organizzazioni possano realizzare innovazione basata sui dati. Di conseguenza, Wim Kees e Syntho hanno vinto il prestigioso Philips Innovation Award, hanno vinto l'hackathon globale SAS nel settore sanitario e delle scienze della vita e sono stati selezionati come leader dello scale-up di intelligenza artificiale generativa da NVIDIA.

Pubblicato il
19 Febbraio 2024