FAQ

Domande frequenti sui dati sintetici

Comprensibile! Fortunatamente, abbiamo le risposte e siamo qui per aiutarti. Controlla le nostre domande frequenti.

Si prega di aprire una domanda qui sotto e fare clic sui collegamenti per trovare ulteriori informazioni. Hai una domanda più complicata che non è indicata qui? Chiedi direttamente ai nostri esperti!

Le domande più frequenti

I dati sintetici si riferiscono a dati generati artificialmente anziché raccolti da fonti del mondo reale. In generale, mentre i dati originali vengono raccolti in tutte le tue interazioni con le persone (clienti, pazienti, ecc.) e tramite tutti i tuoi processi interni, i dati sintetici vengono generati da un algoritmo informatico.

I dati sintetici possono anche essere utilizzati per testare e valutare i modelli in un ambiente controllato o per proteggere le informazioni riservate generando dati simili ai dati del mondo reale ma che non contengono alcuna informazione riservata. I dati sintetici vengono spesso utilizzati come alternativa ai dati sensibili alla privacy e potrebbero essere utilizzati come dati di test, per l'analisi o per addestrare l'apprendimento automatico.

Per saperne di più

Garantire che i dati sintetici mantengano la stessa qualità dei dati dei dati originali può essere difficile e spesso dipende dal caso d'uso specifico e dai metodi utilizzati per generare i dati sintetici. Alcuni metodi per la generazione di dati sintetici, come i modelli generativi, possono produrre dati molto simili ai dati originali. Domanda chiave: come dimostrarlo?

Esistono alcuni modi per garantire la qualità dei dati sintetici:

  • Metriche sulla qualità dei dati tramite il nostro rapporto sulla qualità dei dati: un modo per garantire che i dati sintetici mantengano la stessa qualità dei dati dei dati originali consiste nell'utilizzare metriche di qualità dei dati per confrontare i dati sintetici con i dati originali. Queste metriche possono essere utilizzate per misurare cose come la somiglianza, l'accuratezza e la completezza dei dati. Il software Syntho includeva un rapporto sulla qualità dei dati con varie metriche sulla qualità dei dati.
  • Valutazione esterna: poiché la qualità dei dati sintetici rispetto ai dati originali è fondamentale, abbiamo recentemente effettuato una valutazione con gli esperti di dati di SAS (leader di mercato nell'analisi) per dimostrare la qualità dei dati sintetici di Syntho rispetto ai dati reali. Edwin van Unen, esperto di analisi di SAS, ha valutato i set di dati sintetici generati da Syntho tramite varie valutazioni di analisi (AI) e ha condiviso i risultati. Guarda un breve riassunto di quel video qui.
  • Test e valutazione da soli: i dati sintetici possono essere testati e valutati confrontandoli con dati del mondo reale o utilizzandoli per addestrare modelli di apprendimento automatico e confrontarne le prestazioni con modelli addestrati su dati del mondo reale. Perché non testare tu stesso la qualità dei dati sintetici? Chiedi ai nostri esperti le possibilità di questo qui

È importante notare che i dati sintetici non possono mai garantire di essere simili al 100% ai dati originali, ma possono essere abbastanza vicini da essere utili per un caso d'uso specifico. Questo caso d'uso specifico può anche essere l'analisi avanzata o l'addestramento di modelli di machine learning.

La classica "anonimizzazione" non è sempre la soluzione migliore, perché:

  1. Rischio per la privacy – lo avrai sempre
    un rischio per la privacy. Applicando quelli
    tecniche di anonimizzazione classiche
    rende solo più difficile, ma non
    impossibile identificare le persone.
  2. Distruzione dei dati – più tu
    anonimizza, meglio proteggi
    la tua privacy, ma più tu
    distruggere i tuoi dati. Questo non è cosa
    vuoi per l'analisi, perché
    dati distrutti si tradurrà in cattivo
    intuizioni.
  3. Richiede tempo – è una soluzione
    ci vuole molto tempo, perché
    quelle tecniche funzionano in modo diverso
    per set di dati e per tipo di dati.

I dati sintetici mirano a risolvere tutte queste carenze. La differenza è così evidente che abbiamo realizzato un video al riguardo. Guardalo qui.

Domande frequenti

Dati sintetici

In genere, la maggior parte dei nostri clienti utilizza dati sintetici per:

  • Test e sviluppo del software
  • Dati sintetici per analisi, sviluppo di modelli e analisi avanzate (AI e ML)
  • Demo del prodotto

Leggi di più ed esplora i casi d'uso.

Un gemello di dati sintetici è una replica generata da un algoritmo di un set di dati e/o database del mondo reale. Con un Synthetic Data Twin, Syntho mira a imitare un set di dati o un database originale il più vicino possibile ai dati originali per creare una rappresentazione realistica dell'originale. Con un gemello di dati sintetici, miriamo a una qualità superiore dei dati sintetici rispetto ai dati originali. Lo facciamo con il nostro software di dati sintetici che utilizza modelli di intelligenza artificiale all'avanguardia. Quei modelli di intelligenza artificiale generano punti dati completamente nuovi e li modellano in modo tale da preservare le caratteristiche, le relazioni e i modelli statistici dei dati originali a tal punto che è possibile utilizzarli come se fossero dati originali.

Questo può essere utilizzato per una varietà di scopi, come testare e addestrare modelli di apprendimento automatico, simulare scenari per la ricerca e lo sviluppo e creare ambienti virtuali per la formazione e l'istruzione. I gemelli di dati sintetici possono essere utilizzati per creare dati realistici e rappresentativi che possono essere utilizzati al posto dei dati del mondo reale quando non sono disponibili o quando l'utilizzo dei dati del mondo reale sarebbe poco pratico o non etico a causa delle rigide normative sulla privacy dei dati.

Leggi di più.

Sì, lo facciamo. Offriamo varie funzionalità di ottimizzazione e potenziamento dei dati sintetici a valore aggiunto, inclusi i mocker, per portare i tuoi dati al livello successivo.

Leggi di più.

I dati fittizi e i dati sintetici generati dall'intelligenza artificiale sono entrambi tipi di dati sintetici, ma sono generati in modi diversi e hanno scopi diversi.

I dati fittizi sono un tipo di dati sintetici creati manualmente e spesso utilizzati a scopo di test e sviluppo. Viene in genere utilizzato per simulare il comportamento dei dati del mondo reale in un ambiente controllato e viene spesso utilizzato per testare la funzionalità di un sistema o di un'applicazione. Spesso è semplice, facile da generare e non richiede modelli o algoritmi complessi. Spesso, si fa riferimento anche a falsificare i dati come "dati fittizi" o "dati falsi".

I dati sintetici generati dall'intelligenza artificiale, invece, vengono generati utilizzando tecniche di intelligenza artificiale, come l'apprendimento automatico o modelli generativi. Viene utilizzato per creare dati realistici e rappresentativi che possono essere utilizzati al posto dei dati del mondo reale quando l'utilizzo dei dati del mondo reale sarebbe poco pratico o non etico a causa delle rigide normative sulla privacy. Spesso è più complesso e richiede più risorse computazionali rispetto ai dati fittizi manuali. Di conseguenza, è molto più realistico e imita i dati originali il più fedelmente possibile.

In sintesi, i dati fittizi vengono creati manualmente e vengono generalmente utilizzati per test e sviluppo, mentre i dati sintetici generati dall'intelligenza artificiale vengono creati utilizzando tecniche di intelligenza artificiale e vengono utilizzati per creare dati rappresentativi e realistici.

Più domande? Chiedi ai nostri esperti

Qualità dei dati

Garantire che i dati sintetici mantengano la stessa qualità dei dati dei dati originali può essere difficile e spesso dipende dal caso d'uso specifico e dai metodi utilizzati per generare i dati sintetici. Alcuni metodi per la generazione di dati sintetici, come i modelli generativi, possono produrre dati molto simili ai dati originali. Domanda chiave: come dimostrarlo?

Esistono alcuni modi per garantire la qualità dei dati sintetici:

  • Metriche sulla qualità dei dati tramite il nostro rapporto sulla qualità dei dati: un modo per garantire che i dati sintetici mantengano la stessa qualità dei dati dei dati originali consiste nell'utilizzare metriche di qualità dei dati per confrontare i dati sintetici con i dati originali. Queste metriche possono essere utilizzate per misurare cose come la somiglianza, l'accuratezza e la completezza dei dati. Il software Syntho includeva un rapporto sulla qualità dei dati con varie metriche sulla qualità dei dati.
  • Valutazione esterna: poiché la qualità dei dati sintetici rispetto ai dati originali è fondamentale, abbiamo recentemente effettuato una valutazione con gli esperti di dati di SAS (leader di mercato nell'analisi) per dimostrare la qualità dei dati sintetici di Syntho rispetto ai dati reali. Edwin van Unen, esperto di analisi di SAS, ha valutato i set di dati sintetici generati da Syntho tramite varie valutazioni di analisi (AI) e ha condiviso i risultati. Guarda un breve riassunto di quel video qui.
  • Test e valutazione da soli: i dati sintetici possono essere testati e valutati confrontandoli con dati del mondo reale o utilizzandoli per addestrare modelli di apprendimento automatico e confrontarne le prestazioni con modelli addestrati su dati del mondo reale. Perché non testare tu stesso la qualità dei dati sintetici? Chiedi ai nostri esperti le possibilità di questo qui

È importante notare che i dati sintetici non possono mai garantire di essere simili al 100% ai dati originali, ma possono essere abbastanza vicini da essere utili per un caso d'uso specifico. Questo caso d'uso specifico può anche essere l'analisi avanzata o l'addestramento di modelli di machine learning.

Sì. I dati sintetici contengono anche modelli di cui non sapevi che erano presenti nei dati originali.

Ma non limitarti a crederci sulla parola. Gli esperti di analisi di SAS (leader di mercato globale nell'analisi) hanno effettuato una valutazione (AI) dei nostri dati sintetici e li hanno confrontati con i dati originali. Curioso? Guarda il tutto l'evento qui o guarda la versione breve su qualità dei dati qui.

Sì, lo facciamo. La nostra piattaforma è ottimizzata per i database e, di conseguenza, la conservazione dell'integrità referenziale tra i set di dati nel database.

Curiosi di saperne di più su questo?

Chiedi direttamente ai nostri esperti.

Privacy

No, non lo sappiamo. Possiamo facilmente implementare Syntho Engine on-premise o nel tuo cloud privato tramite docker.

No. Abbiamo ottimizzato la nostra piattaforma in modo tale che possa essere facilmente implementata nell'ambiente affidabile del cliente. Ciò garantisce che i dati non lasceranno mai l'ambiente affidabile del cliente. Le opzioni di implementazione per l'ambiente affidabile del cliente sono "on-premise" e "nell'ambiente cloud del cliente (nuvola privata)".

Opzionale: Syntho supporta una versione ospitata nel "Syntho cloud".

No. Syntho Engine è una piattaforma self-service. Di conseguenza, la generazione di dati sintetici con Syntho Engine è possibile in un modo che in end-to-end processo, Syntho non è mai in grado di vedere e non ha mai bisogno di elaborare i dati.

Sì, lo facciamo tramite il nostro rapporto QA.

 

Quando si sintetizza un set di dati, è essenziale dimostrare che non si è in grado di identificare nuovamente gli individui. Nel questo video, Marijn introduce misure sulla privacy che sono nel nostro rapporto sulla qualità per dimostrarlo.

Il rapporto QA di Syntho ne contiene tre standard industriale metriche per la valutazione della riservatezza dei dati. L'idea alla base di ciascuna di queste metriche è la seguente:

  • Dati sintetici (S) deve essere "il più vicino possibile", ma "non troppo vicino" ai dati target (T).
  • Dati di controllo selezionati casualmente (H) determina il parametro di riferimento per "troppo vicino".
  • A soluzione perfetta genera nuovi dati sintetici che si comportano esattamente come i dati originali, ma non sono stati visti prima (= H).

Uno dei casi d'uso specificamente evidenziato dall'autorità olandese per la protezione dei dati è l'utilizzo di dati sintetici come dati di test.

Altro può essere trovato in questo articolo.

Motore di sintesi

Il motore Syntho viene spedito in un container Docker e può essere facilmente implementato e collegato all'ambiente che preferisci.

Le possibili opzioni di distribuzione includono:

  • On-premise
  • Qualsiasi cloud (privato)
  • Qualsiasi altro ambiente

Per saperne di più.

Syntho ti consente di connetterti facilmente con i tuoi database, applicazioni, pipeline di dati o file system. 

Supportiamo vari connettori integrati in modo che tu possa connetterti con l'ambiente di origine (dove sono archiviati i dati originali) e l'ambiente di destinazione (dove vuoi scrivere i tuoi dati sintetici) per un end-to-end approccio integrato.

Funzionalità di connessione che supportiamo:

  • Plug-and-play con Docker
  • 20+ connettori di database
  • 20+ connettori di file system

Per saperne di più.

Naturalmente, il tempo di generazione dipende dalla dimensione del database. In media, una tabella con meno di 1 milione di record viene sintetizzata in meno di 5 minuti.

Gli algoritmi di apprendimento automatico di Syntho possono generalizzare meglio le funzionalità con più record di entità disponibili, il che riduce il rischio per la privacy. Si consiglia un rapporto colonna-riga minimo di 1:500. Ad esempio, se la tua tabella di origine ha 6 colonne, dovrebbe contenere un minimo di 3000 righe.

Affatto. Sebbene possa essere necessario uno sforzo per comprendere appieno i vantaggi, il funzionamento e i casi d'uso dei dati sintetici, il processo di sintesi è molto semplice e chiunque abbia conoscenze informatiche di base può farlo. Per ulteriori informazioni sul processo di sintesi, dai un'occhiata questa pagina or Richiedi una demo.

Il motore Syntho funziona al meglio su dati strutturati e tabulari (qualunque cosa contenga righe e colonne). All'interno di queste strutture, supportiamo i seguenti tipi di dati:

  • Strutture dati formattati in tabelle (categoriali, numeriche, ecc.)
  • Identificatori diretti e PII
  • Grandi set di dati e database
  • Dati sulla posizione geografica (come il GPS)
  • Dati di serie temporali
  • Database multitabella (con integrità referenziale)
  • Apri dati di testo

 

Supporto dati complessi
Accanto a tutti i normali tipi di dati tabulari, Syntho Engine supporta tipi di dati complessi e strutture di dati complesse.

  • Serie storiche
  • Database multi-tabella
  • Testo aperto

Per saperne di più.

No, abbiamo ottimizzato la nostra piattaforma per ridurre al minimo i requisiti computazionali (ad es. nessuna GPU richiesta), senza compromettere l'accuratezza dei dati. Inoltre, supportiamo il ridimensionamento automatico, in modo da poter sintetizzare enormi database.

Sì. Il software Syntho è ottimizzato per database contenenti più tabelle.

Per quanto riguarda questo, Syntho rileva automaticamente i tipi di dati, gli schemi e i formati per massimizzare la precisione dei dati. Per i database multi-tabella, supportiamo l'inferenza e la sintesi automatiche delle relazioni tra tabelle per preservare l'integrità referenziale.

gruppo di persone che sorridono

I dati sono sintetici, ma il nostro team è reale!

Contatta Syntho e un nostro esperto si metterà in contatto con te alla velocità della luce per esplorare il valore dei dati sintetici!