FAQ
Domande frequenti nantu à i dati sintetici
Capiscibile ! Per furtuna, avemu e risposte è simu quì per aiutà. Verificate e nostre dumande frequenti.
Per piacè apre una quistione sottu è cliccate nantu à i ligami per truvà più infurmazione. Avete una quistione più cumplicata chì ùn hè micca dichjaratu quì? Dumandate direttamente à i nostri esperti!
E dumande più fatte
I dati sintetici si riferiscenu à e dati chì sò generati artificialmente invece di raccolti da fonti di u mondu reale. In generale, mentre chì i dati originali sò cullati in tutte e vostre interazzione cù e persone (clienti, pazienti, etc.) è via tutti i vostri prucessi internu, i dati sintetici sò generati da un algoritmu di computer.
I dati sintetici ponu ancu esse aduprati per pruvà è valutà mudelli in un ambiente cuntrullatu, o per prutege l'infurmazioni sensibili generendu dati chì sò simili à e dati di u mondu reale, ma ùn cuntene micca infurmazione sensitiva. I dati sintetici sò spessu usati com'è alternativa per i dati sensibili à a privacy è ponu esse aduprati cum'è dati di prova, per analitiche o per furmà l'apprendimentu di machine.
A guaranzia chì i dati sintetici cuntenenu a stessa qualità di dati cum'è i dati originali pò esse sfida, è spessu dipende da u casu d'usu specificu è i metudi utilizati per generà e dati sintetici. Certi metudi per generà dati sintetici, cum'è mudelli generativi, ponu pruduce dati chì sò assai simili à i dati originali. Quistione chjave: cumu dimustrà questu?
Ci hè parechje manere di assicurà a qualità di dati sintetici:
- Metri di qualità di dati via u nostru rapportu di qualità di dati: Una manera di assicurà chì i dati sintetici cuntenenu a listessa qualità di dati cum'è i dati originali hè di utilizà metriche di qualità di dati per paragunà i dati sintetici à i dati originali. Queste metriche ponu esse aduprate per misurà e cose cum'è similitudine, precisione è completezza di e dati. U software Syntho include un rapportu di qualità di dati cù diverse metriche di qualità di dati.
- Valutazione esterna: postu chì a qualità di dati di dati sintetici in paragunà à i dati originali hè chjave, avemu fattu pocu fà una valutazione cù l'esperti di dati di SAS (leader di u mercatu in analitiche) per dimustrà a qualità di dati di dati sintetici da Syntho in paragone à i dati reali. Edwin van Unen, espertu di analisi di SAS, hà valutatu i datasets sintetici generati da Syntho attraversu diverse valutazioni analitiche (AI) è hà spartutu i risultati. Fighjate un brevi riassuntu di quellu video quì.
- Teste è valutazione da sè stessu: i dati sintetici ponu esse pruvati è valutati paragunendu à i dati di u mondu reale o aduprendu per furmà mudelli di apprendimentu automaticu è paragunendu a so prestazione cù mudelli furmatu nantu à dati di u mondu reale. Perchè ùn pruvà a qualità di dati di dati sintetici da sè stessu? Dumandate à i nostri esperti per e pussibilità di questu quì.
Hè impurtante di nutà chì i dati sintetici ùn ponu mai guarantisci di esse 100% simili à i dati originali, ma pò esse abbastanza vicinu per esse utile per un casu d'usu specificu. Stu casu d'usu specificu pò ancu esse analitiche avanzate o mudelli di furmazione di machine learning.
"Anonimizazione" classica ùn hè micca sempre a megliu suluzione, perchè:
- Risicu di privacy - avete sempre
un risicu per a privacy. Applicà quelli
tecniche classiche di anonimizazione
rende solu più difficiule, ma micca
impussibile à identificà individui. - Distrughjendu dati - più tù
anonimà, u megliu prutegge
a vostra privacy, ma più voi
distrugge i vostri dati. Questu ùn hè micca ciò chì
vulete per analitiche, perchè
dati distruttu vi risultatu in male
insights. - Cunsumante di tempu - hè una suluzione
chì piglia assai tempu, perchè
sti tecnichi travaglia differente
per dataset è per datatype.
I dati sintetici anu u scopu di risolve tutte queste carenze. A diffarenza hè cusì sorprendente chì avemu fattu un video nantu à questu. Watch it here.
Dumande dumandatu Spissu
Dati sintetici
In generale, a maiò parte di i nostri clienti utilizanu dati sintetici per:
- Test è sviluppu di software
- Dati sintetici per analitiche, sviluppu di mudelli è analitiche avanzate (AI & ML)
- Demo di prodotto
Un gemellu di dati sintetici hè una replica generata da un algoritmu di un set di dati è / o basa di dati di u mondu reale. Cù un Twin di Dati Sintetici, Syntho hà u scopu di imite un dataset originale o una basa di dati u più vicinu pussibule à i dati originali per creà una rapprisintazioni realistica di l'uriginale. Cù un gemellu di dati sintetici, avemu u scopu di una qualità di dati sintetica superiore in paragunà à i dati originali. Facemu questu cù u nostru software di dati sintetici chì usa mudelli AI di punta. Quelli mudelli AI generanu punti di dati completamente novi è i mudeli in tale manera chì priservemu e caratteristiche, relazioni è mudelli statistici di e dati originali à tale puntu chì pudete aduprà cum'è s'ellu hè dati uriginale.
Questu pò esse usatu per una varietà di scopi, cum'è teste è furmazione di mudelli di apprendimentu di macchine, simulazione di scenarii per a ricerca è u sviluppu, è a creazione di ambienti virtuali per a furmazione è l'educazione. I gemelli di dati sintetici ponu esse aduprati per creà dati realistichi è rapprisentanti chì ponu esse utilizati in u locu di e dati di u mondu reale quandu ùn sò micca dispunibili o quandu si usanu e dati di u mondu reale ùn saria micca pratica o immorale per via di rigulamenti stretti di privacy di dati.
Iè facemu. Offriamu diverse funzioni di ottimisazione di dati sintetici è di incrementu di valore, cumprese i mockers, per piglià e vostre dati à u prossimu livellu.
Dati simulati è dati sintetici generati da AI sò dui tipi di dati sintetici, ma sò generati in modi diffirenti è servenu scopi diversi.
Mock data hè un tipu di dati sintetici chì sò creati manualmente è sò spessu usati per scopi di teste è di sviluppu. Hè tipicamenti usatu per simule u cumpurtamentu di e dati di u mondu reale in un ambiente cuntrullatu è hè spessu usatu per pruvà a funziunalità di un sistema o applicazione. Hè spessu simplice, faciule di generà, è ùn necessita micca mudelli cumplessi o algoritmi. Spessu, unu referrers ancu à mock data cum'è "dati dummy" o "dati falsi".
I dati sintetici generati da AI, invece, sò generati aduprendu tecniche di intelligenza artificiale, cum'è l'apprendimentu automaticu o mudelli generativi. Hè utilizatu per creà dati realistichi è rapprisentanti chì ponu esse utilizati in u locu di e dati di u mondu reale quandu l'usu di e dati di u mondu reale ùn sia micca praticu o immorale per via di rigulamenti stretti di privacy. Hè spessu più cumplessu è esige più risorse di computazione cà i dati falsi manuali. In u risultatu, hè assai più realisticu è imita i dati originali u più vicinu pussibule.
In riassuntu, i dati simulati sò creati manualmente è sò tipicamente usati per a prova è u sviluppu, mentre chì i dati sintetici generati da AI sò creati cù tecniche di intelligenza artificiale è sò usati per creà dati rapprisentanti è realistichi.
Qualità di Datu
A guaranzia chì i dati sintetici cuntenenu a stessa qualità di dati cum'è i dati originali pò esse sfida, è spessu dipende da u casu d'usu specificu è i metudi utilizati per generà e dati sintetici. Certi metudi per generà dati sintetici, cum'è mudelli generativi, ponu pruduce dati chì sò assai simili à i dati originali. Quistione chjave: cumu dimustrà questu?
Ci hè parechje manere di assicurà a qualità di dati sintetici:
- Metri di qualità di dati via u nostru rapportu di qualità di dati: Una manera di assicurà chì i dati sintetici cuntenenu a listessa qualità di dati cum'è i dati originali hè di utilizà metriche di qualità di dati per paragunà i dati sintetici à i dati originali. Queste metriche ponu esse aduprate per misurà e cose cum'è similitudine, precisione è completezza di e dati. U software Syntho include un rapportu di qualità di dati cù diverse metriche di qualità di dati.
- Valutazione esterna: postu chì a qualità di dati di dati sintetici in paragunà à i dati originali hè chjave, avemu fattu pocu fà una valutazione cù l'esperti di dati di SAS (leader di u mercatu in analitiche) per dimustrà a qualità di dati di dati sintetici da Syntho in paragone à i dati reali. Edwin van Unen, espertu di analisi di SAS, hà valutatu i datasets sintetici generati da Syntho attraversu diverse valutazioni analitiche (AI) è hà spartutu i risultati. Fighjate un brevi riassuntu di quellu video quì.
- Teste è valutazione da sè stessu: i dati sintetici ponu esse pruvati è valutati paragunendu à i dati di u mondu reale o aduprendu per furmà mudelli di apprendimentu automaticu è paragunendu a so prestazione cù mudelli furmatu nantu à dati di u mondu reale. Perchè ùn pruvà a qualità di dati di dati sintetici da sè stessu? Dumandate à i nostri esperti per e pussibilità di questu quì.
Hè impurtante di nutà chì i dati sintetici ùn ponu mai guarantisci di esse 100% simili à i dati originali, ma pò esse abbastanza vicinu per esse utile per un casu d'usu specificu. Stu casu d'usu specificu pò ancu esse analitiche avanzate o mudelli di furmazione di machine learning.
Iè hè. I dati sintetici cuntene ancu mudelli di quale ùn sapete micca chì eranu prisenti in i dati originali.
Ma ùn pigliate micca solu a nostra parolla. L'esperti analitici di SAS (leader di u mercatu globale in analitiche) anu fattu una valutazione (AI) di i nostri dati sintetici è l'hanu paragunatu cù i dati originali. Curioso? Fighjate u tuttu l'avvenimentu quì o fighjate a versione corta circa qualità di dati quì.
Iè facemu. A nostra piattaforma hè ottimizzata per e basa di dati è, in cunseguenza, a preservazione di l'integrità referenziale trà i datasets in a database.
Curioso di sapè più nantu à questu?
Pulitica pè a
Innò ùn avemu micca. Pudemu facilmente implementà u Syntho Engine on-premise o in u vostru nuvulu privatu via docker.
No. Avemu ottimisatu a nostra piattaforma in tale manera chì pò esse facilmente implementata in l'ambiente di fiducia di u cliente. Questu assicura chì i dati ùn lasciaranu mai l'ambiente di fiducia di u cliente. L'opzioni di implementazione per l'ambienti di fiducia di u cliente sò "in premisa" è in "ambienti nuvola di u cliente (nuvola privata)".
Opcional: Syntho supporta una versione chì hè ospitu in u "Syntho cloud".
No. U Syntho Engine hè una piattaforma self-service. In u risultatu, a generazione di dati sintetici cù u Syntho Engine hè pussibule in una manera chì in u end-to-end prucessu, Syntho ùn hè mai capaci di vede è ùn hè mai necessariu di processà dati.
Iè, facemu questu via u nostru rapportu QA.
Quandu si sintetizza un set di dati, hè essenziale per dimustrà chì unu ùn hè micca capaci di re-identificà l'individui. In stu video, Marijn introduce misure di privacy chì sò in u nostru rapportu di qualità per dimustrà questu.
U rapportu di QA di Syntho cuntene trè standard industriale metriche per a valutazione di a privacy di i dati. L'idea daretu à ognuna di queste metriche hè a seguente:
- Dati sintetici (S) deve esse "più vicinu pussibule", ma "micca troppu vicinu" à i dati di destinazione (T).
- Dati di rete selezziunati aleatoriamente (H) determina u benchmark per "troppu vicinu".
- A suluzione perfetta genera novi dati sintetici chì si cumportanu esattamente cum'è i dati originali, ma ùn sò micca vistu prima (= H).
Unu di i casi d'usu chì hè specificamente evidenziatu da l'Autorità di Proteczione di Dati Olandese hè aduprendu dati sintetici cum'è dati di prova.
Syntho Engine
U Syntho Engine hè speditu in un containeru Docker è pò esse facilmente implementatu è inseritu in u vostru ambiente di scelta.
Opzioni di implementazione pussibuli include:
- On-premisa
- Ogni nuvola (privata).
- Ogni altru ambiente
Syntho vi permette di cunnette facilmente cù e vostre basa di dati, applicazioni, pipelines di dati o sistemi di fugliale.
Supportemu diversi connettori integrati in modu chì pudete cunnette cù l'ambiente di fonte (induve i dati originali sò almacenati) è l'ambiente di destinazione (induve vulete scrive i vostri dati sintetici) per un end-to-end approcciu integratu.
Funzioni di cunnessione chì supportemu:
- Plug-and-play cù Docker
- 20+ connettori di basa di dati
- 20+ connettori di filesystem
Naturalmente, u tempu di generazione dipende da a dimensione di a basa di dati. In media, una tavula cù menu di 1 milione di dischi hè sintetizzata in menu di 5 minuti.
L'algoritmi di apprendimentu automaticu di Syntho ponu generalizà megliu e funzioni cù più registri di entità dispunibili, chì diminuite u risicu di privacy. Un rapportu minimu di colonna à fila di 1: 500 hè cunsigliatu. Per esempiu, se a vostra tavola fonte hà 6 colonne, deve cuntene un minimu di 3000 fila.
Manca appena. Ancu s'ellu pò piglià un pocu di sforzu per capiscenu cumplettamente i vantaghji, u funziunamentu è i casi d'utilizazione di dati sintetici, u prucessu di sintesi hè assai simplice è qualchissia cù cunniscenze di basa di l'informatica pò fà. Per più infurmazione nantu à u prucessu di sintesi, verificate sta pàgina or dumandà una demo.
U Syntho Engine funziona megliu nantu à dati strutturati, tabulari (qualsiasi cosa chì cuntene fila è colonne). In queste strutture, sustenemu i seguenti tipi di dati:
- Strutture dati furmatu in tabelle (categuriche, numeriche, etc.)
- Identificatori diretti è PII
- Grandi datasets è basa di dati
- Dati di posizione geografica (cum'è GPS)
- Dati di serie di tempu
- basa di dati multi-tavule (cù integrità referenziale)
- Apertura di dati di testu
Supportu di dati cumplessi
Accantu à tutti i tipi regulari di dati tabulari, u Syntho Engine supporta tippi di dati cumplessi è strutture di dati cumplessi.
- Serie temporale
- basa di dati multi-tavule
- Testu apertu
Innò, avemu ottimizatu a nostra piattaforma per minimizzà i requisiti di calculu (per esempiu, ùn hè micca necessariu GPU), senza compromette a precisione di e dati. Inoltre, sustenemu a scala automatica, in modu chì unu pò sintetizà enormi basa di dati.
Iè. U software Syntho hè ottimizatu per basa di dati chì cuntenenu parechje tabelle.
In quantu à questu, Syntho detecta automaticamente i tipi di dati, schemi è formati per maximizà a precisione di dati. Per a basa di dati multi-tavula, sustenemu l'inferenza è a sintesi di relazioni automatiche di tavule per priservà l'integrità referenziale.
I dati sò sintetici, ma a nostra squadra hè vera!
Cuntattate Syntho è unu di i nostri esperti entrerà in cuntattu cun voi à a velocità di a luce per esplorà u valore di i dati sintetici!