Chì sò i dati sintetici?

Un crash course dati sintetici

 

 

I MUVRINI

Chì sò i dati sintetici?

A risposta hè relativamente simplice. Mentre chì i dati originali sò cullati in tutte e vostre interazzione cù e persone reali (per esempiu, clienti, pazienti, impiegati, etc.) è via tutti i vostri prucessi interni, e dati sintetici sò generati da un algoritmu di computer. Stu algoritmu di computer genera punti di dati completamente novi è artificiali.

Risolve e sfide di privacy di dati

I dati generati sinteticamente sò custituiti da punti di dati completamente novi è artificiali senza relazioni unu à unu cù i dati originali. Dunque, nimu di i punti di dati sintetici pò esse tracciatu o ingegneria inversa à i dati originali. In u risultatu, i dati sintetici sò esentati da i reguli di privacy, cum'è u GDPR è serve com'è suluzione per risolve è superà e sfide di privacy di dati.

Aumenta è simula

L'aspettu generativu di a generazione di dati sintetici permette di aumentà è simulà dati completamente novi. Stu funziunamentu cum'è suluzione quandu ùn avete micca abbastanza dati (scarsità di dati), vuleria à su-sample bordu-casi o quandu vo ùn avete ancora dati.

Quì, u focu di Syntho hè di dati strutturati (dati furmattati in tavule chì cuntenenu filari è colonne, cum'è si vede in un fogliu Excel), ma ci piace sempre à illustrà u cuncettu di dati sintetichi per mezu d'imagine, perchè hè più attraente.

Tipi di dati sintetici

Trè tipi di dati sintetici esistenu in u paraplu di dati sintetici. Quelli 3 tipi di dati sintetici sò: dati fittizi, dati sintetici generati basati in regule è dati sintetici generati da intelligenza artificiale (AI). Spieghemu pocu ciò chì sò i 3 tippi diffirenti di dati sintetici.

Dati simulati / dati simulati

I dati simulati sò dati generati aleatoriamente (per esempiu da un generatore di dati simulati).

In cunseguenza, e caratteristiche, rilazioni è mudelli statistichi chì sò in i dati originali ùn sò micca cunservati, catturati è riproduciti in i dati dummy generati. Dunque, a rappresentatività di dati simulati / dati simulati hè minima in paragunà à i dati originali.

  • Quandu l'utilizanu: per rimpiazzà l'identificatori diretti (PII) o quandu ùn avete micca dati (ancora) è ùn vulete micca passà tempu è energia per definisce e regule.

Dati sintetichi generati à basa di regula

I dati sintetici generati basati in regule sò dati sintetici generati da un inseme di regule predefinitu. Esempii di questi règuli predefiniti puderia esse chì vulete avè dati sintetici cù un certu valore minimu, valore massimu o valore mediu. Qualchese di e caratteristiche, rilazioni è mudelli statistichi, chì vulete ripruduce in i dati sintetici generati basati in regule, deve esse predefinitu.

In cunseguenza, a qualità di dati serà bonu cum'è u settore di regule predefinitu. Questu risultatu in sfide quandu una alta qualità di dati hè di l'essenza. Prima, unu pò definisce solu un inseme limitatu di regule per esse captu in i dati sintetici. Inoltre, l'istituzione di regule multiplicherà generalmente risultà in regule sovrapposte è cunflittu. Inoltre, ùn coprerete mai tutte e regule pertinenti. Inoltre, ci ponu esse regule pertinenti chì ùn site ancu cunuscenza. È finarmenti (è per ùn scurdà micca), questu vi purterà assai tempu è energia risultatu in una suluzione micca efficiente.

  • Quandu aduprà: quandu ùn avete micca dati (ancora)

Dati sintetici generati da l'intelligenza artificiale (AI)

Cumu aspettate da u nome, i dati sintetici generati da l'intelligenza artificiale (AI) sò dati sintetici generati da un algoritmu di intelligenza artificiale (AI). U mudellu AI hè furmatu nantu à e dati originali per amparà tutte e caratteristiche, relazioni è mudelli statistici. In seguitu, questu algoritmu AI hè capaci di generà punti di dati completamente novi è mudele quelli novi punti di dati in tale manera chì riproduce e caratteristiche, relazioni è mudelli statistici da u dataset originale. Questu hè ciò chì chjamemu un gemellu di dati sinteticu.

U mudellu AI imita i dati originali per generà gemelli di dati sintetici chì ponu esse utilizati cum'è s'ellu hè dati originali. Questu sblocca diversi casi d'usu induve i dati sintetici generati da l'AI ponu esse aduprati cum'è alternativa per aduprà dati originali (sensibili), cum'è l'usu di dati sintetici generati da AI cum'è dati di prova, dati demo o per analitiche.

Una visualizazione cumu si creanu dati sintetici

In cunfrontu à e dati sintetici generati basati in regule: invece di studià è definisce e regule pertinenti, l'algoritmu AI faci questu automaticamente per voi. Quì, ùn sò micca solu e caratteristiche, relazioni è mudelli statistichi chì site cunnisciuti seranu coperti, ancu e caratteristiche, relazioni è mudelli statistichi chì ùn site ancu cunuscenza seranu cuparti.

  • Quandu l'utilizate: quandu avete (alcuni) dati cum'è input per imità o per aduprà cum'è puntu di partenza per a generazione di dati intelligenti è e funzioni d'aumentu

Chì tippu di dati sintetici à aduprà?

Sicondu u vostru casu d'usu, una cumminazione di dati simulati / dati simulati, dati sintetici generati basati in regule o dati sintetici generati da intelligenza artificiale (AI) hè cunsigliatu. Questa panoramica vi furnisce una prima indicazione di quale tipu di dati sintetici à utilizà. Siccomu Syntho li supporta tutti, sentite liberu di cuntattà i nostri esperti per approfondisce u vostru casu d'usu cun noi.

Stu graficu presenta diversi tipi di dati sintetici

copertina di guida di syntho

Salvà a vostra guida di dati sintetici avà!