Kaj so sintetični podatki?

Sintetični podatki hitrega tečaja

 

 

Predstavitev

Kaj so sintetični podatki?

Odgovor je razmeroma preprost. Medtem ko se izvirni podatki zbirajo v vseh vaših interakcijah z resničnimi osebami (npr. strankami, pacienti, zaposlenimi itd.) in prek vseh vaših notranjih procesov, sintetične podatke generira računalniški algoritem. Ta računalniški algoritem ustvarja popolnoma nove in umetne podatkovne točke.

Rešite izzive glede zasebnosti podatkov

Sintetično generirani podatki so sestavljeni iz popolnoma novih in umetnih podatkovnih točk brez povezav ena proti ena z izvirnimi podatki. Zato nobene od sintetičnih podatkovnih točk ni mogoče izslediti nazaj ali preoblikovati v izvirne podatke. Zaradi tega so sintetični podatki izvzeti iz predpisov o zasebnosti, kot je GDPR, in služijo kot rešitev za reševanje in premagovanje izzivov glede zasebnosti podatkov.

Povečajte in simulirajte

Generativni vidik generiranja sintetičnih podatkov omogoča dopolnitev in simulacijo popolnoma novih podatkov. To deluje kot rešitev, ko nimate dovolj podatkov (pomanjkanje podatkov), želite povečati vzorčenje robnih primerov ali ko še nimate podatkov.

Tukaj je v središču pozornosti Syntho strukturirani podatki (podatki, oblikovani v tabelah, ki vsebujejo vrstice in stolpce, kot jih vidite na Excelovih listih), vendar vedno radi ponazorimo koncept sintetičnih podatkov s slikami, ker so bolj privlačni.

Vrste sintetičnih podatkov

V okviru sintetičnih podatkov obstajajo tri vrste sintetičnih podatkov. Te 3 vrste sintetičnih podatkov so: lažni podatki, sintetični podatki, ki temeljijo na pravilih, in sintetični podatki, ki jih ustvari umetna inteligenca (AI). Na kratko razložimo, katere so 3 različne vrste sintetičnih podatkov.

Lažni podatki / lažni podatki

Navidezni podatki so naključno generirani podatki (npr. z lažnim generatorjem podatkov).

Posledično se značilnosti, razmerja in statistični vzorci, ki so v izvirnih podatkih, ne ohranijo, zajamejo in reproducirajo v generiranih navideznih podatkih. Zato je reprezentativnost lažnih podatkov / lažnih podatkov minimalna v primerjavi z izvirnimi podatki.

  • Kdaj ga uporabiti: za zamenjavo neposrednih identifikatorjev (PII) ali ko (še) nimate podatkov in ne želite porabiti časa in energije za definiranje pravil.

Ustvarjeni sintetični podatki na podlagi pravil

Sintetični podatki, ustvarjeni na podlagi pravil, so sintetični podatki, ustvarjeni z vnaprej določenim naborom pravil. Primeri teh vnaprej določenih pravil so lahko, da želite imeti sintetične podatke z določeno najmanjšo, največjo ali povprečno vrednostjo. Vse značilnosti, razmerja in statistične vzorce, ki jih želite reproducirati v sintetičnih podatkih, ki temeljijo na pravilih, je treba vnaprej določiti.

Posledično bo kakovost podatkov tako dobra kot vnaprej določen niz pravil. To povzroča izzive, ko je bistvena visoka kakovost podatkov. Prvič, lahko definiramo le omejen nabor pravil, ki jih je treba zajeti v sintetičnih podatkih. Poleg tega bo nastavitev več pravil običajno povzročila prekrivanje in nasprotujoča si pravila. Poleg tega ne boste nikoli v celoti zajeli vseh ustreznih pravil. Poleg tega lahko obstajajo ustrezna pravila, ki se jih sploh ne zavedate. In končno (in da ne pozabimo), vam bo to vzelo veliko časa in energije, kar bo povzročilo neučinkovito rešitev.

  • Kdaj ga uporabiti: ko nimate podatkov (še)

Sintetični podatki, ki jih ustvari umetna inteligenca (AI)

Kot pričakujete od imena, so sintetični podatki, ki jih ustvari umetna inteligenca (AI), sintetični podatki, ki jih ustvari algoritem umetne inteligence (AI). Model AI se usposobi na izvirnih podatkih, da se nauči vseh značilnosti, odnosov in statističnih vzorcev. Nato lahko ta algoritem AI ustvari popolnoma nove podatkovne točke in modelira te nove podatkovne točke na tak način, da reproducira značilnosti, odnose in statistične vzorce iz prvotnega nabora podatkov. Temu pravimo sintetični podatkovni dvojček.

Model AI posnema izvirne podatke za ustvarjanje sintetičnih podatkovnih dvojčkov, ki jih je mogoče uporabiti, kot da so izvirni podatki. To odklene različne primere uporabe, kjer se lahko sintetični podatki, ustvarjeni z umetno inteligenco, uporabijo kot alternativa za uporabo izvirnih (občutljivih) podatkov, kot je uporaba sintetičnih podatkov, ustvarjenih z umetno inteligenco, kot testni podatki, demo podatki ali za analitiko.

Vizualizacija, kako nastanejo sintetični podatki

V primerjavi s sintetičnimi podatki, ustvarjenimi na podlagi pravil: namesto da bi vi preučevali in definirali ustrezna pravila, algoritem AI to samodejno naredi namesto vas. Tu ne bodo zajete le značilnosti, razmerja in statistični vzorci, ki jih poznate, temveč bodo zajete tudi značilnosti, razmerja in statistični vzorci, ki se jih sploh ne zavedate.

  • Kdaj ga uporabiti: ko imate (nekaj) podatkov kot vhodne podatke za posnemanje ali za izhodišče za pametno generiranje podatkov in funkcije za povečanje

Katere vrste sintetičnih podatkov uporabiti?

Glede na vaš primer uporabe priporočamo kombinacijo lažnih podatkov / lažnih podatkov, sintetičnih podatkov, ki temeljijo na pravilih, ali sintetičnih podatkov, ki jih ustvari umetna inteligenca (AI). Ta pregled vam nudi prvo navedbo, katero vrsto sintetičnih podatkov uporabiti. Ker Syntho podpira vse, se lahko obrnete na naše strokovnjake, da z nami poglobijo vaš primer uporabe.

Ta grafikon predstavlja različne vrste sintetičnih podatkov

pokrov sinto vodnika

Shranite svoj vodnik za sintetične podatke zdaj!