Unsa ang datos nga synthetic?

Usa ka sintetikong datos sa kurso sa pag-crash

 

 

Pasiuna

Unsa ang datos nga synthetic?

Ang tubag kay simple ra. Samtang ang orihinal nga datos gikolekta sa tanan nimong interaksyon sa tinuod nga mga tawo (eg mga kliyente, pasyente, empleyado ug uban pa) ug pinaagi sa tanan nimong internal nga proseso, ang sintetikong datos namugna pinaagi sa computer algorithm. Kini nga algorithm sa kompyuter nagmugna og bag-o ug artipisyal nga mga punto sa datos.

Pagsulbad sa mga hagit sa pagkapribado sa datos

Ang data nga hinimo sa sintetikong paagi naglangkob sa hingpit nga bag-o ug artipisyal nga mga punto sa datos nga walay usa-sa-usa nga relasyon sa orihinal nga datos. Busa, walay bisan usa sa mga sintetikong mga punto sa datos ang masubay balik o mabaliktad ang pag-engineered sa orihinal nga datos. Ingon usa ka sangputanan, ang sintetikong datos wala’y labot sa mga regulasyon sa pagkapribado, sama sa GDPR ug nagsilbi nga solusyon aron masulbad ug mabuntog ang mga hagit sa pagkapribado sa datos.

Pagdugang ug simulate

Ang generative nga aspeto sa synthetic data generation nagtugot sa pagdugang ug pagsundog sa hingpit nga bag-ong datos. Naglihok kini isip solusyon kung wala kay igong datos (kakulangan sa datos), gusto nga mag-up-sample sa mga edge-case o kung wala ka pa nga datos.

Dinhi, ang gipunting sa Syntho adunay istraktura nga datos (ang pormat sa datos sa mga lamesa nga adunay sulud ug mga haligi, sama sa imong nakita sa usa ka mga sheet sa Excel), apan kanunay namon gusto nga ihulagway ang konsepto sa sintetikong datos pinaagi sa mga imahe, tungod kay labi kini ka madani.

Mga tipo sa sintetikong datos

Tulo ka matang sa sintetikong datos ang anaa sulod sa sintetikong datos nga payong. Kadtong 3 ka matang sa synthetic data mao ang: dummy data, rule-based nga synthetic data ug synthetic data nga namugna sa artificial intelligence (AI). Sa dili madugay among ipasabut kung unsa ang 3 nga lainlaing mga lahi sa sintetikong datos.

Dummy data / mock data

Ang dummy data kay random nga namugna nga data (pananglitan sa usa ka mock data generator).

Tungod niini, ang mga kinaiya, relasyon ug estadistika nga mga sumbanan nga naa sa orihinal nga datos wala gipreserbar, nakuha ug gikopya sa namugna nga dummy data. Busa, ang representasyon sa dummy data / mock data gamay ra kon itandi sa orihinal nga datos.

  • Kanus-a kini gamiton: aron ilisan ang mga direktang identifier (PII) o kung wala ka'y ​​datos (sa pa) ug dili gusto nga mogahin og oras ug kusog sa pagtino sa mga lagda.

Pinasukad sa lagda nga gihimo nga sintetikong datos

Ang gibase sa lagda nga gimugna nga sintetikong datos kay sintetikong datos nga namugna sa usa ka gitakda nang daan nga hugpong sa mga lagda. Ang mga pananglitan sa mga gitakda nang daan nga mga lagda mahimo nga gusto nimo nga adunay sintetikong datos nga adunay piho nga minimum nga kantidad, labing taas nga kantidad o average nga kantidad. Ang bisan unsang mga kinaiya, relasyon ug estadistika nga mga sumbanan, nga gusto nimo nga kopyahon sa gibase sa lagda nga namugna nga sintetikong datos, kinahanglan nga itakda nang daan.

Tungod niini, ang kalidad sa datos mahimong sama ka maayo sa gitakda nang daan nga hugpong sa mga lagda. Nagresulta kini sa mga hagit kung ang taas nga kalidad sa datos ang hinungdanon. Una, ang usa mahimo nga maghubit lamang sa usa ka limitado nga hugpong sa mga lagda nga makuha sa sintetikong datos. Dugang pa, ang paghimo og daghang mga lagda kasagarang moresulta sa nagsapaw-sapaw ug nagkasumpaki nga mga lagda. Dugang pa, dili nimo hingpit nga masakop ang tanan nga may kalabutan nga mga lagda. Dugang pa, mahimo nga adunay mga may kalabutan nga mga lagda nga wala nimo nahibal-an. Ug sa katapusan (ug dili kalimtan), kini magdala kanimo daghang oras ug kusog nga moresulta sa usa ka dili episyente nga solusyon.

  • Kanus-a kini gamiton: kung wala ka'y ​​datos (sa pa)

Ang sintetikong datos nga gihimo sa artipisyal nga paniktik (AI)

Sama sa imong gipaabut gikan sa ngalan, ang sintetikong datos nga namugna sa artificial intelligence (AI) kay sintetikong datos nga gihimo sa usa ka algorithm sa artificial intelligence (AI). Ang modelo sa AI gibansay sa orihinal nga datos aron mahibal-an ang tanan nga mga kinaiya, relasyon ug mga sumbanan sa istatistika. Human niana, kini nga AI algorithm makahimo sa pagmugna og bug-os nga bag-ong mga datapoints ug mga modelo sa mga bag-ong datapoints sa paagi nga kini mag-reproduce sa mga kinaiya, relasyon ug statistical patterns gikan sa orihinal nga dataset. Kini ang gitawag nato nga synthetic data twin.

Ang modelo sa AI nagsundog sa orihinal nga datos aron makamugna og sintetikong datos nga kaluha nga mahimong magamit nga-kon kini orihinal nga datos. Kini nag-abli sa nagkalain-laing mga kaso sa paggamit diin ang AI namugna nga sintetikong datos mahimong gamiton isip alternatibo sa paggamit sa orihinal (sensitibo) nga datos, sama sa paggamit sa AI nga namugna nga sintetikong datos isip test data, demo data o alang sa analytics.

Usa ka paghanduraw kung giunsa paghimo ang sintetikong datos

Kung itandi sa gibase sa lagda nga namugna nga sintetikong datos: imbes nga imong tun-an ug ipatin-aw ang mga may kalabutan nga mga lagda, ang AI algorithm awtomatiko nga naghimo niini alang kanimo. Dinhi, dili lamang mga kinaiya, mga relasyon ug mga sumbanan sa istatistika nga nahibal-an nimo ang masakop, ang mga kinaiya, mga relasyon ug mga sumbanan sa istatistika nga wala nimo nahibal-an ang masakop.

  • Kanus-a kini gamiton: kung ikaw adunay (pipila ka) data ingon input aron masundog o gamiton ingon nga punto sa pagsugod alang sa maalamon nga paghimo sa datos ug mga bahin sa pagdugang

Unsang klase sa sintetikong datos ang gamiton?

Depende sa imong use-case, gitambagan ang kombinasyon sa dummy data/mock data, gibase sa lagda nga synthetic data o synthetic data nga gihimo sa artificial intelligence (AI). Kini nga overview naghatag kanimo usa ka una nga timailhan kung unsang klase sa sintetikong datos ang gamiton. Ingon nga gisuportahan ni Syntho silang tanan, ayaw pagduhaduha sa pagkontak sa among mga eksperto aron mas lawom ang imong kaso sa paggamit kanamo.

Kini nga tsart nagpakita sa lain-laing matang sa sintetikong datos

syntho guide cover

I-save ang imong synthetic data guide karon!