Isang sintetikong data ng kurso ng pag-crash


Dagdagan ang nalalaman


Makipag-ugnayan sa amin

pagpapakilala

Ano ang synthetic data?

Ang sagot ay medyo simple. Samantalang ang orihinal na data ay kinokolekta sa lahat ng iyong pakikipag-ugnayan sa mga totoong tao (hal. mga kliyente, pasyente, empleyado atbp.) at sa pamamagitan ng lahat ng iyong panloob na proseso, ang synthetic na data ay nabuo sa pamamagitan ng isang computer algorithm. Ang computer algorithm na ito ay bumubuo ng ganap na bago at artipisyal na mga datapoint.

Lutasin ang mga hamon sa privacy ng data

Binubuo ang synthetically generated na data ng ganap na bago at artipisyal na datapoints na walang one-to-one na kaugnayan sa orihinal na data. Samakatuwid, wala sa mga synthetic na datapoint ang maaaring ma-trace pabalik o i-reverse engineer sa orihinal na data. Bilang resulta, ang synthetic na data ay hindi kasama sa mga regulasyon sa privacy, gaya ng GDPR at nagsisilbing solusyon upang malutas at madaig ang mga hamon sa privacy ng data.

Palakihin at gayahin

Ang generative na aspeto ng synthetic na data generation ay nagbibigay-daan upang dagdagan at gayahin ang ganap na bagong data. Ito ay gumagana bilang solusyon kapag wala kang sapat na data (data scarcity), gustong mag-up-sample ng mga edge-case o kapag wala ka pang data.

Dito, ang pokus ng Syntho ay nakabalangkas na data (naka-format ang data sa mga talahanayan na naglalaman ng mga hilera at haligi, tulad ng nakikita mo sa isang mga sheet ng Excel), ngunit palagi naming nais na ilarawan ang konsepto ng synthetic data sa pamamagitan ng mga imahe, sapagkat mas nakakaakit ito.

Mga uri ng sintetikong data

Tatlong uri ng synthetic na data ang umiiral sa loob ng synthetic data umbrella. Ang 3 uri ng synthetic na data na iyon ay: dummy data, rule-based na synthetic data at synthetic data na nabuo ng artificial intelligence (AI). Ipinaliwanag namin kaagad kung ano ang 3 iba't ibang uri ng synthetic na data.

Dummy data / mock data

Ang dummy data ay random na nabuong data (hal. sa pamamagitan ng mock data generator).

Dahil dito, ang mga katangian, ugnayan, at istatistikal na pattern na nasa orihinal na data ay hindi pinapanatili, kinukuha at muling ginawa sa nabuong dummy data. Samakatuwid, ang pagiging kinatawan ng dummy data / mock data ay minimal kumpara sa orihinal na data.

  • Kailan ito gagamitin: upang palitan ang mga direktang pagkakakilanlan (PII) o kapag wala kang data (pa) at ayaw mong gumastos ng oras at lakas sa pagtukoy ng mga panuntunan.

Batay sa batas na nabuong synthetic data

Ang synthetic na data na nakabatay sa panuntunan ay ang synthetic na data na nabuo ng isang paunang natukoy na hanay ng mga panuntunan. Ang mga halimbawa ng mga paunang natukoy na panuntunang iyon ay maaaring gusto mong magkaroon ng synthetic na data na may partikular na minimum na halaga, maximum na halaga o average na halaga. Anuman sa mga katangian, relasyon at istatistikal na pattern, na gusto mong kopyahin sa nabuong synthetic na data na nakabatay sa panuntunan, ay kailangang paunang tukuyin.

Dahil dito, ang kalidad ng data ay magiging kasing ganda ng paunang natukoy na hanay ng mga panuntunan. Nagreresulta ito sa mga hamon kapag ang mataas na kalidad ng data ay ang kakanyahan. Una, maaari lamang tukuyin ng isang tao ang isang limitadong hanay ng mga panuntunan na kukunan sa sintetikong data. Bukod pa rito, ang pagse-set up ng maraming panuntunan ay karaniwang magreresulta sa magkakapatong at magkasalungat na panuntunan. Higit pa rito, hindi mo ganap na sasaklawin ang lahat ng nauugnay na panuntunan. Higit pa rito, maaaring may mga nauugnay na panuntunan na hindi mo alam. At sa wakas (at huwag kalimutan), ito ay magdadala sa iyo ng maraming oras at enerhiya na nagreresulta sa isang hindi mahusay na solusyon.

  • Kailan ito gagamitin: kapag wala kang data (pa)

Sintetikong data na nabuo ng artificial intelligence (AI)

Gaya ng inaasahan mo mula sa pangalan, ang synthetic na data na nabuo ng artificial intelligence (AI) ay synthetic na data na nabuo ng isang algorithm ng artificial intelligence (AI). Ang modelo ng AI ay sinanay sa orihinal na data upang matutunan ang lahat ng katangian, relasyon at istatistikal na pattern. Pagkatapos nito, ang AI algorithm na ito ay makakabuo ng ganap na bagong mga datapoint at namodelo ang mga bagong datapoint na iyon sa paraang ito ay muling gumagawa ng mga katangian, relasyon at istatistikal na pattern mula sa orihinal na dataset. Ito ang tinatawag nating synthetic data twin.

Ginagaya ng modelo ng AI ang orihinal na data upang makabuo ng synthetic data twins na maaaring gamitin na parang orihinal na data ito. Ito ay nag-a-unlock ng iba't ibang mga kaso ng paggamit kung saan ang AI na nakabuo ng synthetic na data ay maaaring gamitin bilang alternatibo sa paggamit ng orihinal (sensitibo) na data, gaya ng paggamit ng AI na nabuong synthetic data bilang data ng pagsubok, demo data o para sa analytics.

Isang visualization kung paano nilikha ang synthetic na data

Sa paghahambing sa nabuong synthetic na data na nakabatay sa panuntunan: sa halip na pag-aralan mo at tukuyin ang mga nauugnay na panuntunan, awtomatiko itong ginagawa ng AI algorithm para sa iyo. Dito, sasaklawin hindi lamang ang mga katangian, relasyon at istatistikal na pattern na alam mo, pati na rin ang mga katangian, relasyon at istatistikal na pattern na hindi mo alam.

  • Kailan ito gagamitin: kapag mayroon kang (ilang) data bilang input upang gayahin o gamitin bilang panimulang punto para sa matalinong pagbuo ng data at mga tampok sa pagpapalaki

Anong uri ng synthetic na data ang gagamitin?

Depende sa iyong use-case, pinapayuhan ang kumbinasyon ng dummy data / mock data, nakabatay sa panuntunang nabuong synthetic data o synthetic na data na nabuo ng artificial intelligence (AI). Ang pangkalahatang-ideya na ito ay nagbibigay sa iyo ng unang indikasyon kung aling uri ng synthetic na data ang gagamitin. Dahil sinusuportahan ng Syntho ang lahat ng ito, huwag mag-atubiling makipag-ugnayan sa aming mga eksperto para mas malalim ang iyong use-case sa amin.

Ang chart na ito ay nagpapakita ng iba't ibang uri ng sintetikong data

syntho guide cover

I-save ang iyong synthetic data guide ngayon!