Kio estas sintezaj datumoj?

Akraŝa kurso sintezaj datumoj

 

 

Enkonduko

Kio estas sintezaj datumoj?

La respondo estas relative simpla. Dum originalaj datumoj estas kolektitaj en ĉiuj viaj interagoj kun realaj personoj (ekz. klientoj, pacientoj, dungitoj ktp.) kaj per ĉiuj viaj internaj procezoj, sintezaj datumoj estas generitaj de komputila algoritmo. Ĉi tiu komputila algoritmo generas tute novajn kaj artefaritajn datumpunktojn.

Solvu defiojn pri datuma privateco

Sinteze generitaj datenoj konsistas el tute novaj kaj artefaritaj datenpunktoj kun neniuj unu-al-unu rilatoj al la originaj datenoj. Tial, neniu el la sintezaj datenpunktoj povas esti spurita reen aŭ inversinĝenierita al originaj datenoj. Kiel rezulto, sintezaj datumoj estas esceptitaj de privatecaj regularoj, kiel la GDPR kaj funkcias kiel solvo por solvi kaj venki defiojn pri datuma privateco.

Pliigi kaj simuli

La genera aspekto de sinteza datengenerado permesas pliigi kaj simuli tute novajn datumojn. Ĉi tio funkcias kiel solvo kiam vi ne havas sufiĉajn datumojn (datummanko), ŝatus pligrandigi randajn kazojn aŭ kiam vi ankoraŭ ne havas datumojn.

Ĉi tie, la fokuso de Syntho estas strukturitaj datumoj (datumoj formatitaj en tabeloj enhavantaj vicojn kaj kolumnojn, kiel vi vidas en Excel-folioj), sed ni ĉiam ŝatas ilustri la koncepton de sintezaj datumoj per bildoj, ĉar ĝi estas pli alloga.

Tipoj de sintezaj datumoj

Tri specoj de sintezaj datenoj ekzistas ene de la sinteza datenombrelo. Tiuj 3 specoj de sintezaj datumoj estas: falsaj datumoj, regul-bazitaj generitaj sintezaj datumoj kaj sintezaj datumoj generitaj de artefarita inteligenteco (AI). Ni baldaŭ klarigas, kio estas la 3 malsamaj specoj de sintezaj datumoj.

Simulaj datumoj / imitaj datumoj

Simulaj datumoj estas hazarde generitaj datumoj (ekz. per falsa datumgeneratoro).

Sekve, karakterizaĵoj, rilatoj kaj statistikaj ŝablonoj kiuj estas en la originaj datumoj ne estas konservitaj, kaptitaj kaj reproduktitaj en la generitaj simulaj datumoj. Tial, la reprezentanteco de imitaj datumoj / imitaj datumoj estas minimuma kompare al la originaj datumoj.

  • Kiam uzi ĝin: por anstataŭigi rektajn identigilojn (PII) aŭ kiam vi ne havas datumojn (ankoraŭ) kaj ne volas elspezi tempon kaj energion por difinado de reguloj.

Regulo-bazitaj generitaj sintezaj datumoj

Regul-bazitaj generitaj sintezaj datenoj estas sintezaj datenoj generitaj per antaŭdifinita aro de reguloj. Ekzemploj de tiuj antaŭdifinitaj reguloj povus esti, ke vi ŝatus havi sintezajn datumojn kun certa minimuma valoro, maksimuma valoro aŭ averaĝa valoro. Iu ajn el la karakterizaĵoj, rilatoj kaj statistikaj ŝablonoj, kiujn vi ŝatus reprodukti en la regulbazitaj generitaj sintezaj datumoj, devas esti antaŭdifinitaj.

Sekve, la datumkvalito estos same bona kiel la antaŭdifinita aro de reguloj. Ĉi tio rezultigas defiojn kiam alta datumkvalito estas de la esenco. Unue, oni povas difini nur limigitan aron de reguloj kaptitaj en la sintezaj datumoj. Aldone, starigi plurajn regulojn tipe rezultigos interkovrajn kaj konfliktajn regulojn. Krome, vi neniam plene kovros ĉiujn koncernajn regulojn. Krome, eble ekzistas gravaj reguloj pri kiuj vi eĉ ne konscias. Kaj finfine (kaj por ne forgesi), ĉi tio prenos al vi multan tempon kaj energion rezultigante ne-efikan solvon.

  • Kiam uzi ĝin: kiam vi ne havas datumojn (ankoraŭ)

Sintezaj datumoj generitaj de artefarita inteligenteco (AI)

Kiel vi atendas de la nomo, sintezaj datumoj generitaj de artefarita inteligenteco (AI) estas sintezaj datumoj generitaj de artefarita inteligenteco (AI) algoritmo. La AI-modelo estas trejnita sur la originaj datumoj por lerni ĉiujn karakterizaĵojn, rilatojn kaj statistikajn ŝablonojn. Poste, ĉi tiu AI-algoritmo povas generi tute novajn datumpunktojn kaj modeligi tiujn novajn datumpunktojn tiel ke ĝi reproduktas la karakterizaĵojn, rilatojn kaj statistikajn ŝablonojn de la origina datumaro. Jen kion ni nomas sinteza datuma ĝemelo.

La AI-modelo imitas originajn datumojn por generi sintezajn datumajn ĝemelojn, kiuj povas esti uzataj kvazaŭ ĝi estas originalaj datumoj. Ĉi tio malŝlosas diversajn uzkazojn, kie la AI-generitaj sintezaj datumoj povas esti uzataj kiel alternativo por uzi originalajn (sentemajn) datumojn, kiel la uzo de AI-generitaj sintezaj datumoj kiel testaj datumoj, demo-datumoj aŭ por analizo.

Bildigo kiel sintezaj datumoj estas kreitaj

Kompare al regulbazitaj generitaj sintezaj datumoj: anstataŭ vi studas kaj difinas koncernajn regulojn, la AI-algoritmo faras tion aŭtomate por vi. Ĉi tie, ne nur karakterizaĵoj, rilatoj kaj statistikaj ŝablonoj, pri kiuj vi konscias, estos kovritaj, ankaŭ karakterizaĵoj, rilatoj kaj statistikaj ŝablonoj, pri kiuj vi eĉ ne konscias, estos kovritaj.

  • Kiam uzi ĝin: kiam vi havas (kelkajn) datumojn kiel enigaĵon por imiti aŭ por uzi kiel deirpunkton por inteligenta datumgenerado kaj pliigo funkcioj

Kiun tipon de sintezaj datumoj uzi?

Depende de via uzokazo, kombinaĵo de falsaj datumoj / imitaj datumoj, regulbazitaj generitaj sintezaj datumoj aŭ sintezaj datumoj generitaj de artefarita inteligenteco (AI) estas konsilita. Ĉi tiu superrigardo donas al vi unuan indikon pri kiu tipo de sintezaj datumoj uzi. Ĉar Syntho subtenas ĉiujn, bonvolu kontakti niajn spertulojn por profundigi vian uzon kun ni.

Ĉi tiu diagramo prezentas malsamajn specojn de sintezaj datumoj

sinteza gvidilo kovrilo

Konservu vian sintezan datuman gvidilon nun!