Data synthetic nke AI mepụtara, ọ dị mfe na ngwa ngwa ịnweta data dị elu?

AI mepụtara data sịntetik na omume

Syntho, onye ọkachamara na data synthetic nke AI mepụtara, na-achọ ịtụgharị privacy by design banye uru asọmpi na data synthetic sitere AI. Ha na-enyere òtù dị iche iche aka iwulite ntọala data siri ike na ịnweta data dị elu dị mfe ma dị ngwa ngwa wee nweta ihe nrite Philips Innovation Award na nso nso a.

Agbanyeghị, ọgbọ data synthetic na AI bụ ihe ngwọta ọhụrụ na-ewebata ajụjụ ndị a na-ajụkarị. Iji zaa ndị a, Syntho malitere ọmụmụ ihe ọnụ yana SAS, onye isi ahịa na Advanced Analytics and AI software.

Na mmekorita ya na Dutch AI Coalition (NL AIC), ha nyochara uru data synthetic bara uru site n'iji AI-emepụta data synthetic nke Syntho Engine na-emepụta na data mbụ site na nyocha dị iche iche na njirimara data, nkwado iwu na iji ya mee ihe.

Enweghị aha data abụghị ihe ngwọta?

Usoro nzuzo nzuzo nke kpochapụwo jikọtara ọnụ na ha na-emegharị data mbụ iji gbochie ịchụghachi ndị mmadụ n'otu n'otu. Ọmụmaatụ bụ nchikota, mkpochapụ, ihichapụ, pseudonymization, nkpuchi data, na ịkpọgharịa ahịrị na kọlụm. Ị nwere ike ịhụ ihe atụ na tebụl n'okpuru.

data anonymization

Teknụzụ ndị ahụ na-ewebata isi ihe ịma aka atọ:

  1. Ha na-arụ ọrụ dị iche iche n'ụdị data na kwa dataset, na-eme ka ha sie ike. Ọzọkwa, ebe ọ bụ na ha na-arụ ọrụ dị iche iche, a ga-enwe arụmụka mgbe niile banyere ụzọ a ga-esi tinye na ihe ngwakọta nke usoro dị mkpa.
  2. A na-enwe mmekọrịta otu-na-otu mgbe niile na data mbụ. Nke a pụtara na a ga-enwe ihe ize ndụ nzuzo mgbe niile, ọkachasị n'ihi ihe ndekọ data mepere emepe yana usoro dịnụ iji jikọta ihe ndị ahụ.
  3. Ha na-emegharị data ma si otú ahụ mebie data na usoro ahụ. Nke a na-agbawa obi karịsịa maka ọrụ AI ebe "ike amụma" dị mkpa, n'ihi na data adịghị mma ga-eme ka nghọta dị njọ site na ụdị AI (ihe mkpofu ga-eme ka ihe mkpofu pụta).

A na-enyochakwa isi ihe ndị a site n'ọmụmụ ihe ikpe a.

Okwu mmalite nke ọmụmụ ihe

Maka ọmụmụ ihe ahụ, dataset ebumnuche bụ dataset telecom nke SAS nyere nwere data nke ndị ahịa 56.600. Nhazi data ahụ nwere kọlụm 128, gụnyere otu kọlụm na-egosi ma onye ahịa esila n'ụlọ ọrụ ahụ (ya bụ 'churned') ma ọ bụ na ọ hapụghị. Ebumnuche nke ọmụmụ ihe ahụ bụ iji data sịntetik na-azụ ụfọdụ ụdị iji buo amụma ndị ahịa na iji nyochaa arụmọrụ nke ụdị a zụrụ azụ. Dị ka amụma churn bụ ọrụ nhazi ọkwa, SAS ahọpụtara ụdị nhazi ọkwa anọ ama ama iji mee amụma, gụnyere:

  1. Oke ohia
  2. Nkwalite gradient
  3. Logistic nlọghachi azụ
  4. Ngwunye netwọk

Tupu ịmepụta data sịntetik, SAS na-ekewa dataset telecom na-enweghị usoro n'ime ọdụ ụgbọ oloko (maka ịzụ ụdịdị) yana ntọala njide (maka akara ụdị). Inwe ntọala njide dị iche iche maka akara na-enye ohere maka ntule enweghị mmasị maka etu ụdị nhazi ahụ nwere ike isi rụọ ọrụ mgbe etinyere ya na data ọhụrụ.

Iji setịpụ ụgbọ oloko dị ka ntinye, Syntho jiri Syntho Engine ya mepụta dataset sịntetik. Maka benchmarking, SAS mepụtakwara ụdị ụgbọ oloko ejiri megharịa ka etinyere usoro enweghị aha dị iche iche iji ruo otu ọnụ ụzọ (nke k-anonimity). Nzọụkwụ mbụ rụpụtara na ntọala data anọ:

  1. Nhazi data ụgbọ oloko (ntụgharị dataset mbụ na-ewepu dataset njide)
  2. Akụ data ejidere (ya bụ akụkụ nke dataset mbụ)
  3. Nhazi data enweghị aha (dabere na ọdụ ụgbọ oloko)
  4. Nhazi data synthetic (dabere na ọdụ ụgbọ oloko)

Ejiri data 1, 3 na 4 zụọ ụdị nhazi ọ bụla, na-ebute ụdị 12 (3 x 4) zụrụ azụ. SAS mechara jiri dataset njide wee tụọ izi ezi nke ụdị ọ bụla na-ebu amụma nhụsianya ndị ahịa. E gosipụtara nsonaazụ ya n'okpuru, malite na ụfọdụ ọnụ ọgụgụ ndị bụ isi.

Pipeline mmụta igwe emepụtara na SAS

Ọgụgụ: pipeline mmụta igwe emepụtara na Ngwuputa data Anya SAS na mmụta igwe

Ndekọ ọnụ ọgụgụ ndị bụ isi mgbe ị na-atụnyere data amaghị aha na data izizi

Usoro enweghị aha na-emebi ọbụna ụkpụrụ ndị bụ isi, mgbagha azụmahịa, mmekọrịta na ọnụ ọgụgụ (dịka ọmụmaatụ n'okpuru). Iji data ezoro ezo maka nyocha bụ isi na-arụpụta nsonaazụ enweghị ntụkwasị obi. N'ezie, adịghị mma nke data amaghị aha mere ka ọ fọrọ nke nta ka ọ bụrụ ihe na-agaghị ekwe omume iji ya maka ọrụ nyocha dị elu (dịka ọmụmaatụ AI/ML ịmegharị na dashboarding).

na-atụnyere data amaghị aha na data izizi

Ndekọ ọnụ ọgụgụ ndị bụ isi mgbe ị na-atụnyere data sịntetik na data izizi

Ọgbọ data sịntetik nwere AI na-echekwa ụkpụrụ bụ isi, mgbagha azụmaahịa, mmekọrịta na ọnụ ọgụgụ (dị ka ọmụmaatụ n'okpuru). Iji data sịntetik maka nyocha bụ isi na-arụpụta nsonaazụ a pụrụ ịdabere na ya. Ajụjụ dị mkpa, data sịntetik ọ na-edobe maka ọrụ nyocha dị elu (dịka ọmụmaatụ AI/ML ịmegharị na dashboarding)?

na-atụnyere data sịntetik na data mbụ

AI-mepụtara data sịntetik na nyocha dị elu

Data sịntetik na-ejide ọ bụghị naanị maka ụkpụrụ ndị bụ isi (dị ka egosiri na atụmatụ mbụ), ọ na-ejidekwa ụkpụrụ ndekọ ndekọ 'zoro ezo' dị omimi achọrọ maka ọrụ nyocha dị elu. E gosipụtara nke ikpeazụ na chaatị mmanya dị n'okpuru ebe a, na-egosi na izi ezi nke ụdị a zụrụ na data sịntetik na ụdị a zụrụ na data mbụ yiri nke ahụ. Ọzọkwa, na mpaghara n'okpuru usoro (AUC*) dị nso 0.5, ụdị a zụrụ azụ na data amaghị aha na-arụ ọrụ kacha njọ. Akụkọ zuru oke yana nyocha nyocha niile dị elu na data sịntetik ma e jiri ya tụnyere data izizi dị na arịrịọ.

* AUC: mpaghara dị n'okpuru okirikiri bụ ihe nleba anya maka izi ezi nke ụdị nyocha dị elu, na-eburu n'uche ihe dị mma, ihe na-ezighi ezi, ihe na-adịghị mma na ihe ọjọọ. 0,5 pụtara na ụdị na-ebu amụma na-enweghị usoro na enweghị ike ibu amụma na 1 pụtara na ihe nlereanya ahụ na-adị mma mgbe niile ma nwee ike ibu amụma zuru oke.

Na mgbakwunye, enwere ike iji data sịntetik a iji ghọta njirimara data yana mgbanwe ndị dị mkpa maka ọzụzụ nke ụdị. Ntinye ndị algọridim ahọpụtara na data sịntetịt atụnyere data izizi yitere nke ukwuu. N'ihi ya, enwere ike ịme usoro nhazi na ụdị sịntetik a, nke na-ebelata ihe ize ndụ nke imebi data. Agbanyeghị, mgbe ị na-enyocha ndekọ onye ọ bụla (dịka ndị ahịa telco) akwadoro ọzụzụ na data izizi maka nkọwa, nnabata ma ọ bụ naanị n'ihi iwu.                              

AUC site na Algorithm nke usoro chịkọtara

AUC

Mkpebi:

  • Ụdị a zụrụ azụ na data sịntetik atụnyere ụdị a zụrụ azụ na data mbụ na-egosi arụmọrụ yiri ya nke ukwuu
  • Ụdị a zụrụ na data ezoro ezo nwere 'usoro ịmaghị aha oge ochie' na-egosi arụmọrụ dị ala ma e jiri ya tụnyere ụdị zụrụ na data mbụ ma ọ bụ data sịntetik.
  • Ọgbọ data synthetic dị mfe na ngwa ngwa n'ihi na usoro ahụ na-arụ ọrụ otu ihe ahụ kwa dataset yana ụdị data ọ bụla.

Ọnụ ahịa na-agbakwunye data sịntetik ojiji ikpe

Jiri ikpe 1: data sịntetik maka mmepe ụdị yana nyocha dị elu

Inwe ntọala data siri ike yana ngwa ngwa na ịnweta ngwa ngwa, data dị elu dị mkpa iji mepụta ụdị (dịka dashboards [BI] na nyocha dị elu [AI & ML]). Agbanyeghị, ọtụtụ ụlọ ọrụ na-ata ahụhụ site na ntọala data dị ala nke na-ebute isi ihe ịma aka atọ:

  • Ịnweta data na -ewe afọ n'ihi ụkpụrụ (nzuzo), usoro ime ma ọ bụ silos data
  • Usoro enweghị aha ochie na-emebi data, na-eme ka data ahụ gharazie ekwesị maka nyocha yana nyocha dị elu (ihe mkpofu na = ihe mkpofu)
  • Ngwọta ndị dị ugbu a enweghị ike ịgbatị n'ihi na ha na-arụ ọrụ dị iche iche site na dataset yana kwa ụdị data na enweghị ike ijikwa nnukwu ọdụ data tebụl ọtụtụ.

Ụzọ data sịntetik: mepụta ụdị nwere data sịntetịtịk dị mma-dị adị ka:

  • Wedata ojiji nke data mbụ, na -egbochi ndị mmepe gị
  • Mepee data nkeonwe ma nweta ohere karịa data amachibidoro na mbụ (dịka ọmụmaatụ maka nzuzo)
  • Nnweta data dị mfe na ngwa ngwa na data dị mkpa
  • Ngwọta a na -agbanwe agbanwe nke na -arụ otu ihe maka dataset, datatype yana maka nnukwu ọdụ data

Nke a na-enye ohere ka nzukọ wuo ntọala data siri ike yana ịnweta ngwa ngwa na ngwa ngwa nke enwere ike iji ya mee ihe, data dị elu dị elu iji kpọghee data na iji nweta ohere data.

 

Jiri ikpe 2: smart data test synthetic maka nnwale ngwanrọ, mmepe na nnyefe

Nnwale na mmepe na data ule dị elu dị oke mkpa iji wepụta ngwọta ngwanrọ ọgbara ọhụrụ. Iji data mmepụta mbụ dị ka ihe doro anya, mana anabataghị ya n'ihi ụkpụrụ (nzuzo). Nhọrọ Test Data Management Ngwa (TDM) ewebata "legacy-by-design"N'inweta data ule nke ọma:

  • Adịghị egosipụta data mmepụta na azụmahịa ezi uche na referential iguzosi ike n'ezi na-adịghị echekwabara
  • Na-arụ ọrụ nwayọọ na-ewe oge
  • Achọrọ ọrụ aka

Ụzọ data sịntetik: Jiri data nnwale synthetic emepụtara AI wepụta wee wepụta azịza sọftụwia ọgbara ọhụrụ nwere amamihe na:

  • Mmepụta dị ka data nwere ezi uche azụmahịa echekwara na iguzosi ike n'ezi ihe
  • Ọgbọ data dị mfe na ngwa ngwa nwere ọgbara ọhụrụ AI
  • Nzuzo-site-ichepụta
  • Mfe, ngwa ngwa na agile

Nke a na-enye ohere nzukọ iji nwalee na ịzụlite na-ọkwa-ọkwa ule data iji na-anapụta ọgbara ọhụrụ ngwọta software!

More ọmụma

Nwere mmasị? Maka ozi ndị ọzọ gbasara data sịntetik, gaa na webụsaịtị Syntho ma ọ bụ kpọtụrụ Wim Kees Janssen. Maka ozi ndị ọzọ gbasara SAS, gaa na www.sas.com ma ọ bụ kpọtụrụ kees@syntho.ai.

N'okwu a, Syntho, SAS na NL AIC na-arụkọ ọrụ ọnụ iji nweta nsonaazụ echere. Syntho bụ ọkachamara na data synthetic nke AI na-emepụta na SAS bụ onye isi ahịa na nyocha ma na-enye ngwanrọ maka nyocha, nyocha na ịhụ data.

* Na-ebu amụma 2021 - Data na Atụmatụ nyocha maka Ọchịchị, Ọnụ ọgụgụ na Gbanwee Azụmahịa Dijitalụ, Gartner, 2020.

syntho ndu mkpuchi

Chekwaa ntuziaka data sịntetik gị ugbu a!