Synthetic Data Generators တွင် အသုံးဝင်မှုနှင့် တူညီမှုကို အကဲဖြတ်ခြင်း- နည်းပညာဆိုင်ရာ နက်ရှိုင်းစွာ ထိုးဆင်းခြင်းနှင့် နှိုင်းယှဉ်သုံးသပ်ခြင်း

Published:

ဖေဖေါ်ဝါရီလ 27, 2024

နိဒါန္း

ယနေ့ခေတ် ဒစ်ဂျစ်တယ်ခေတ်တွင်၊ ဒေတာကိုယ်ရေးကိုယ်တာဆိုင်ရာ အသိအမြင် သိသိသာသာ တိုးမြင့်လာပါသည်။ အသုံးပြုသူများသည် ၎င်းတို့၏ဒေတာကို ထူးခြားသည့်ဒစ်ဂျစ်တယ်လက်ဗွေတစ်ခုအဖြစ် ပိုမိုအသိအမှတ်ပြုလာကာ ဒေတာဖောက်ဖျက်ခံရသည့်အခါတွင် ၎င်းတို့၏ privacy ကိုအန္တရာယ်ဖြစ်စေသည်။ ဤစိုးရိမ်မှုကို GDPR ကဲ့သို့ စည်းမျဉ်းများဖြင့် ပိုမိုချဲ့ထွင်ကာ အသုံးပြုသူများအား ၎င်းတို့၏ဒေတာကို ဖျက်ပစ်ရန် တောင်းဆိုရန် အခွင့်အာဏာပေးထားသည်။ များစွာလိုအပ်နေသော်လည်း ဒေတာဝင်ရောက်ခွင့်ကို နည်းပါးသွားသောကြောင့် ဤဥပဒေသည် ကုမ္ပဏီများအတွက် အလွန်စျေးကြီးနိုင်ပါသည်။ ကန့်သတ်ချက်များကို ကျော်လွှားရန် အချိန်နှင့် အရင်းအမြစ် သုံးစွဲလေ့ရှိသည်။

Synthetic Data Generator တွေက ဘာတွေလဲ။

ဤပြဿနာအတွက် ဖြေရှင်းချက်တစ်ခု၊ ပေါင်းစပ်ဒေတာကို ထည့်သွင်းပါ။ Synthetic data generators များသည် အမည်ဝှက်နှင့် လျှို့ဝှက်မှုကို ထိန်းသိမ်းထားစဉ်တွင် တကယ့်အသုံးပြုသူဒေတာကို အတုယူသည့် ဒေတာအတွဲများကို ဖန်တီးပါသည်။ ဤချဉ်းကပ်မှုသည် လျှို့ဝှက်ရေးသည် အရေးကြီးဆုံးဖြစ်သည့် ကျန်းမာရေးစောင့်ရှောက်မှုမှ ဘဏ္ဍာရေးအထိ စက်မှုလုပ်ငန်းများတွင် ဆွဲဆောင်မှုရရှိနေသည်။

ဤပို့စ်သည် ဓာတုဒေတာဂျင်နရေတာများ၏ အကဲဖြတ်ခြင်းအပေါ် အာရုံစိုက်ကာ ဒေတာကျွမ်းကျင်သူများနှင့် ဝါသနာရှင်များအတွက် အံဝင်ခွင်ကျဖြစ်စေပါသည်။ ကျွန်ုပ်တို့သည် အဓိကကျသော မက်ထရစ်များကို စူးစမ်းလေ့လာပြီး Syntho's Engine နှင့် ၎င်း၏ open-source အခြားရွေးချယ်မှုများအကြား နှိုင်းယှဉ်ခွဲခြမ်းစိတ်ဖြာမှုပြုလုပ်ပြီး ပေါင်းစပ်ဒေတာထုတ်လုပ်ခြင်း၏ ဖြေရှင်းချက်အရည်အသွေးကို ထိရောက်စွာအကဲဖြတ်နည်းဆိုင်ရာ ထိုးထွင်းသိမြင်မှုများကို ပေးဆောင်ပါမည်။ ထို့အပြင်၊ ကျွန်ုပ်တို့သည် မော်ဒယ်များ၏ လုပ်ဆောင်မှုကို ပိုမိုထိုးထွင်းသိမြင်စေရန်အတွက် ဤမော်ဒယ်တစ်ခုစီ၏ အချိန်ကုန်ကျစရိတ်ကိုလည်း အကဲဖြတ်ပါမည်။

မှန်ကန်သော ပေါင်းစပ်ဒေတာထုတ်လုပ်ခြင်းနည်းလမ်းကို မည်သို့ရွေးချယ်မည်နည်း။

ပေါင်းစပ်ဒေတာထုတ်လုပ်ခြင်း၏ ကွဲပြားသောအခင်းအကျင်းတွင်၊ တစ်ခုချင်းစီသည် ၎င်း၏ထူးခြားသောစွမ်းရည်များဖြင့် အာရုံစူးစိုက်မှုရယူရန် နည်းလမ်းများစွာကို ရရှိနိုင်သည်။ အပလီကေးရှင်းတစ်ခုအတွက် အသင့်တော်ဆုံးနည်းလမ်းကို ရွေးချယ်ရာတွင် ရွေးချယ်မှုတစ်ခုစီ၏ စွမ်းဆောင်ရည်လက္ခဏာများကို စေ့စေ့စပ်စပ်နားလည်ရန် လိုအပ်သည်။ ၎င်းသည် ကောင်းစွာသတ်မှတ်ထားသော မက်ထရစ်များပေါ်တွင် အခြေခံ၍ အမျိုးမျိုးသော ပေါင်းစပ်ထားသော ဒေတာဂျင်နရေတာများကို ကျယ်ကျယ်ပြန့်ပြန့် အကဲဖြတ်ရန် လိုအပ်ပါသည်။

အောက်ပါအချက်သည် လူသိများသော open-source framework ဖြစ်သော Synthetic Data Vault (SDV) နှင့်အတူ Syntho Engine ၏ ပြင်းထန်သော နှိုင်းယှဉ်သုံးသပ်ချက်ဖြစ်သည်။ ဤခွဲခြမ်းစိတ်ဖြာမှုတွင်၊ ကျွန်ုပ်တို့သည် စာရင်းအင်းဆိုင်ရာ သစ္စာရှိမှု၊ ကြိုတင်ခန့်မှန်းနိုင်မှု တိကျမှုနှင့် အပြန်အလှန်ပြောင်းလဲနိုင်သော ဆက်နွယ်မှုကဲ့သို့သော အသုံးများသော မက်ထရစ်များစွာကို အသုံးပြုထားသည်။

Synthetic Data Evaluation Metrics

တိကျသောမက်ထရစ်ကို မမိတ်ဆက်မီ၊ Synthetic data ကို အကဲဖြတ်ခြင်းဆိုင်ရာ အယူဝါဒများစွာရှိနေကြောင်း အသိအမှတ်ပြုရမည်၊ တစ်ခုစီသည် ဒေတာအချို့၏ ရှုထောင့်တစ်ခုစီကို ထိုးထွင်းသိမြင်စေသော အရာတစ်ခုစီဖြစ်သည်။ ဤအချက်ကို စိတ်ထဲတွင် ထားခြင်းဖြင့် အောက်ပါ အမျိုးအစားသုံးမျိုးသည် အရေးကြီးပြီး ကျယ်ကျယ်ပြန့်ပြန့် သိသာထင်ရှားပါသည်။ ဤမက်ထရစ်များသည် ဒေတာအရည်အသွေး၏ ရှုထောင့်အမျိုးမျိုးကို ထိုးထွင်းသိမြင်စေပါသည်။ ဤအမျိုးအစားများမှာ-

1. Statistical Fidelity Metrics- ပေါင်းစပ်ဒေတာသည် မူရင်းဒေတာအတွဲ၏ စာရင်းအင်းပရိုဖိုင်နှင့် ကိုက်ညီမှုရှိစေရန် နည်းလမ်းများနှင့် ကွဲလွဲမှုများကဲ့သို့ ဒေတာများ၏ အခြေခံစာရင်းအင်းအင်္ဂါရပ်များကို ဆန်းစစ်ခြင်း။

1. ကြိုတင်ခန့်မှန်းမှု တိကျမှု- ပေါင်းစပ်ဒေတာထုတ်လုပ်ခြင်းမော်ဒယ်စွမ်းဆောင်ရည်ကို ဆန်းစစ်ခြင်း၊ မူရင်းဒေတာဖြင့် လေ့ကျင့်ထားသော ပေါင်းစပ်ဒေတာ (Train Real – Test Synthetic၊ TRTS) နှင့် အပြန်အလှန်အားဖြင့် (Train Synthetic – Test Real၊ TSTR)

1. Inter-Variable Relationships- ဤပေါင်းစပ်အမျိုးအစားတွင်-

- အင်္ဂါရပ်ဆက်စပ်မှု- ပေါင်းစပ်ကိန်းဂဏန်းများကို အသုံးပြု၍ ကိန်းရှင်များကြားရှိ ဆက်စပ်မှုများကို ပေါင်းစပ်ပေါင်းစပ်ထားသော ဒေတာသည် မည်မျှကောင်းမွန်ကြောင်း ကျွန်ုပ်တို့ အကဲဖြတ်ပါသည်။ Propensity Mean Squared Error (PMSE) ကဲ့သို့ လူသိများသော မက်ထရစ်သည် ဤအမျိုးအစားဖြစ်သည်။

- အပြန်အလှန်အချက်အလက်များ- ဆက်စပ်မှုများကို ကျော်လွန်၍ ဤဆက်ဆံရေးများ၏ အတိမ်အနက်ကို နားလည်ရန် ကိန်းရှင်များကြား အပြန်အလှန်မှီခိုမှုကို တိုင်းတာပါသည်။

နှိုင်းယှဉ်သုံးသပ်ချက်- Syntho Engine နှင့် Open-Source အခြားရွေးချယ်စရာများ

နှိုင်းယှဉ်ခွဲခြမ်းစိတ်ဖြာမှုအား Syntho Engine နှင့် SDV မော်ဒယ်များအပါအဝင် မော်ဒယ်များအားလုံးတွင် စံသတ်မှတ်ထားသော အကဲဖြတ်မူဘောင်နှင့် ထပ်တူစမ်းသပ်မှုနည်းပညာများကို အသုံးပြု၍ ပြုလုပ်ခဲ့ပါသည်။ တူညီသောရင်းမြစ်များမှ ဒေတာအတွဲများကို ပေါင်းစပ်ပြီး တူညီသော ကိန်းဂဏန်းစမ်းသပ်မှုများနှင့် စက်သင်ယူမှုပုံစံ အကဲဖြတ်မှုများတွင် ၎င်းတို့ကို မျှတပြီး ဘက်မလိုက်ဘဲ နှိုင်းယှဉ်မှုကို သေချာစေသည်။ အောက်တွင်ဖော်ပြထားသော ကဏ္ဍသည် အထက်ဖော်ပြပါ မက်ထရစ်များ၏ အကွာအဝေးတစ်လျှောက် ပေါင်းစပ်ထားသော ဒေတာဂျင်နရေတာတစ်ခုစီ၏ စွမ်းဆောင်ရည်ကို အသေးစိတ်ဖော်ပြထားသည်။

အကဲဖြတ်ရန်အတွက် အသုံးပြုသည့် ဒေတာအတွဲအတွက်၊ UCI အရွယ်ရောက်ပြီးသူ၏ သန်းခေါင်စာရင်းဒေတာအတွဲ ၎င်းသည် machine learning community တွင် လူသိများသော dataset တစ်ခုဖြစ်သည်။ လေ့ကျင့်မှုအားလုံးမတိုင်မီ ကျွန်ုပ်တို့သည် ဒေတာကို သန့်စင်ပြီးနောက် ဒေတာအတွဲကို နှစ်စုံခွဲ (စမ်းသပ်ရန်အတွက် လေ့ကျင့်မှုတစ်ခုနှင့် ခေတ္တရပ်နားထားမှုတစ်ခု)။ မော်ဒယ်တစ်ခုစီနှင့် ဒေတာအမှတ်အသစ် 1 သန်းကို ထုတ်လုပ်ရန် လေ့ကျင့်ရေးကို အသုံးပြုပြီး ဤထုတ်လုပ်လိုက်သော ဒေတာအတွဲများတွင် မက်ထရစ်အမျိုးမျိုးကို အကဲဖြတ်ပါသည်။ နောက်ထပ် စက်သင်ယူမှု အကဲဖြတ်ခြင်းများအတွက် TSTR နှင့် TRTS နှင့် ဆက်စပ်သော မက်ထရစ်များကဲ့သို့သော မက်ထရစ်များကို အကဲဖြတ်ရန် သတ်မှတ်ထားသော ကန့်သတ်ချက်ကို ကျွန်ုပ်တို့ အသုံးပြုခဲ့သည်။

ဂျင်နရေတာတစ်ခုစီကို ပုံသေသတ်မှတ်ချက်များဖြင့် လုပ်ဆောင်ခဲ့သည်။ Syntho ကဲ့သို့ အချို့သော မော်ဒယ်များသည် မည်သည့် tabular data တွင်မဆို ကောင်းမွန်စွာ ချိန်ညှိခြင်း မပြုလုပ်နိုင်ခဲ့ပါ။ မော်ဒယ်တစ်ခုစီအတွက် မှန်ကန်သော ဟိုက်ပါပါရာမီတာများကို ရှာဖွေခြင်းသည် အချိန်များစွာကြာမည်ဖြစ်ပြီး ဇယား 2 သည် Syntho ၏ မော်ဒယ်နှင့် စမ်းသပ်ထားသည့်အရာများအကြား ကြီးမားသောအချိန်ကွာခြားမှုကို ပြသထားပြီးဖြစ်သည်။

SDV ရှိ အခြားသော မော်ဒယ်များနှင့် ဆန့်ကျင်ဘက်အနေဖြင့် Gaussian Copula Synthesizer သည် ကိန်းဂဏန်းဆိုင်ရာ နည်းစနစ်များကို အခြေခံထားသည်။ ဆန့်ကျင်ဘက်အနေနှင့်၊ ကျန်များသည် Generative Adversarial Networks (GAN) မော်ဒယ်များနှင့် ကွဲပြားသော အလိုအလျောက် ကုဒ်နံပါတ်များကဲ့သို့သော အာရုံကြောကွန်ရက်များကို အခြေခံထားသည်။ ထို့ကြောင့် Gaussian Copula သည် ဆွေးနွေးထားသော မော်ဒယ်များအားလုံးအတွက် အခြေခံအချက်အဖြစ် မြင်နိုင်ပါသည်။

ရလဒ်များ

ဒေတာအရည်အသွေး

ပုံ ၁။ မော်ဒယ်အားလုံးအတွက် အခြေခံအရည်အသွေးရလဒ်များကို မြင်ယောင်ခြင်း။

ဒေတာပါ၀င်သော ခေတ်ရေစီးကြောင်းနှင့် ကိုယ်စားပြုမှုများအပေါ် ယခင်ဆွေးနွေးထားသော လိုက်နာမှုအား ပုံ 1 နှင့် ဇယား 1 တွင် တွေ့ရှိနိုင်ပါသည်။ ဤနေရာတွင်၊ အသုံးပြုနေသည့် မက်ထရစ်တစ်ခုစီကို အောက်ပါအတိုင်း အဓိပ္ပာယ်ဖွင့်ဆိုနိုင်သည်-

ယေဘုယျ အရည်အသွေးရမှတ်- ကိန်းဂဏန်းဆိုင်ရာ တူညီမှုနှင့် ဒေတာလက္ခဏာများကဲ့သို့ အမျိုးမျိုးသော ရှုထောင့်များကို ပေါင်းစပ်ထားသော ပေါင်းစပ်ပေါင်းစပ်ထားသော ပေါင်းစပ်ဒေတာ၏ အရည်အသွေးကို ခြုံငုံသုံးသပ်ခြင်း။
ကော်လံပုံသဏ္ဍာန်များ- ပေါင်းစပ်ဒေတာသည် ကော်လံတစ်ခုစီအတွက် ဒေတာအစစ်အမှန်ကဲ့သို့ တူညီသောဖြန့်ဝေမှုပုံစံကို ထိန်းသိမ်းထားခြင်းရှိမရှိ အကဲဖြတ်ပါ။
Column Pair Trends- အစစ်အမှန်ဒေတာနှင့် နှိုင်းယှဉ်ထားသော ပေါင်းစပ်ဒေတာရှိ ကော်လံအတွဲများကြား ဆက်ဆံရေး သို့မဟုတ် ဆက်စပ်မှုများကို အကဲဖြတ်သည်။

ယေဘုယျအားဖြင့် Syntho သည် ဘုတ်အဖွဲ့တစ်လျှောက် အလွန်မြင့်မားသောရမှတ်များရရှိသည်ကို သတိပြုမိနိုင်ပါသည်။ အစပိုင်းတွင်၊ အလုံးစုံဒေတာအရည်အသွေးကိုကြည့်သောအခါ (SDV မက်ထရစ်များစာကြည့်တိုက်ဖြင့် အကဲဖြတ်သည်) Syntho သည် ရလဒ် 99% အထက်ကို ရရှိနိုင်သည် (ကော်လံပုံသဏ္ဍာန် 99.92% နှင့် ကော်လံအတွဲပုံသဏ္ဍာန် လိုက်နာမှု 99.31%)။ SDV သည် အများဆုံး 90.84% ၏ ရလဒ်ကို ရရှိနေချိန်တွင် (Gaussian Copula နှင့်အတူ၊ ကော်လံပုံသဏ္ဍာန် 93.82% နှင့် ကော်လံအတွဲပုံသဏ္ဍာန် လိုက်နာမှု 87.86%) တို့ရှိသည်။

ဇယား 1. မော်ဒယ်တစ်ခုစီအတွက် ထုတ်လုပ်လိုက်သော dataset တစ်ခုစီ၏ အရည်အသွေးရမှတ်များကို ဇယားကွက် ကိုယ်စားပြုခြင်း။

ဒေတာလွှမ်းခြုံမှု

SDV ၏ Diagnosis Report module သည် SDV မှထုတ်ပေးသောဒေတာ (ကိစ္စရပ်တိုင်းတွင်) ကိန်းဂဏာန်းအပိုင်းအခြားများ၏ 10% ထက်ပို၍ ပျောက်ဆုံးနေကြောင်း ကျွန်ုပ်တို့အာရုံစိုက်လာစေသည်။ Triplet-Based Variational Autoencoder (TVAE) တွင်၊ မူရင်းဒေတာအတွဲနှင့် နှိုင်းယှဉ်ပါက တူညီသော အမျိုးအစားအလိုက် ဒေတာပမာဏလည်း ပျောက်ဆုံးနေပါသည်။ Syntho ကို အသုံးပြု၍ ရရှိသော ရလဒ်များဖြင့် ယင်းသတိပေးချက်များကို မထုတ်ပေးပါ။

ပုံ 2. မော်ဒယ်အားလုံးအတွက် ပျမ်းမျှကော်လံအလိုက် စွမ်းဆောင်ရည်မက်ထရစ်များကို ပုံဖော်ခြင်း။

နှိုင်းယှဉ်ခွဲခြမ်းစိတ်ဖြာမှုတွင်၊ ပုံ 2 ၏ကွက်ကွက်သည် SDV သည် ၎င်းတို့၏မော်ဒယ်အချို့နှင့် အမျိုးအစားလွှမ်းခြုံမှုတွင် အနည်းငယ်သာလွန်ကောင်းမွန်သောရလဒ်များ (GaussianCopula၊ CopulaGAN၊ နှင့် Conditional Tabular GAN – CTGAN) တို့ကို သရုပ်ဖော်သည်။ မည်သို့ပင်ဆိုစေကာမူ၊ Syntho ၏ ဒေတာများ၏ ယုံကြည်စိတ်ချရမှုသည် အမျိုးအစားများနှင့် အပိုင်းအခြားများတစ်လျှောက် လွှမ်းခြုံမှုကွာဟချက်အနည်းငယ်သာဖြစ်ပြီး 1.1% ကွဲပြားမှုကို ပြသသောကြောင့် SDV မော်ဒယ်များထက် သာလွန်ကြောင်း မီးမောင်းထိုးပြရန် အရေးကြီးပါသည်။ ဆန့်ကျင်ဘက်အားဖြင့်၊ SDV မော်ဒယ်များသည် 14.6% မှ 29.2% အထိ သိသိသာသာ ပြောင်းလဲမှုကို သရုပ်ပြသည်။

ဤနေရာတွင် ကိုယ်စားပြုမက်ထရစ်များကို အောက်ပါအတိုင်း အဓိပ္ပာယ်ဖွင့်ဆိုနိုင်ပါသည်။

အမျိုးအစား လွှမ်းခြုံမှု- အစစ်အမှန်ဒေတာနှင့် နှိုင်းယှဉ်ပြီး ပေါင်းစပ်ထားသော ဒေတာတွင် အမျိုးအစားအားလုံး၏ ပါဝင်မှုကို တိုင်းတာသည်။
အပိုင်းအခြား လွှမ်းခြုံမှု- ပေါင်းစပ်ဒေတာရှိ တန်ဖိုးများ၏ အကွာအဝေးသည် ဒေတာအစစ်အမှန်တွင် မည်မျှကိုက်ညီကြောင်း အကဲဖြတ်သည်။

ဇယား 2။ မော်ဒယ်တစ်ခုစီအတွက် ပေးထားသော attribute အမျိုးအစားတစ်ခု၏ ပျမ်းမျှလွှမ်းခြုံမှုကို ဇယားကွက် ကိုယ်စားပြုခြင်း။

utility

Synthetic Data ၏ အသုံးဝင်မှု ခေါင်းစဉ်သို့ ရွေ့လျားလာရာ ဒေတာဆိုင်ရာ လေ့ကျင့်ရေး မော်ဒယ်များ၏ ကိစ္စသည် သက်ဆိုင်ရာ ဖြစ်လာပါသည်။ မူဘောင်အားလုံးအကြား မျှတပြီး နှိုင်းယှဉ်မှုတစ်ခုရှိရန် ကျွန်ုပ်တို့သည် SciKit Learn စာကြည့်တိုက်မှ မူရင်း Gradient Boosting Classifier ကို ရွေးချယ်ခဲ့ပြီး၊ ၎င်းကို ကွက်လပ်ပြင်ပ ဆက်တင်များနှင့်အတူ ကောင်းမွန်စွာလုပ်ဆောင်နိုင်သော မော်ဒယ်အဖြစ် မျှမျှတတ လက်ခံထားသောကြောင့် ဖြစ်သည်။

မတူညီသော မော်ဒယ်နှစ်ခုကို လေ့ကျင့်သင်ကြားထားပြီး၊ တစ်ခုသည် ပေါင်းစပ်ဒေတာ (TSTR အတွက်) နှင့် တစ်ခုသည် မူရင်းဒေတာ (TRTS အတွက်) ဖြစ်သည်။ ပေါင်းစပ်ဒေတာတွင် လေ့ကျင့်သင်ကြားထားသည့် မော်ဒယ်ကို သိမ်းဆည်းထားသော စမ်းသပ်မှုအစုံ (ပေါင်းစပ်ဒေတာထုတ်လုပ်စဉ်အတွင်း အသုံးမပြုခဲ့သော) ကို အသုံးပြုကာ အကဲဖြတ်ကာ မူရင်းဒေတာတွင် လေ့ကျင့်ထားသည့် မော်ဒယ်ကို ပေါင်းစပ်ထားသော ဒေတာအတွဲတွင် စမ်းသပ်ထားသည်။

ပုံ 3. မျဉ်းကွေးအောက်ရှိ ဧရိယာကို ပုံဖော်ခြင်း (AUC) ရမှတ်များကို ပုံစံတစ်ခုချင်းအလိုက်၊

အထက်ဖော်ပြပါ ရလဒ်များသည် Syntho engine မှ Synthetic datageneration ၏ သာလွန်ကောင်းမွန်မှုကို သက်သေပြပြီး မတူညီသောနည်းလမ်းများမှရရှိသော ရလဒ်များကြားတွင် ကွာခြားမှုမရှိကြောင်း တွေ့ရသည် (ပေါင်းစပ်ခြင်းနှင့် အစစ်အမှန်ဒေတာအကြား မြင့်မားသောတူညီမှုဆီသို့ ညွှန်ပြသည်)။ ထို့အပြင်၊ ကွက်ကွက်တွင်ပါရှိသော အနီရောင်အစက်အပြောက်မျဉ်းသည် လေ့လာတွေ့ရှိထားသောမက်ထရစ်များအတွက် အခြေခံအချက်များကိုပံ့ပိုးပေးရန် ရထားအစစ်အမှန်စမ်းသပ်မှု (TRTR) စမ်းသပ်မှု၏ အခြေခံစွမ်းဆောင်ရည်ကို အကဲဖြတ်ခြင်းဖြင့် ရရှိသောရလဒ်ဖြစ်သည်။ ဤမျဉ်းကြောင်းသည် ဒေတာအစစ်အမှန်ကို လေ့ကျင့်သင်ကြားပြီး အစစ်အမှန်ဒေတာဖြင့် စမ်းသပ်ထားသော မော်ဒယ်မှရရှိသည့် မျဉ်းကြောင်းအောက်ရမှတ် (AUC ရမှတ်) ဖြစ်သည့် 0.92 တန်ဖိုးကို ကိုယ်စားပြုသည်။

ဇယား 3။ မော်ဒယ်အလိုက် TRTS နှင့် TSTR အသီးသီးရရှိသော AUC ရမှတ်များ၏ ဇယားကွက်များကို ကိုယ်စားပြုခြင်း။

အချိန်နှင့်အမျှ နှိုင်းယှဉ်ခြင်း။

သဘာဝအားဖြင့်၊ ဤရလဒ်များဖန်တီးရာတွင် ရင်းနှီးမြှုပ်နှံထားသည့်အချိန်ကို ထည့်သွင်းစဉ်းစားရန် အရေးကြီးပါသည်။ အောက်ဖော်ပြပါ ပုံသဏ္ဍာန်သည် ဤမျှသာဖြစ်သည်။

ပုံ 5။ လေ့ကျင့်ပြီး လုပ်ဆောင်ရန် ယူထားသော အချိန်ကို ပုံဖော်ခြင်း။ ပေါင်းစပ်ဒေတာထုတ်လုပ်ခြင်း။ GPU ပါသော၊ မပါသောမော်ဒယ်တစ်ခုပါရှိသောဒေတာမှတ်တစ်သန်း၏။

ပုံ 5 သည် မတူညီသော ဆက်တင်နှစ်ခုတွင် ပေါင်းစပ်ဒေတာထုတ်လုပ်ရန် အချိန်ယူပုံကို ဖော်ပြသည်။ ၎င်းတို့ထဲမှ ပထမဆုံး (ဤနေရာတွင် GPU မရှိပါက ရည်ညွှန်းသည်) သည် 16 GHz တွင် 2.20 cores ရှိသော Intel Xeon CPU ဖြင့် စနစ်ဖြင့် စမ်းသပ်လုပ်ဆောင်ခြင်း ဖြစ်သည်။ "GPU ဖြင့်ပြေးသည်" ဟု အမှတ်အသားပြုထားသည့် စမ်းသပ်မှုများသည် 9GHz တွင် 7945 cores ရှိသော AMD Ryzen 16 2.5HX CPU နှင့် NVIDIA GeForce RTX 4070 Laptop GPU ပါသည့် စနစ်တစ်ခုတွင်ဖြစ်သည်။ ပုံ 2 နှင့် အောက်ဖော်ပြပါ ဇယား 2 တွင် သိသာထင်ရှားသည့်အတိုင်း Syntho သည် ဒိုင်းနမစ်အလုပ်အသွားအလာတွင် အရေးပါသည့် ပေါင်းစပ်ဒေတာ (အခြေအနေနှစ်ခုလုံးတွင်) ထုတ်ပေးရာတွင် သိသိသာသာ လျင်မြန်ကြောင်း တွေ့ရှိနိုင်သည်။

ဇယား 5. ထုတ်ယူသွားသောအချိန်၏ဇယားကွက်တစ်ခု ပေါင်းစပ်ဒေတာထုတ်လုပ်ခြင်း။ မော်ဒယ်တစ်ခုစီတွင် GPU တစ်ခုစီပါရှိ/မရှိ ဒေတာမှတ်တစ်သန်းရှိသည်။

နိဂုံးချုပ် မှတ်ချက်များနှင့် အနာဂတ်လမ်းညွှန်များ

မှန်ကန်သော ပေါင်းစပ်ဒေတာထုတ်လုပ်ခြင်းနည်းလမ်းကို ရွေးချယ်ရာတွင် စေ့စေ့စပ်စပ် အရည်အသွေးအကဲဖြတ်ခြင်း၏ အရေးပါမှုကို တွေ့ရှိချက်များက အလေးပေးဖော်ပြသည်။ Syntho ၏အင်ဂျင်သည် ၎င်း၏ AI-မောင်းနှင်သည့်ချဉ်းကပ်မှုဖြင့် အချို့သော မက်ထရစ်များတွင် မှတ်သားဖွယ်ကောင်းသော အားသာချက်များကို သရုပ်ပြပြီး SDV ကဲ့သို့ open-source ကိရိယာများသည် ၎င်းတို့၏ ဘက်စုံသုံးနိုင်မှုနှင့် ရပ်ရွာအခြေပြု တိုးတက်မှုများတွင် တောက်ပနေပါသည်။

ပေါင်းစပ်ဒေတာနယ်ပယ်သည် ဆက်လက်တိုးတက်ပြောင်းလဲလာသည်နှင့်အမျှ၊ သင့်ပရောဂျက်များတွင် ဤမက်ထရစ်များကို အသုံးပြုရန်၊ ၎င်းတို့၏ ရှုပ်ထွေးမှုများကို စူးစမ်းလေ့လာရန်နှင့် သင့်အတွေ့အကြုံများကို မျှဝေရန် သင့်အား ကျွန်ုပ်တို့ တိုက်တွန်းအပ်ပါသည်။ ကျွန်ုပ်တို့သည် အခြားသော မက်ထရစ်များကို ပိုမိုနက်ရှိုင်းစွာ စေ့စေ့စပ်စပ် လေ့လာပြီး ၎င်းတို့၏ အပလီကေးရှင်း၏ လက်တွေ့ကမ္ဘာနမူနာများကို မီးမောင်းထိုးပြမည့် အနာဂတ်ပို့စ်များအတွက် စောင့်မျှော်ကြည့်ရှုပါ။

တစ်နေ့တာ၏အဆုံးတွင်၊ ပေါင်းစပ်ဒေတာဖြင့်ရေကိုစမ်းသပ်လိုသူများအတွက်၊ တင်ပြထားသော open-source အစားထိုးသည် အသုံးပြုခွင့်ပေးထားသည့် မျှတသောရွေးချယ်မှုတစ်ခုဖြစ်နိုင်သည်။ မည်သို့ပင်ဆိုစေကာမူ၊ ဤခေတ်မီနည်းပညာကို ၎င်းတို့၏ ဖွံ့ဖြိုးတိုးတက်မှုလုပ်ငန်းစဉ်တွင် ပေါင်းစပ်ထည့်သွင်းထားသော ကျွမ်းကျင်ပညာရှင်များအတွက်၊ တိုးတက်မှုအတွက် မည်သည့်အခွင့်အရေးကိုမဆို ရယူပြီး အတားအဆီးအားလုံးကို ရှောင်ရှားရမည်ဖြစ်သည်။ ထို့ကြောင့် ရရှိနိုင်သော အကောင်းဆုံးရွေးချယ်မှုကို ရွေးချယ်ရန် အရေးကြီးပါသည်။ အထက်ဖော်ပြပါ ခွဲခြမ်းစိတ်ဖြာချက်များအရ Syntho နှင့် Syntho Engine သည် လက်တွေ့သမားများအတွက် အလွန်စွမ်းဆောင်နိုင်သော tool တစ်ခုဖြစ်ကြောင်း ထင်ရှားလာပါသည်။

Syntho အကြောင်း

Syntho ပေါင်းစပ်ဖန်တီးထားသော ဒေတာထုတ်လုပ်ခြင်းဆိုင်ရာ ပလပ်ဖောင်းကို ပံ့ပိုးပေးကာ၊ ပေါင်းစပ်ဖွဲ့စည်းပုံများနှင့် ထုတ်လုပ်မှုနည်းလမ်းများစွာကို အသုံးချကာ ဒေတာများကို အပြိုင်အဆိုင်အဖြစ်သို့ ဉာဏ်ရည်ထက်မြက်စွာ ပြောင်းလဲပေးနိုင်သော အဖွဲ့အစည်းများကို စွမ်းအားမြှင့်ပေးပါသည်။ ကျွန်ုပ်တို့၏ AI မှထုတ်လုပ်ထားသော ပေါင်းစပ်ဒေတာသည် SAS ကဲ့သို့သော ပြင်ပကျွမ်းကျင်သူများ၏ အကဲဖြတ်ထားသည့်အတိုင်း တိကျမှု၊ ကိုယ်ရေးကိုယ်တာနှင့် မြန်နှုန်းတို့ကို သေချာစေသည့် မူရင်းဒေတာ၏ ကိန်းဂဏန်းဆိုင်ရာ ကိန်းဂဏန်းပုံစံများကို အတုယူပါသည်။ Smart de-identification အင်္ဂါရပ်များနှင့် တသမတ်တည်း ပုံဖော်ခြင်းဖြင့်၊ ကိုးကားမှုဆိုင်ရာ ခိုင်မာမှုကို ထိန်းသိမ်းထားစဉ်တွင် အရေးကြီးသော အချက်အလက်များကို ကာကွယ်ထားသည်။ ကျွန်ုပ်တို့၏ပလပ်ဖောင်းသည် ထုတ်လုပ်မှုမဟုတ်သောပတ်ဝန်းကျင်အတွက် စမ်းသပ်ဒေတာကို ဖန်တီးခြင်း၊ စီမံခန့်ခွဲခြင်းနှင့် ထိန်းချုပ်ခြင်း၊ ပစ်မှတ်ထားသော အခြေအနေများအတွက် စည်းကမ်းအခြေခံသော ပေါင်းစပ်ပေါင်းစပ်ဒေတာထုတ်လုပ်ခြင်းနည်းလမ်းများကို အသုံးပြုခြင်းဖြင့် လုပ်ဆောင်ပေးပါသည်။ ထို့အပြင်၊ အသုံးပြုသူများသည် ပေါင်းစပ်စမ်းသပ်မှုနှင့် ဖွံ့ဖြိုးတိုးတက်မှုအခြေအနေများကို လွယ်ကူစွာ ဖော်ဆောင်နိုင်စေရန်နှင့် လက်တွေ့ကျသော စမ်းသပ်ဒေတာကို ရယူနိုင်သည်။

ပေါင်းစပ်ဒေတာ၏ လက်တွေ့အသုံးချမှုများကို ပိုမိုလေ့လာလိုပါသလား။ အားမနာနဲ့ အချိန်ဇယားသရုပ်ပြ။

စာရေးသူအကြောင်း

Roham Koohestani

Software Engineering Intern

roham Delft University of Technology မှ ဘွဲ့လွန်ကျောင်းသားတစ်ဦးဖြစ်ပြီး Software Engineering Intern တွင် တာဝန်ထမ်းဆောင်နေသူဖြစ်သည်။ Syntho.

Mihai Anca, PhD

စက်သင်ယူအင်ဂျင်နီယာချုပ်

Mihai မှ Ph.D အောင်မြင်ခဲ့သည်။ University of Bristol သည် Robotics နှင့်သက်ဆိုင်သော Hierarchical Reinforcement Learning ခေါင်းစဉ်ဖြင့် နှင့်တစ်ဦးဖြစ်ပါတယ် Machine Learning Engineer at Syntho.

သင်၏ပေါင်းစပ်ဒေတာလမ်းညွှန်ကို ယခုသိမ်းဆည်းပါ။

synthetic data ဆိုတာဘာလဲ။
အဖွဲ့အစည်းတွေက ဘာကြောင့်သုံးတာလဲ။
ပေါင်းစပ်ဒေတာ အသုံးပြုသူကိစ္စများကို တန်ဖိုးထည့်ခြင်း။
မည်သို့စတင်ရန်

synthetic data ဆိုတာဘာလဲ။

အရည်အသွေးအာမခံချက်အစီရင်ခံစာ

SAS မှ ပြင်ပအကဲဖြတ်ခြင်း။

အချိန်စီးရီး ပေါင်းစပ်ဒေတာ

PII စကင်နာ

Synthetic Mock Data

တစ်သမတ်တည်း ပုံဖော်ခြင်း။

De-identification နှင့် synthetization

စည်းမျဥ်းအခြေခံသော Synthetic Data

subsetting

ဖြန့်ကျက်ခြင်းနှင့် ပေါင်းစပ်ခြင်း။

connectors

တိုးချဲ့အင်္ဂါရပ်များ

ပံ့ပိုးထားသောဒေတာ

အသုံးပြုသူစာရွက်စာတမ်းများ

သရုပ်ပြတစ်ခုစီစဉ်ပါ

စျေးနှုန်း

စမ်းသပ်မှုဒေတာ

analytics

ဒေတာမျှဝေခြင်း။

ထုတ်ကုန်သရုပ်ပြ

ဒေတာငွေရှာခြင်း

ကျန်းမာရေးစောင့်ရှောက်မှု

ဘဏ္ဍာရေး

ပြည်သူ့အဖွဲ့အစည်းများ

အသုံးပြုသူစာရွက်စာတမ်းများ

အဖြူရောင်စာရွက်များနှင့် လမ်းညွှန်ချက်များ

ဘ‌‌လော့ခ်

Webinars

ဖြစ်ရပ်မှန်လေ့လာရေး

စျေးနှုန်း

ကျွန်ုပ်တို့ အကြောင်း

အလုပ်အကိုင်များ

နိဒါန္း

မာတိကာ

Synthetic Data Generator တွေက ဘာတွေလဲ။

မှန်ကန်သော ပေါင်းစပ်ဒေတာထုတ်လုပ်ခြင်းနည်းလမ်းကို မည်သို့ရွေးချယ်မည်နည်း။

Synthetic Data Evaluation Metrics

နှိုင်းယှဉ်သုံးသပ်ချက်- Syntho Engine နှင့် Open-Source အခြားရွေးချယ်စရာများ

ရလဒ်များ

ဒေတာအရည်အသွေး

ဒေတာလွှမ်းခြုံမှု

utility

အချိန်နှင့်အမျှ နှိုင်းယှဉ်ခြင်း။

Syntho အကြောင်း

စာရေးသူအကြောင်း

Roham Koohestani

Software Engineering Intern

Mihai Anca, PhD

စက်သင်ယူအင်ဂျင်နီယာချုပ်

သင်၏ပေါင်းစပ်ဒေတာလမ်းညွှန်ကို ယခုသိမ်းဆည်းပါ။

main Menu

သင်၏ပေါင်းစပ်ဒေတာလမ်းညွှန်ကို ယခုသိမ်းဆည်းပါ။