Synthetic Data Generators တွင် အသုံးဝင်မှုနှင့် တူညီမှုကို အကဲဖြတ်ခြင်း- နည်းပညာဆိုင်ရာ နက်ရှိုင်းစွာ ထိုးဆင်းခြင်းနှင့် နှိုင်းယှဉ်သုံးသပ်ခြင်း

Published:
ဖေဖေါ်ဝါရီလ 27, 2024

နိဒါန္း

ယနေ့ခေတ် ဒစ်ဂျစ်တယ်ခေတ်တွင်၊ ဒေတာကိုယ်ရေးကိုယ်တာဆိုင်ရာ အသိအမြင် သိသိသာသာ တိုးမြင့်လာပါသည်။ အသုံးပြုသူများသည် ၎င်းတို့၏ဒေတာကို ထူးခြားသည့်ဒစ်ဂျစ်တယ်လက်ဗွေတစ်ခုအဖြစ် ပိုမိုအသိအမှတ်ပြုလာကာ ဒေတာဖောက်ဖျက်ခံရသည့်အခါတွင် ၎င်းတို့၏ privacy ကိုအန္တရာယ်ဖြစ်စေသည်။ ဤစိုးရိမ်မှုကို GDPR ကဲ့သို့ စည်းမျဉ်းများဖြင့် ပိုမိုချဲ့ထွင်ကာ အသုံးပြုသူများအား ၎င်းတို့၏ဒေတာကို ဖျက်ပစ်ရန် တောင်းဆိုရန် အခွင့်အာဏာပေးထားသည်။ များစွာလိုအပ်နေသော်လည်း ဒေတာဝင်ရောက်ခွင့်ကို နည်းပါးသွားသောကြောင့် ဤဥပဒေသည် ကုမ္ပဏီများအတွက် အလွန်စျေးကြီးနိုင်ပါသည်။ ကန့်သတ်ချက်များကို ကျော်လွှားရန် အချိန်နှင့် အရင်းအမြစ် သုံးစွဲလေ့ရှိသည်။ 

မာတိကာ

Synthetic Data Generator တွေက ဘာတွေလဲ။

ဤပြဿနာအတွက် ဖြေရှင်းချက်တစ်ခု၊ ပေါင်းစပ်ဒေတာကို ထည့်သွင်းပါ။ Synthetic data generators များသည် အမည်ဝှက်နှင့် လျှို့ဝှက်မှုကို ထိန်းသိမ်းထားစဉ်တွင် တကယ့်အသုံးပြုသူဒေတာကို အတုယူသည့် ဒေတာအတွဲများကို ဖန်တီးပါသည်။ ဤချဉ်းကပ်မှုသည် လျှို့ဝှက်ရေးသည် အရေးကြီးဆုံးဖြစ်သည့် ကျန်းမာရေးစောင့်ရှောက်မှုမှ ဘဏ္ဍာရေးအထိ စက်မှုလုပ်ငန်းများတွင် ဆွဲဆောင်မှုရရှိနေသည်။  

ဤပို့စ်သည် ဓာတုဒေတာဂျင်နရေတာများ၏ အကဲဖြတ်ခြင်းအပေါ် အာရုံစိုက်ကာ ဒေတာကျွမ်းကျင်သူများနှင့် ဝါသနာရှင်များအတွက် အံဝင်ခွင်ကျဖြစ်စေပါသည်။ ကျွန်ုပ်တို့သည် အဓိကကျသော မက်ထရစ်များကို စူးစမ်းလေ့လာပြီး Syntho's Engine နှင့် ၎င်း၏ open-source အခြားရွေးချယ်မှုများအကြား နှိုင်းယှဉ်ခွဲခြမ်းစိတ်ဖြာမှုပြုလုပ်ပြီး ပေါင်းစပ်ဒေတာထုတ်လုပ်ခြင်း၏ ဖြေရှင်းချက်အရည်အသွေးကို ထိရောက်စွာအကဲဖြတ်နည်းဆိုင်ရာ ထိုးထွင်းသိမြင်မှုများကို ပေးဆောင်ပါမည်။ ထို့အပြင်၊ ကျွန်ုပ်တို့သည် မော်ဒယ်များ၏ လုပ်ဆောင်မှုကို ပိုမိုထိုးထွင်းသိမြင်စေရန်အတွက် ဤမော်ဒယ်တစ်ခုစီ၏ အချိန်ကုန်ကျစရိတ်ကိုလည်း အကဲဖြတ်ပါမည်။ 

မှန်ကန်သော ပေါင်းစပ်ဒေတာထုတ်လုပ်ခြင်းနည်းလမ်းကို မည်သို့ရွေးချယ်မည်နည်း။

ပေါင်းစပ်ဒေတာထုတ်လုပ်ခြင်း၏ ကွဲပြားသောအခင်းအကျင်းတွင်၊ တစ်ခုချင်းစီသည် ၎င်း၏ထူးခြားသောစွမ်းရည်များဖြင့် အာရုံစူးစိုက်မှုရယူရန် နည်းလမ်းများစွာကို ရရှိနိုင်သည်။ အပလီကေးရှင်းတစ်ခုအတွက် အသင့်တော်ဆုံးနည်းလမ်းကို ရွေးချယ်ရာတွင် ရွေးချယ်မှုတစ်ခုစီ၏ စွမ်းဆောင်ရည်လက္ခဏာများကို စေ့စေ့စပ်စပ်နားလည်ရန် လိုအပ်သည်။ ၎င်းသည် ကောင်းစွာသတ်မှတ်ထားသော မက်ထရစ်များပေါ်တွင် အခြေခံ၍ အမျိုးမျိုးသော ပေါင်းစပ်ထားသော ဒေတာဂျင်နရေတာများကို ကျယ်ကျယ်ပြန့်ပြန့် အကဲဖြတ်ရန် လိုအပ်ပါသည်။ 

အောက်ပါအချက်သည် လူသိများသော open-source framework ဖြစ်သော Synthetic Data Vault (SDV) နှင့်အတူ Syntho Engine ၏ ပြင်းထန်သော နှိုင်းယှဉ်သုံးသပ်ချက်ဖြစ်သည်။ ဤခွဲခြမ်းစိတ်ဖြာမှုတွင်၊ ကျွန်ုပ်တို့သည် စာရင်းအင်းဆိုင်ရာ သစ္စာရှိမှု၊ ကြိုတင်ခန့်မှန်းနိုင်မှု တိကျမှုနှင့် အပြန်အလှန်ပြောင်းလဲနိုင်သော ဆက်နွယ်မှုကဲ့သို့သော အသုံးများသော မက်ထရစ်များစွာကို အသုံးပြုထားသည်။ 

Synthetic Data Evaluation Metrics

တိကျသောမက်ထရစ်ကို မမိတ်ဆက်မီ၊ Synthetic data ကို အကဲဖြတ်ခြင်းဆိုင်ရာ အယူဝါဒများစွာရှိနေကြောင်း အသိအမှတ်ပြုရမည်၊ တစ်ခုစီသည် ဒေတာအချို့၏ ရှုထောင့်တစ်ခုစီကို ထိုးထွင်းသိမြင်စေသော အရာတစ်ခုစီဖြစ်သည်။ ဤအချက်ကို စိတ်ထဲတွင် ထားခြင်းဖြင့် အောက်ပါ အမျိုးအစားသုံးမျိုးသည် အရေးကြီးပြီး ကျယ်ကျယ်ပြန့်ပြန့် သိသာထင်ရှားပါသည်။ ဤမက်ထရစ်များသည် ဒေတာအရည်အသွေး၏ ရှုထောင့်အမျိုးမျိုးကို ထိုးထွင်းသိမြင်စေပါသည်။ ဤအမျိုးအစားများမှာ- 

      1. Statistical Fidelity Metrics- ပေါင်းစပ်ဒေတာသည် မူရင်းဒေတာအတွဲ၏ စာရင်းအင်းပရိုဖိုင်နှင့် ကိုက်ညီမှုရှိစေရန် နည်းလမ်းများနှင့် ကွဲလွဲမှုများကဲ့သို့ ဒေတာများ၏ အခြေခံစာရင်းအင်းအင်္ဂါရပ်များကို ဆန်းစစ်ခြင်း။ 

        1. ကြိုတင်ခန့်မှန်းမှု တိကျမှု- ပေါင်းစပ်ဒေတာထုတ်လုပ်ခြင်းမော်ဒယ်စွမ်းဆောင်ရည်ကို ဆန်းစစ်ခြင်း၊ မူရင်းဒေတာဖြင့် လေ့ကျင့်ထားသော ပေါင်းစပ်ဒေတာ (Train Real – Test Synthetic၊ TRTS) နှင့် အပြန်အလှန်အားဖြင့် (Train Synthetic – Test Real၊ TSTR) 

          1. Inter-Variable Relationships- ဤပေါင်းစပ်အမျိုးအစားတွင်- 

            • အင်္ဂါရပ်ဆက်စပ်မှု- ပေါင်းစပ်ကိန်းဂဏန်းများကို အသုံးပြု၍ ကိန်းရှင်များကြားရှိ ဆက်စပ်မှုများကို ပေါင်းစပ်ပေါင်းစပ်ထားသော ဒေတာသည် မည်မျှကောင်းမွန်ကြောင်း ကျွန်ုပ်တို့ အကဲဖြတ်ပါသည်။ Propensity Mean Squared Error (PMSE) ကဲ့သို့ လူသိများသော မက်ထရစ်သည် ဤအမျိုးအစားဖြစ်သည်။ 

            • အပြန်အလှန်အချက်အလက်များ- ဆက်စပ်မှုများကို ကျော်လွန်၍ ဤဆက်ဆံရေးများ၏ အတိမ်အနက်ကို နားလည်ရန် ကိန်းရှင်များကြား အပြန်အလှန်မှီခိုမှုကို တိုင်းတာပါသည်။ 

          နှိုင်းယှဉ်သုံးသပ်ချက်- Syntho Engine နှင့် Open-Source အခြားရွေးချယ်စရာများ

          နှိုင်းယှဉ်ခွဲခြမ်းစိတ်ဖြာမှုအား Syntho Engine နှင့် SDV မော်ဒယ်များအပါအဝင် မော်ဒယ်များအားလုံးတွင် စံသတ်မှတ်ထားသော အကဲဖြတ်မူဘောင်နှင့် ထပ်တူစမ်းသပ်မှုနည်းပညာများကို အသုံးပြု၍ ပြုလုပ်ခဲ့ပါသည်။ တူညီသောရင်းမြစ်များမှ ဒေတာအတွဲများကို ပေါင်းစပ်ပြီး တူညီသော ကိန်းဂဏန်းစမ်းသပ်မှုများနှင့် စက်သင်ယူမှုပုံစံ အကဲဖြတ်မှုများတွင် ၎င်းတို့ကို မျှတပြီး ဘက်မလိုက်ဘဲ နှိုင်းယှဉ်မှုကို သေချာစေသည်။ အောက်တွင်ဖော်ပြထားသော ကဏ္ဍသည် အထက်ဖော်ပြပါ မက်ထရစ်များ၏ အကွာအဝေးတစ်လျှောက် ပေါင်းစပ်ထားသော ဒေတာဂျင်နရေတာတစ်ခုစီ၏ စွမ်းဆောင်ရည်ကို အသေးစိတ်ဖော်ပြထားသည်။  

           

          အကဲဖြတ်ရန်အတွက် အသုံးပြုသည့် ဒေတာအတွဲအတွက်၊ UCI အရွယ်ရောက်ပြီးသူ၏ သန်းခေါင်စာရင်းဒေတာအတွဲ ၎င်းသည် machine learning community တွင် လူသိများသော dataset တစ်ခုဖြစ်သည်။ လေ့ကျင့်မှုအားလုံးမတိုင်မီ ကျွန်ုပ်တို့သည် ဒေတာကို သန့်စင်ပြီးနောက် ဒေတာအတွဲကို နှစ်စုံခွဲ (စမ်းသပ်ရန်အတွက် လေ့ကျင့်မှုတစ်ခုနှင့် ခေတ္တရပ်နားထားမှုတစ်ခု)။ မော်ဒယ်တစ်ခုစီနှင့် ဒေတာအမှတ်အသစ် 1 သန်းကို ထုတ်လုပ်ရန် လေ့ကျင့်ရေးကို အသုံးပြုပြီး ဤထုတ်လုပ်လိုက်သော ဒေတာအတွဲများတွင် မက်ထရစ်အမျိုးမျိုးကို အကဲဖြတ်ပါသည်။ နောက်ထပ် စက်သင်ယူမှု အကဲဖြတ်ခြင်းများအတွက် TSTR နှင့် TRTS နှင့် ဆက်စပ်သော မက်ထရစ်များကဲ့သို့သော မက်ထရစ်များကို အကဲဖြတ်ရန် သတ်မှတ်ထားသော ကန့်သတ်ချက်ကို ကျွန်ုပ်တို့ အသုံးပြုခဲ့သည်။  

           

          ဂျင်နရေတာတစ်ခုစီကို ပုံသေသတ်မှတ်ချက်များဖြင့် လုပ်ဆောင်ခဲ့သည်။ Syntho ကဲ့သို့ အချို့သော မော်ဒယ်များသည် မည်သည့် tabular data တွင်မဆို ကောင်းမွန်စွာ ချိန်ညှိခြင်း မပြုလုပ်နိုင်ခဲ့ပါ။ မော်ဒယ်တစ်ခုစီအတွက် မှန်ကန်သော ဟိုက်ပါပါရာမီတာများကို ရှာဖွေခြင်းသည် အချိန်များစွာကြာမည်ဖြစ်ပြီး ဇယား 2 သည် Syntho ၏ မော်ဒယ်နှင့် စမ်းသပ်ထားသည့်အရာများအကြား ကြီးမားသောအချိန်ကွာခြားမှုကို ပြသထားပြီးဖြစ်သည်။ 

           

          SDV ရှိ အခြားသော မော်ဒယ်များနှင့် ဆန့်ကျင်ဘက်အနေဖြင့် Gaussian Copula Synthesizer သည် ကိန်းဂဏန်းဆိုင်ရာ နည်းစနစ်များကို အခြေခံထားသည်။ ဆန့်ကျင်ဘက်အနေနှင့်၊ ကျန်များသည် Generative Adversarial Networks (GAN) မော်ဒယ်များနှင့် ကွဲပြားသော အလိုအလျောက် ကုဒ်နံပါတ်များကဲ့သို့သော အာရုံကြောကွန်ရက်များကို အခြေခံထားသည်။ ထို့ကြောင့် Gaussian Copula သည် ဆွေးနွေးထားသော မော်ဒယ်များအားလုံးအတွက် အခြေခံအချက်အဖြစ် မြင်နိုင်ပါသည်။ 

          ရလဒ်များ

          ဒေတာအရည်အသွေး

          ပုံ ၁။ မော်ဒယ်အားလုံးအတွက် အခြေခံအရည်အသွေးရလဒ်များကို မြင်ယောင်ခြင်း။

          ဒေတာပါ၀င်သော ခေတ်ရေစီးကြောင်းနှင့် ကိုယ်စားပြုမှုများအပေါ် ယခင်ဆွေးနွေးထားသော လိုက်နာမှုအား ပုံ 1 နှင့် ဇယား 1 တွင် တွေ့ရှိနိုင်ပါသည်။ ဤနေရာတွင်၊ အသုံးပြုနေသည့် မက်ထရစ်တစ်ခုစီကို အောက်ပါအတိုင်း အဓိပ္ပာယ်ဖွင့်ဆိုနိုင်သည်-

          • ယေဘုယျ အရည်အသွေးရမှတ်- ကိန်းဂဏန်းဆိုင်ရာ တူညီမှုနှင့် ဒေတာလက္ခဏာများကဲ့သို့ အမျိုးမျိုးသော ရှုထောင့်များကို ပေါင်းစပ်ထားသော ပေါင်းစပ်ပေါင်းစပ်ထားသော ပေါင်းစပ်ဒေတာ၏ အရည်အသွေးကို ခြုံငုံသုံးသပ်ခြင်း။ 
          • ကော်လံပုံသဏ္ဍာန်များ- ပေါင်းစပ်ဒေတာသည် ကော်လံတစ်ခုစီအတွက် ဒေတာအစစ်အမှန်ကဲ့သို့ တူညီသောဖြန့်ဝေမှုပုံစံကို ထိန်းသိမ်းထားခြင်းရှိမရှိ အကဲဖြတ်ပါ။ 
          • Column Pair Trends- အစစ်အမှန်ဒေတာနှင့် နှိုင်းယှဉ်ထားသော ပေါင်းစပ်ဒေတာရှိ ကော်လံအတွဲများကြား ဆက်ဆံရေး သို့မဟုတ် ဆက်စပ်မှုများကို အကဲဖြတ်သည်။ 
          •  

          ယေဘုယျအားဖြင့် Syntho သည် ဘုတ်အဖွဲ့တစ်လျှောက် အလွန်မြင့်မားသောရမှတ်များရရှိသည်ကို သတိပြုမိနိုင်ပါသည်။ အစပိုင်းတွင်၊ အလုံးစုံဒေတာအရည်အသွေးကိုကြည့်သောအခါ (SDV မက်ထရစ်များစာကြည့်တိုက်ဖြင့် အကဲဖြတ်သည်) Syntho သည် ရလဒ် 99% အထက်ကို ရရှိနိုင်သည် (ကော်လံပုံသဏ္ဍာန် 99.92% နှင့် ကော်လံအတွဲပုံသဏ္ဍာန် လိုက်နာမှု 99.31%)။ SDV သည် အများဆုံး 90.84% ​​၏ ရလဒ်ကို ရရှိနေချိန်တွင် (Gaussian Copula နှင့်အတူ၊ ကော်လံပုံသဏ္ဍာန် 93.82% နှင့် ကော်လံအတွဲပုံသဏ္ဍာန် လိုက်နာမှု 87.86%) တို့ရှိသည်။ 

          မော်ဒယ်တစ်ခုစီအတွက် ထုတ်လုပ်လိုက်သော dataset တစ်ခုစီ၏ အရည်အသွေးရမှတ်များကို ဇယားကွက် ကိုယ်စားပြုခြင်း။

          ဇယား 1. မော်ဒယ်တစ်ခုစီအတွက် ထုတ်လုပ်လိုက်သော dataset တစ်ခုစီ၏ အရည်အသွေးရမှတ်များကို ဇယားကွက် ကိုယ်စားပြုခြင်း။ 

          ဒေတာလွှမ်းခြုံမှု

          SDV ၏ Diagnosis Report module သည် SDV မှထုတ်ပေးသောဒေတာ (ကိစ္စရပ်တိုင်းတွင်) ကိန်းဂဏာန်းအပိုင်းအခြားများ၏ 10% ထက်ပို၍ ပျောက်ဆုံးနေကြောင်း ကျွန်ုပ်တို့အာရုံစိုက်လာစေသည်။ Triplet-Based Variational Autoencoder (TVAE) တွင်၊ မူရင်းဒေတာအတွဲနှင့် နှိုင်းယှဉ်ပါက တူညီသော အမျိုးအစားအလိုက် ဒေတာပမာဏလည်း ပျောက်ဆုံးနေပါသည်။ Syntho ကို အသုံးပြု၍ ရရှိသော ရလဒ်များဖြင့် ယင်းသတိပေးချက်များကို မထုတ်ပေးပါ။  

          မော်ဒယ်အားလုံးအတွက် ပျမ်းမျှ ကော်လံအလိုက် စွမ်းဆောင်ရည် မက်ထရစ်များကို ပုံဖော်ခြင်း။
           
           

          ပုံ 2. မော်ဒယ်အားလုံးအတွက် ပျမ်းမျှကော်လံအလိုက် စွမ်းဆောင်ရည်မက်ထရစ်များကို ပုံဖော်ခြင်း။ 

          နှိုင်းယှဉ်ခွဲခြမ်းစိတ်ဖြာမှုတွင်၊ ပုံ 2 ၏ကွက်ကွက်သည် SDV သည် ၎င်းတို့၏မော်ဒယ်အချို့နှင့် အမျိုးအစားလွှမ်းခြုံမှုတွင် အနည်းငယ်သာလွန်ကောင်းမွန်သောရလဒ်များ (GaussianCopula၊ CopulaGAN၊ နှင့် Conditional Tabular GAN – CTGAN) တို့ကို သရုပ်ဖော်သည်။ မည်သို့ပင်ဆိုစေကာမူ၊ Syntho ၏ ဒေတာများ၏ ယုံကြည်စိတ်ချရမှုသည် အမျိုးအစားများနှင့် အပိုင်းအခြားများတစ်လျှောက် လွှမ်းခြုံမှုကွာဟချက်အနည်းငယ်သာဖြစ်ပြီး 1.1% ကွဲပြားမှုကို ပြသသောကြောင့် SDV မော်ဒယ်များထက် သာလွန်ကြောင်း မီးမောင်းထိုးပြရန် အရေးကြီးပါသည်။ ဆန့်ကျင်ဘက်အားဖြင့်၊ SDV မော်ဒယ်များသည် 14.6% မှ 29.2% အထိ သိသိသာသာ ပြောင်းလဲမှုကို သရုပ်ပြသည်။ 

           

          ဤနေရာတွင် ကိုယ်စားပြုမက်ထရစ်များကို အောက်ပါအတိုင်း အဓိပ္ပာယ်ဖွင့်ဆိုနိုင်ပါသည်။ 

          • အမျိုးအစား လွှမ်းခြုံမှု- အစစ်အမှန်ဒေတာနှင့် နှိုင်းယှဉ်ပြီး ပေါင်းစပ်ထားသော ဒေတာတွင် အမျိုးအစားအားလုံး၏ ပါဝင်မှုကို တိုင်းတာသည်။
          • အပိုင်းအခြား လွှမ်းခြုံမှု- ပေါင်းစပ်ဒေတာရှိ တန်ဖိုးများ၏ အကွာအဝေးသည် ဒေတာအစစ်အမှန်တွင် မည်မျှကိုက်ညီကြောင်း အကဲဖြတ်သည်။ 
          မော်ဒယ်တစ်ခုစီအတွက် ပေးထားသော attribute အမျိုးအစားတစ်ခု၏ ပျမ်းမျှလွှမ်းခြုံမှုကို ဇယားကွက် ကိုယ်စားပြုခြင်း။

          ဇယား 2။ မော်ဒယ်တစ်ခုစီအတွက် ပေးထားသော attribute အမျိုးအစားတစ်ခု၏ ပျမ်းမျှလွှမ်းခြုံမှုကို ဇယားကွက် ကိုယ်စားပြုခြင်း။ 

          utility

          Synthetic Data ၏ အသုံးဝင်မှု ခေါင်းစဉ်သို့ ရွေ့လျားလာရာ ဒေတာဆိုင်ရာ လေ့ကျင့်ရေး မော်ဒယ်များ၏ ကိစ္စသည် သက်ဆိုင်ရာ ဖြစ်လာပါသည်။ မူဘောင်အားလုံးအကြား မျှတပြီး နှိုင်းယှဉ်မှုတစ်ခုရှိရန် ကျွန်ုပ်တို့သည် SciKit Learn စာကြည့်တိုက်မှ မူရင်း Gradient Boosting Classifier ကို ရွေးချယ်ခဲ့ပြီး၊ ၎င်းကို ကွက်လပ်ပြင်ပ ဆက်တင်များနှင့်အတူ ကောင်းမွန်စွာလုပ်ဆောင်နိုင်သော မော်ဒယ်အဖြစ် မျှမျှတတ လက်ခံထားသောကြောင့် ဖြစ်သည်။  

           

          မတူညီသော မော်ဒယ်နှစ်ခုကို လေ့ကျင့်သင်ကြားထားပြီး၊ တစ်ခုသည် ပေါင်းစပ်ဒေတာ (TSTR အတွက်) နှင့် တစ်ခုသည် မူရင်းဒေတာ (TRTS အတွက်) ဖြစ်သည်။ ပေါင်းစပ်ဒေတာတွင် လေ့ကျင့်သင်ကြားထားသည့် မော်ဒယ်ကို သိမ်းဆည်းထားသော စမ်းသပ်မှုအစုံ (ပေါင်းစပ်ဒေတာထုတ်လုပ်စဉ်အတွင်း အသုံးမပြုခဲ့သော) ကို အသုံးပြုကာ အကဲဖြတ်ကာ မူရင်းဒေတာတွင် လေ့ကျင့်ထားသည့် မော်ဒယ်ကို ပေါင်းစပ်ထားသော ဒေတာအတွဲတွင် စမ်းသပ်ထားသည်။  

          ပုံစံတစ်ခုအတွက် နည်းလမ်းတစ်ခုစီအတွက် ဧရိယာ Curve (AUC) ရမှတ်များကို ပုံဖော်ခြင်း။

          ပုံ 3. မျဉ်းကွေးအောက်ရှိ ဧရိယာကို ပုံဖော်ခြင်း (AUC) ရမှတ်များကို ပုံစံတစ်ခုချင်းအလိုက်၊ 

           အထက်ဖော်ပြပါ ရလဒ်များသည် Syntho engine မှ Synthetic datageneration ၏ သာလွန်ကောင်းမွန်မှုကို သက်သေပြပြီး မတူညီသောနည်းလမ်းများမှရရှိသော ရလဒ်များကြားတွင် ကွာခြားမှုမရှိကြောင်း တွေ့ရသည် (ပေါင်းစပ်ခြင်းနှင့် အစစ်အမှန်ဒေတာအကြား မြင့်မားသောတူညီမှုဆီသို့ ညွှန်ပြသည်)။ ထို့အပြင်၊ ကွက်ကွက်တွင်ပါရှိသော အနီရောင်အစက်အပြောက်မျဉ်းသည် လေ့လာတွေ့ရှိထားသောမက်ထရစ်များအတွက် အခြေခံအချက်များကိုပံ့ပိုးပေးရန် ရထားအစစ်အမှန်စမ်းသပ်မှု (TRTR) စမ်းသပ်မှု၏ အခြေခံစွမ်းဆောင်ရည်ကို အကဲဖြတ်ခြင်းဖြင့် ရရှိသောရလဒ်ဖြစ်သည်။ ဤမျဉ်းကြောင်းသည် ဒေတာအစစ်အမှန်ကို လေ့ကျင့်သင်ကြားပြီး အစစ်အမှန်ဒေတာဖြင့် စမ်းသပ်ထားသော မော်ဒယ်မှရရှိသည့် မျဉ်းကြောင်းအောက်ရမှတ် (AUC ရမှတ်) ဖြစ်သည့် 0.92 တန်ဖိုးကို ကိုယ်စားပြုသည်။ 

          မော်ဒယ်အလိုက် TRTS နှင့် TSTR အသီးသီးရရှိသော AUC ရမှတ်များ၏ ဇယားကွက်များကို ကိုယ်စားပြုခြင်း။

          ဇယား 3။ မော်ဒယ်အလိုက် TRTS နှင့် TSTR အသီးသီးရရှိသော AUC ရမှတ်များ၏ ဇယားကွက်များကို ကိုယ်စားပြုခြင်း။ 

          အချိန်နှင့်အမျှ နှိုင်းယှဉ်ခြင်း။

          သဘာဝအားဖြင့်၊ ဤရလဒ်များဖန်တီးရာတွင် ရင်းနှီးမြှုပ်နှံထားသည့်အချိန်ကို ထည့်သွင်းစဉ်းစားရန် အရေးကြီးပါသည်။ အောက်ဖော်ပြပါ ပုံသဏ္ဍာန်သည် ဤမျှသာဖြစ်သည်။

          GPU ပါရှိ/မရှိ ပုံစံဖြင့် ဒေတာမှတ်တစ်သန်း၏ ပေါင်းစပ်ဒေတာထုတ်လုပ်ခြင်းကို လေ့ကျင့်ရန်နှင့် လုပ်ဆောင်ရန် အချိန်ကို ပုံဖော်ခြင်း။

          ပုံ 5။ လေ့ကျင့်ပြီး လုပ်ဆောင်ရန် ယူထားသော အချိန်ကို ပုံဖော်ခြင်း။ ပေါင်းစပ်ဒေတာထုတ်လုပ်ခြင်း။ GPU ပါသော၊ မပါသောမော်ဒယ်တစ်ခုပါရှိသောဒေတာမှတ်တစ်သန်း၏။ 

          ပုံ 5 သည် မတူညီသော ဆက်တင်နှစ်ခုတွင် ပေါင်းစပ်ဒေတာထုတ်လုပ်ရန် အချိန်ယူပုံကို ဖော်ပြသည်။ ၎င်းတို့ထဲမှ ပထမဆုံး (ဤနေရာတွင် GPU မရှိပါက ရည်ညွှန်းသည်) သည် 16 GHz တွင် 2.20 cores ရှိသော Intel Xeon CPU ဖြင့် စနစ်ဖြင့် စမ်းသပ်လုပ်ဆောင်ခြင်း ဖြစ်သည်။ "GPU ဖြင့်ပြေးသည်" ဟု အမှတ်အသားပြုထားသည့် စမ်းသပ်မှုများသည် 9GHz တွင် 7945 cores ရှိသော AMD Ryzen 16 2.5HX CPU နှင့် NVIDIA GeForce RTX 4070 Laptop GPU ပါသည့် စနစ်တစ်ခုတွင်ဖြစ်သည်။ ပုံ 2 နှင့် အောက်ဖော်ပြပါ ဇယား 2 တွင် သိသာထင်ရှားသည့်အတိုင်း Syntho သည် ဒိုင်းနမစ်အလုပ်အသွားအလာတွင် အရေးပါသည့် ပေါင်းစပ်ဒေတာ (အခြေအနေနှစ်ခုလုံးတွင်) ထုတ်ပေးရာတွင် သိသိသာသာ လျင်မြန်ကြောင်း တွေ့ရှိနိုင်သည်။ 

          မော်ဒယ်တစ်ခုစီနှင့် GPU မပါဘဲ ဒေတာအမှတ် ၁ သန်း၏ ပေါင်းစပ်ဒေတာထုတ်လုပ်ခြင်းအတွက် အချိန်ကို သရုပ်ဖော်သည့် ဇယား

          ဇယား 5. ထုတ်ယူသွားသောအချိန်၏ဇယားကွက်တစ်ခု ပေါင်းစပ်ဒေတာထုတ်လုပ်ခြင်း။ မော်ဒယ်တစ်ခုစီတွင် GPU တစ်ခုစီပါရှိ/မရှိ ဒေတာမှတ်တစ်သန်းရှိသည်။ 

          နိဂုံးချုပ် မှတ်ချက်များနှင့် အနာဂတ်လမ်းညွှန်များ 

          မှန်ကန်သော ပေါင်းစပ်ဒေတာထုတ်လုပ်ခြင်းနည်းလမ်းကို ရွေးချယ်ရာတွင် စေ့စေ့စပ်စပ် အရည်အသွေးအကဲဖြတ်ခြင်း၏ အရေးပါမှုကို တွေ့ရှိချက်များက အလေးပေးဖော်ပြသည်။ Syntho ၏အင်ဂျင်သည် ၎င်း၏ AI-မောင်းနှင်သည့်ချဉ်းကပ်မှုဖြင့် အချို့သော မက်ထရစ်များတွင် မှတ်သားဖွယ်ကောင်းသော အားသာချက်များကို သရုပ်ပြပြီး SDV ကဲ့သို့ open-source ကိရိယာများသည် ၎င်းတို့၏ ဘက်စုံသုံးနိုင်မှုနှင့် ရပ်ရွာအခြေပြု တိုးတက်မှုများတွင် တောက်ပနေပါသည်။ 

          ပေါင်းစပ်ဒေတာနယ်ပယ်သည် ဆက်လက်တိုးတက်ပြောင်းလဲလာသည်နှင့်အမျှ၊ သင့်ပရောဂျက်များတွင် ဤမက်ထရစ်များကို အသုံးပြုရန်၊ ၎င်းတို့၏ ရှုပ်ထွေးမှုများကို စူးစမ်းလေ့လာရန်နှင့် သင့်အတွေ့အကြုံများကို မျှဝေရန် သင့်အား ကျွန်ုပ်တို့ တိုက်တွန်းအပ်ပါသည်။ ကျွန်ုပ်တို့သည် အခြားသော မက်ထရစ်များကို ပိုမိုနက်ရှိုင်းစွာ စေ့စေ့စပ်စပ် လေ့လာပြီး ၎င်းတို့၏ အပလီကေးရှင်း၏ လက်တွေ့ကမ္ဘာနမူနာများကို မီးမောင်းထိုးပြမည့် အနာဂတ်ပို့စ်များအတွက် စောင့်မျှော်ကြည့်ရှုပါ။ 

          တစ်နေ့တာ၏အဆုံးတွင်၊ ပေါင်းစပ်ဒေတာဖြင့်ရေကိုစမ်းသပ်လိုသူများအတွက်၊ တင်ပြထားသော open-source အစားထိုးသည် အသုံးပြုခွင့်ပေးထားသည့် မျှတသောရွေးချယ်မှုတစ်ခုဖြစ်နိုင်သည်။ မည်သို့ပင်ဆိုစေကာမူ၊ ဤခေတ်မီနည်းပညာကို ၎င်းတို့၏ ဖွံ့ဖြိုးတိုးတက်မှုလုပ်ငန်းစဉ်တွင် ပေါင်းစပ်ထည့်သွင်းထားသော ကျွမ်းကျင်ပညာရှင်များအတွက်၊ တိုးတက်မှုအတွက် မည်သည့်အခွင့်အရေးကိုမဆို ရယူပြီး အတားအဆီးအားလုံးကို ရှောင်ရှားရမည်ဖြစ်သည်။ ထို့ကြောင့် ရရှိနိုင်သော အကောင်းဆုံးရွေးချယ်မှုကို ရွေးချယ်ရန် အရေးကြီးပါသည်။ အထက်ဖော်ပြပါ ခွဲခြမ်းစိတ်ဖြာချက်များအရ Syntho နှင့် Syntho Engine သည် လက်တွေ့သမားများအတွက် အလွန်စွမ်းဆောင်နိုင်သော tool တစ်ခုဖြစ်ကြောင်း ထင်ရှားလာပါသည်။ 

          Syntho အကြောင်း

          Syntho ပေါင်းစပ်ဖန်တီးထားသော ဒေတာထုတ်လုပ်ခြင်းဆိုင်ရာ ပလပ်ဖောင်းကို ပံ့ပိုးပေးကာ၊ ပေါင်းစပ်ဖွဲ့စည်းပုံများနှင့် ထုတ်လုပ်မှုနည်းလမ်းများစွာကို အသုံးချကာ ဒေတာများကို အပြိုင်အဆိုင်အဖြစ်သို့ ဉာဏ်ရည်ထက်မြက်စွာ ပြောင်းလဲပေးနိုင်သော အဖွဲ့အစည်းများကို စွမ်းအားမြှင့်ပေးပါသည်။ ကျွန်ုပ်တို့၏ AI မှထုတ်လုပ်ထားသော ပေါင်းစပ်ဒေတာသည် SAS ကဲ့သို့သော ပြင်ပကျွမ်းကျင်သူများ၏ အကဲဖြတ်ထားသည့်အတိုင်း တိကျမှု၊ ကိုယ်ရေးကိုယ်တာနှင့် မြန်နှုန်းတို့ကို သေချာစေသည့် မူရင်းဒေတာ၏ ကိန်းဂဏန်းဆိုင်ရာ ကိန်းဂဏန်းပုံစံများကို အတုယူပါသည်။ Smart de-identification အင်္ဂါရပ်များနှင့် တသမတ်တည်း ပုံဖော်ခြင်းဖြင့်၊ ကိုးကားမှုဆိုင်ရာ ခိုင်မာမှုကို ထိန်းသိမ်းထားစဉ်တွင် အရေးကြီးသော အချက်အလက်များကို ကာကွယ်ထားသည်။ ကျွန်ုပ်တို့၏ပလပ်ဖောင်းသည် ထုတ်လုပ်မှုမဟုတ်သောပတ်ဝန်းကျင်အတွက် စမ်းသပ်ဒေတာကို ဖန်တီးခြင်း၊ စီမံခန့်ခွဲခြင်းနှင့် ထိန်းချုပ်ခြင်း၊ ပစ်မှတ်ထားသော အခြေအနေများအတွက် စည်းကမ်းအခြေခံသော ပေါင်းစပ်ပေါင်းစပ်ဒေတာထုတ်လုပ်ခြင်းနည်းလမ်းများကို အသုံးပြုခြင်းဖြင့် လုပ်ဆောင်ပေးပါသည်။ ထို့အပြင်၊ အသုံးပြုသူများသည် ပေါင်းစပ်စမ်းသပ်မှုနှင့် ဖွံ့ဖြိုးတိုးတက်မှုအခြေအနေများကို လွယ်ကူစွာ ဖော်ဆောင်နိုင်စေရန်နှင့် လက်တွေ့ကျသော စမ်းသပ်ဒေတာကို ရယူနိုင်သည်။  

          ပေါင်းစပ်ဒေတာ၏ လက်တွေ့အသုံးချမှုများကို ပိုမိုလေ့လာလိုပါသလား။ အားမနာနဲ့ အချိန်ဇယားသရုပ်ပြ။

          စာရေးသူအကြောင်း

          Software Engineering Intern

          roham Delft University of Technology မှ ဘွဲ့လွန်ကျောင်းသားတစ်ဦးဖြစ်ပြီး Software Engineering Intern တွင် တာဝန်ထမ်းဆောင်နေသူဖြစ်သည်။ Syntho 

          စက်သင်ယူအင်ဂျင်နီယာချုပ်

          Mihai မှ Ph.D အောင်မြင်ခဲ့သည်။ University of Bristol သည် Robotics နှင့်သက်ဆိုင်သော Hierarchical Reinforcement Learning ခေါင်းစဉ်ဖြင့် နှင့်တစ်ဦးဖြစ်ပါတယ် Machine Learning Engineer at Syntho. 

          syntho လမ်းညွှန်အဖုံး

          သင်၏ပေါင်းစပ်ဒေတာလမ်းညွှန်ကို ယခုသိမ်းဆည်းပါ။