အမည်မသိဒေတာနှင့် ပေါင်းစပ်ထားသောဒေတာ

ဒေတာခွဲခြမ်းစိတ်ဖြာမှုဆိုင်ရာ ဒေတာစမ်းသပ်ခြင်း မလုပ်ဆောင်မီ သင့်ဒေတာကို အမည်ဝှက်မထားပါက၊ ကစားရာတွင် အချက်များစွာ ရှိသည်-

  1. နေရာတိုင်းနီးပါးတွင်၊ သီးခြားအတန်းများ (ဥပမာ ဆေးဘက်ဆိုင်ရာမှတ်တမ်းများ) ကြောင့် လူတစ်ဦးချင်းစီထံ အမည်ဝှက်ထားနိုင်ဆဲဖြစ်သည်
  2. အမည်ဝှက်ထားခြင်း သို့မဟုတ် ယေဘုယျဖော်ပြလေလေ၊ ဒေတာများ ဖျက်ဆီးလေလေဖြစ်သည်။ ၎င်းသည် သင့်ဒေတာအရည်အသွေးကို နိမ့်ကျစေပြီး သင်၏ထိုးထွင်းသိမြင်နိုင်စွမ်းကို ကျဆင်းစေသည်။
  3. အမည်ဝှက်ထားခြင်းသည် မတူညီသောဒေတာဖော်မတ်များအတွက် ကွဲပြားစွာအလုပ်လုပ်သည်။ ဆိုလိုသည်မှာ ၎င်းသည် အရွယ်မပြောင်းနိုင်သည့်အပြင် အလွန်အချိန်ကုန်နိုင်သည်။

ပေါင်းစပ်ဒေတာသည် ဤချို့ယွင်းချက်များနှင့် အခြားအရာအားလုံးကို ဖြေရှင်းပေးသည်။ SAS (ခွဲခြမ်းစိတ်ဖြာမှုဆိုင်ရာ ကမ္ဘာ့စျေးကွက်ခေါင်းဆောင်) မှ ခွဲခြမ်းစိတ်ဖြာမှုကျွမ်းကျင်သူတစ်ဦးမှ မူရင်းဒေတာ၊ အမည်ဝှက်ထားသော ဒေတာနှင့် Syntho မှထုတ်လုပ်သည့် ပေါင်းစပ်ဒေတာတို့ကြား အရည်အသွေးကွာခြားမှုအပေါ် ၎င်း၏အကဲဖြတ်ချက်နှင့်ပတ်သက်၍ ၎င်း၏အကဲဖြတ်ချက်ကို အောက်ပါဗီဒီယိုကိုကြည့်ပါ။

ဤဗီဒီယိုကို Syntho x SAS D[N]A Café မှ AI Generated Synthetic Data အကြောင်း ရိုက်ကူးထားသည်။ ဗီဒီယိုအပြည့်အစုံကို ဤနေရာတွင် ရှာပါ။

Edwin van Unen သည် Syntho သို့ မူရင်းဒေတာအစုံကို ပေးပို့ခဲ့ပြီး ဒေတာအတွဲကို ပေါင်းစပ်ထားပါသည်။ ဒါပေမယ့်လည်း မေးခွန်းက “ပေါင်းစပ်ဒေတာကို အမည်မသိဒေတာနဲ့ နှိုင်းယှဉ်ရင် ဘာဖြစ်မလဲ။” အမည်မသိဒေတာတစ်ခုတွင် အချက်အလက်အများအပြား ဆုံးရှုံးသွားသောကြောင့်၊ ဒေတာအတွဲတစ်ခုကို ပေါင်းစပ်လုပ်ဆောင်သည့်အခါတွင်လည်း ထိုသို့ဖြစ်လာနိုင်ပါသလား။ အတန်းပေါင်း 56.000 နှင့် ကုမ္ပဏီအချက်အလက် ကော်လံ 128 ခုဖြင့် ဆက်သွယ်ရေး လုပ်ငန်းမှ ဒေတာအတွဲတစ်ခုဖြင့် စတင်ခဲ့ပါသည်။ ဤဒေတာအတွဲကို ပေါင်းစပ်ဖန်တီးထားပြီး အမည်ဝှက်ဖြင့် ပေါင်းစပ်ထားသောကြောင့် Edwin သည် ပေါင်းစပ်ဖွဲ့စည်းမှုကို အမည်ဝှက်ဖြင့် နှိုင်းယှဉ်နိုင်သည်။ ထို့နောက် Edwin သည် SAS Viya ကိုအသုံးပြု၍ မော်ဒယ်လ်စတင်ခဲ့သည်။ မူရင်းဒေတာအတွဲတွင် ဂန္တဝင်နောက်ပြန်ဆုတ်ခြင်းနည်းပညာများနှင့် ဆုံးဖြတ်ချက်သစ်ပင်များကို အသုံးပြုကာ အာရုံကြောကွန်ရက်များ၊ gradient မြှင့်တင်ခြင်း၊ ကျပန်းသစ်တောများကဲ့သို့သော ပိုမိုခေတ်မီသောနည်းပညာများကို အသုံးပြု၍ မူရင်းဒေတာအတွဲပေါ်တွင် လှည့်ပတ်ပုံစံအချို့ကို တည်ဆောက်ခဲ့သည်။ မော်ဒယ်များကို တည်ဆောက်ရာတွင် စံ SAS Viya ရွေးချယ်မှုများကို အသုံးပြုခြင်း။

ထို့နောက် ရလဒ်များကို ကြည့်ရန် အချိန်တန်ပြီ။ ရလဒ်များသည် အမည်ဝှက်ခြင်းအတွက်မဟုတ်ဘဲ ပေါင်းစပ်ထားသောဒေတာအတွက် အလွန်အလားအလာကောင်းပါသည်။ ပရိသတ်ရှိ စက်မရှိသော သင်ကြားရေး ကျွမ်းကျင်သူများအတွက်၊ မော်ဒယ်၏ တိကျမှုနှင့်ပတ်သက်၍ တစ်စုံတစ်ရာပြောပြသည့် ROC-curve အောက်ရှိ ဧရိယာကို ကျွန်ုပ်တို့ ကြည့်ရှုပါသည်။ မူရင်းဒေတာကို အမည်မသိဒေတာနှင့် နှိုင်းယှဉ်ကြည့်ပါက မူရင်းဒေတာမော်ဒယ်တွင် ROC-curve ၏ .8 အောက်တွင် ဧရိယာရှိသည်၊ အလွန်ကောင်းမွန်သည်၊ သို့သော်၊ အမည်မသိဒေတာတွင် ROC-မျဉ်းကွေး၏ .6 အောက်တွင် ဧရိယာတစ်ခုရှိသည်ကို ကျွန်ုပ်တို့တွေ့မြင်ရပါသည်။ ဆိုလိုသည်မှာ ကျွန်ုပ်တို့သည် အမည်မသိမော်ဒယ်ဖြင့် အချက်အလက်များစွာ ဆုံးရှုံးသွားသောကြောင့် သင်ခန့်မှန်းနိုင်စွမ်းအားများစွာ ဆုံးရှုံးသွားပါသည်။

ဒါပေမယ့် မေးစရာက Synthetics Data နဲ့ ပတ်သက်ပြီးတော့ ဘာလဲ? ဤတွင်၊ ကျွန်ုပ်တို့သည် အတိအကျတူညီသော်လည်း ဒေတာကို အမည်ဝှက်ထားမည့်အစား Syntho သည် ဒေတာကို ပေါင်းစပ်ထားသည်။ ယခုအခါ၊ မူရင်းဒေတာနှင့် ပေါင်းစပ်ဒေတာ နှစ်ခုစလုံးတွင် ROC-curve ၏ .8 အောက်တွင် ဧရိယာတစ်ခုရှိသည်၊ အလွန်ဆင်တူသည်။ ကွဲပြားခြင်းကြောင့် အတိအကျတူညီခြင်းမရှိသော်လည်း အလွန်ဆင်တူပါသည်။ ဆိုလိုသည်မှာ၊ ပေါင်းစပ်ဒေတာ၏အလားအလာသည် အလွန်အလားအလာကောင်းသည်ဟု ဆိုလိုသည်မှာ- Edwin သည် ဤအတွက် အလွန်ပျော်ရွှင်ပါသည်။

ပြုံးနေသောလူတစ်စု

ဒေတာသည် ဒြပ်စင်ဖြစ်သော်လည်း ကျွန်ုပ်တို့အဖွဲ့သည် အစစ်အမှန်ဖြစ်သည်။

Syntho ကိုဆက်သွယ်ပါ နှင့် ကျွန်ုပ်တို့၏ ကျွမ်းကျင်သူများထဲမှ တစ်ဦးသည် ပေါင်းစပ်ဒေတာ၏တန်ဖိုးကို ရှာဖွေရန် အလင်းအမြန်နှုန်းဖြင့် သင့်ထံ ဆက်သွယ်ပါမည်။