അജ്ഞാത ഡാറ്റ vs സിന്തറ്റിക് ഡാറ്റ

ഡാറ്റാ അനലിറ്റിക്‌സിന്റെ ഡാറ്റാ ടെസ്റ്റിംഗ് നടത്തുന്നതിന് മുമ്പ് നിങ്ങളുടെ ഡാറ്റ അജ്ഞാതമാക്കുകയാണെങ്കിൽ, നിരവധി ഘടകങ്ങളുണ്ട്:

  1. മിക്കവാറും എല്ലാ സാഹചര്യങ്ങളിലും, നിർദ്ദിഷ്ടവും അതുല്യവുമായ വരികൾ (ഉദാ. മെഡിക്കൽ രേഖകൾ) കാരണം അജ്ഞാതമാക്കിയ ഡാറ്റ വ്യക്തികളിൽ നിന്ന് കണ്ടെത്താനാകും.
  2. നിങ്ങൾ എത്രത്തോളം അജ്ഞാതമാക്കുകയോ സാമാന്യവൽക്കരിക്കുകയോ ചെയ്യുന്നുവോ അത്രയും കൂടുതൽ ഡാറ്റ നിങ്ങൾ നശിപ്പിക്കും. ഇത് നിങ്ങളുടെ ഡാറ്റയുടെ ഗുണനിലവാരവും അതുവഴി നിങ്ങളുടെ സ്ഥിതിവിവരക്കണക്കുകളും കുറയ്ക്കുന്നു
  3. വ്യത്യസ്ത ഡാറ്റ ഫോർമാറ്റുകൾക്കായി അജ്ഞാതവൽക്കരണം വ്യത്യസ്തമായി പ്രവർത്തിക്കുന്നു. ഇതിനർത്ഥം ഇത് അളക്കാൻ കഴിയാത്തതും വളരെ സമയമെടുക്കുന്നതുമാണ്

സിന്തറ്റിക് ഡാറ്റ ഈ കുറവുകളും മറ്റും പരിഹരിക്കുന്നു. ഒറിജിനൽ ഡാറ്റയും അജ്ഞാതമാക്കിയ ഡാറ്റയും സിന്തോ ജനറേറ്റഡ് സിന്തറ്റിക് ഡാറ്റയും തമ്മിലുള്ള ഗുണനിലവാരത്തിലെ വ്യത്യാസത്തെ കുറിച്ച് SAS-ൽ നിന്നുള്ള ഒരു അനലിറ്റിക്‌സ് വിദഗ്ധൻ (അനലിറ്റിക്‌സിലെ ആഗോള വിപണി നേതാവ്) തന്റെ വിലയിരുത്തലിനെ കുറിച്ച് വിശദീകരിക്കുന്നത് കാണുന്നതിന് ചുവടെയുള്ള വീഡിയോ കാണുക.

AI ജനറേറ്റഡ് സിന്തറ്റിക് ഡാറ്റയെക്കുറിച്ചുള്ള സിന്തോ x SAS D[N]എ കഫേയിൽ നിന്നാണ് ഈ വീഡിയോ പകർത്തിയത്. മുഴുവൻ വീഡിയോയും ഇവിടെ കണ്ടെത്തുക.

എഡ്വിൻ വാൻ യുനെൻ സിന്തോയിലേക്ക് ഒരു യഥാർത്ഥ ഡാറ്റാസെറ്റ് അയച്ചു, ഞങ്ങൾ ഡാറ്റാസെറ്റ് സമന്വയിപ്പിച്ചു. എന്നാൽ ചോദ്യം ഇതായിരുന്നു: "സിന്തറ്റിക് ഡാറ്റയെ അജ്ഞാത ഡാറ്റയുമായി താരതമ്യം ചെയ്താൽ എന്ത് സംഭവിക്കും?" ഒരു അജ്ഞാത ഡാറ്റയിൽ നിങ്ങൾക്ക് ധാരാളം വിവരങ്ങൾ നഷ്ടപ്പെടുന്നതിനാൽ, ഒരു ഡാറ്റാസെറ്റ് സമന്വയിപ്പിക്കുമ്പോഴും ഇത് സംഭവിക്കുമോ? ഞങ്ങൾ ടെലികമ്മ്യൂണിക്കേഷൻ വ്യവസായത്തിൽ നിന്നുള്ള 56.000 വരികളും 128 കോളങ്ങളും കമ്പനി ചർൺ-ഇൻഫർമേഷനുമായി ഒരു ഡാറ്റാസെറ്റ് ഉപയോഗിച്ചാണ് ആരംഭിച്ചത്. ഈ ഡാറ്റാസെറ്റ് സമന്വയിപ്പിക്കുകയും അജ്ഞാതമാക്കുകയും ചെയ്തതിനാൽ എഡ്വിന് സിന്തറ്റൈസേഷനെ അജ്ഞാതവൽക്കരണവുമായി താരതമ്യം ചെയ്യാൻ കഴിയും. തുടർന്ന് എഡ്വിൻ എസ്എഎസ് വിയ ഉപയോഗിച്ച് മോഡലിംഗ് ആരംഭിച്ചു. ക്ലാസിക്കൽ റിഗ്രഷൻ ടെക്‌നിക്കുകളും ഡിസിഷൻ ട്രീകളും ഉപയോഗിച്ച്, ന്യൂറൽ നെറ്റ്‌വർക്കുകൾ, ഗ്രേഡിയന്റ് ബൂസ്റ്റിംഗ്, റാൻഡം ഫോറസ്റ്റ് തുടങ്ങിയ കൂടുതൽ സങ്കീർണ്ണമായ സാങ്കേതിക വിദ്യകൾ ഉപയോഗിച്ച് അദ്ദേഹം യഥാർത്ഥ ഡാറ്റാസെറ്റിൽ രണ്ട് ചർൺ മോഡലുകൾ നിർമ്മിച്ചു - ഇത്തരത്തിലുള്ള സാങ്കേതികതകൾ. മോഡലുകൾ നിർമ്മിക്കുമ്പോൾ സാധാരണ SAS Viya ഓപ്ഷനുകൾ ഉപയോഗിക്കുന്നു.

പിന്നെ, ഫലം നോക്കാനുള്ള സമയമായി. ഫലങ്ങൾ സിന്തറ്റിക് ഡാറ്റയ്ക്ക് വളരെ പ്രതീക്ഷ നൽകുന്നതായിരുന്നു, അജ്ഞാതവൽക്കരണത്തിനല്ല. സദസ്സിലുള്ള നോൺ-മെഷീൻ ലേണിംഗ് വിദഗ്ധർക്കായി, മോഡലിന്റെ കൃത്യതയെക്കുറിച്ച് എന്തെങ്കിലും പറയുന്ന ROC-കർവിന് കീഴിലുള്ള പ്രദേശം ഞങ്ങൾ നോക്കുന്നു. യഥാർത്ഥ ഡാറ്റയെ അജ്ഞാത ഡാറ്റയുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ, യഥാർത്ഥ ഡാറ്റ മോഡലിന് .8 ന്റെ ROC-കർവിന് കീഴിൽ ഒരു ഏരിയ ഉണ്ടെന്ന് ഞങ്ങൾ കാണുന്നു, അത് വളരെ നല്ലതാണ്, എന്നിരുന്നാലും, അജ്ഞാത ഡാറ്റയ്ക്ക് .6 ന്റെ ROC-കർവിന് കീഴിൽ ഒരു ഏരിയയുണ്ട്. ഇതിനർത്ഥം അജ്ഞാത മോഡൽ ഉപയോഗിച്ച് ഞങ്ങൾക്ക് ധാരാളം വിവരങ്ങൾ നഷ്‌ടപ്പെടുമെന്നതിനാൽ നിങ്ങൾക്ക് വളരെയധികം പ്രവചന ശക്തി നഷ്ടപ്പെടും.

എന്നാൽ പിന്നെ, ചോദ്യം സിന്തറ്റിക്സ് ഡാറ്റയെക്കുറിച്ച് എന്താണ്? ഇവിടെ, ഞങ്ങൾ അത് തന്നെ ചെയ്തു, എന്നാൽ ഡാറ്റയെ അജ്ഞാതമാക്കുന്നതിനുപകരം, സിന്തോ ഡാറ്റ സമന്വയിപ്പിച്ചു. ഇപ്പോൾ, ഒറിജിനൽ ഡാറ്റയ്ക്കും സിന്തറ്റിക് ഡാറ്റയ്ക്കും .8 ന്റെ ROC-കർവിന് കീഴിൽ ഒരു ഏരിയ ഉണ്ടെന്ന് ഞങ്ങൾ കാണുന്നു, അത് വളരെ സാമ്യമുള്ളതാണ്. വേരിയബിലിറ്റി കാരണം തികച്ചും സമാനമല്ല, എന്നാൽ വളരെ സമാനമാണ്. ഇതിനർത്ഥം, സിന്തറ്റിക് ഡാറ്റയുടെ സാധ്യത വളരെ പ്രതീക്ഷ നൽകുന്നതാണ് - എഡ്വിൻ ഇതിൽ വളരെ സന്തോഷവാനാണ്.

പുഞ്ചിരിക്കുന്ന ആൾക്കൂട്ടം

ഡാറ്റ സിന്തറ്റിക് ആണ്, എന്നാൽ ഞങ്ങളുടെ ടീം യഥാർത്ഥമാണ്!

സിന്തോയുമായി ബന്ധപ്പെടുക സിന്തറ്റിക് ഡാറ്റയുടെ മൂല്യം പര്യവേക്ഷണം ചെയ്യാൻ ഞങ്ങളുടെ വിദഗ്ദ്ധരിൽ ഒരാൾ പ്രകാശത്തിന്റെ വേഗതയിൽ നിങ്ങളുമായി ബന്ധപ്പെടും!