ទិន្នន័យអនាមិកធៀបនឹងទិន្នន័យសំយោគ

ប្រសិនបើអ្នកអនាមិកទិន្នន័យរបស់អ្នក មុនពេលធ្វើតេស្តទិន្នន័យនៃការវិភាគទិន្នន័យ មានកត្តាជាច្រើនក្នុងការលេង៖

  1. ស្ទើរតែគ្រប់ករណីទាំងអស់ ទិន្នន័យអនាមិកនៅតែអាចតាមដានទៅបុគ្គលម្នាក់ៗ ដោយសារជួរជាក់លាក់ និងតែមួយគត់ (ឧទាហរណ៍ កំណត់ត្រាវេជ្ជសាស្ត្រ)
  2. កាលណាអ្នកធ្វើអនាមិក ឬទូទៅកាន់តែច្រើន ទិន្នន័យកាន់តែច្រើនអ្នកបំផ្លាញ។ វាធ្វើឱ្យគុណភាពទិន្នន័យរបស់អ្នកធ្លាក់ចុះ ហើយដូច្នេះការយល់ដឹងរបស់អ្នក។
  3. អនាមិកដំណើរការខុសគ្នាសម្រាប់ទម្រង់ទិន្នន័យផ្សេងៗគ្នា។ នេះមានន័យថាវាមិនអាចធ្វើមាត្រដ្ឋានបានទេ ហើយអាចចំណាយពេលច្រើន។

ទិន្នន័យសំយោគដោះស្រាយរាល់ចំណុចខ្វះខាតទាំងនេះ និងអ្វីៗជាច្រើនទៀត។ មើលវីដេអូខាងក្រោមដើម្បីមើលអ្នកជំនាញវិភាគមកពី SAS (អ្នកដឹកនាំទីផ្សារសកលក្នុងការវិភាគ) ពន្យល់អំពីការវាយតម្លៃរបស់គាត់លើភាពខុសគ្នានៃគុណភាពរវាងទិន្នន័យដើម ទិន្នន័យអនាមិក និងដោយ Syntho បានបង្កើតទិន្នន័យសំយោគ។

វីដេអូនេះត្រូវបានថតចេញពី Syntho x SAS D[N]A Café អំពី AI Generated Synthetic Data។ ស្វែងរកវីដេអូពេញនៅទីនេះ។

Edwin van Unen បានផ្ញើសំណុំទិន្នន័យដើមទៅ Syntho ហើយយើងបានសំយោគសំណុំទិន្នន័យ។ ប៉ុន្តែ​សំណួរ​ក៏​សួរ​ដែរ​ថា “តើ​នឹង​មាន​អ្វី​កើត​ឡើង​ប្រសិន​បើ​យើង​ប្រៀបធៀប​ទិន្នន័យ​សំយោគ​ទៅ​នឹង​ទិន្នន័យ​អនាមិក?” ដោយសារតែអ្នកបាត់បង់ព័ត៌មានជាច្រើននៅក្នុងទិន្នន័យអនាមិក តើវាក៏នឹងកើតឡើងនៅពេលសំយោគសំណុំទិន្នន័យដែរឬទេ? យើងបានចាប់ផ្តើមជាមួយនឹងសំណុំទិន្នន័យពីឧស្សាហកម្មទូរគមនាគមន៍ដែលមាន 56.000 ជួរ និង 128 ជួរនៃព័ត៌មានរបស់ក្រុមហ៊ុន។ សំណុំទិន្នន័យនេះត្រូវបានសំយោគ ទាំងអនាមិក ដូច្នេះ Edwin អាចប្រៀបធៀបការសំយោគជាមួយនឹងអនាមិក។ បន្ទាប់មក Edwin បានចាប់ផ្តើមធ្វើគំរូដោយប្រើ SAS Viya ។ គាត់បានបង្កើតគំរូកូរពីរបីនៅលើសំណុំទិន្នន័យដើម ដោយប្រើបច្ចេកទេសតំរែតំរង់បុរាណ និងមែកធាងការសម្រេចចិត្ត ប៉ុន្តែក៏មានបច្ចេកទេសស្មុគ្រស្មាញជាងមុនផងដែរ ដូចជាបណ្តាញសរសៃប្រសាទ ការជំរុញជម្រាល ព្រៃចៃដន្យ - ប្រភេទនៃបច្ចេកទេសទាំងនេះ។ ការប្រើប្រាស់ជម្រើសស្តង់ដារ SAS Viya នៅពេលសាងសង់គំរូ។

បន្ទាប់មក ដល់ពេលត្រូវមើលលទ្ធផល។ លទ្ធផល​គឺ​មាន​ការ​សន្យា​ខ្លាំង​ណាស់​សម្រាប់​ទិន្នន័យ​សំយោគ និង​មិន​សម្រាប់​អនាមិក។ សម្រាប់​អ្នក​ជំនាញ​ដែល​គ្មាន​ម៉ាស៊ីន​រៀន​នៅ​ក្នុង​ទស្សនិកជន យើង​មើល​ទៅ​តំបន់​ដែល​ស្ថិត​នៅ​ក្រោម​ខ្សែកោង ROC ដែល​ប្រាប់​អ្វី​មួយ​អំពី​ភាព​ត្រឹមត្រូវ​នៃ​គំរូ។ ការប្រៀបធៀបទិន្នន័យដើមទៅនឹងទិន្នន័យអនាមិក យើងឃើញថាគំរូទិន្នន័យដើមមានផ្ទៃក្រោម ROC-curve នៃ .8 ដែលល្អណាស់ ប៉ុន្តែទិន្នន័យអនាមិកមានផ្ទៃក្រោម ROC-curve នៃ .6 ។ នេះមានន័យថាយើងបាត់បង់ព័ត៌មានជាច្រើនជាមួយនឹងគំរូអនាមិក ដូច្នេះអ្នកបាត់បង់ថាមពលទស្សន៍ទាយជាច្រើន។

ប៉ុន្តែបន្ទាប់មកសំណួរគឺចុះយ៉ាងណាចំពោះទិន្នន័យសំយោគ? នៅទីនេះ យើងបានធ្វើដូចគ្នា ប៉ុន្តែជំនួសឱ្យការមិនបញ្ចេញឈ្មោះទិន្នន័យ Syntho បានសំយោគទិន្នន័យ។ ឥឡូវនេះ យើងឃើញទាំងទិន្នន័យដើម និងទិន្នន័យសំយោគមានផ្ទៃក្រោម ROC-curve នៃ .8 ដែលស្រដៀងគ្នាខ្លាំងណាស់។ មិនដូចគ្នាទេ ដោយសារភាពប្រែប្រួល ប៉ុន្តែស្រដៀងគ្នាខ្លាំងណាស់។ នេះមានន័យថា សក្ដានុពលនៃទិន្នន័យសំយោគគឺពិតជាមានជោគជ័យណាស់ - Edwin សប្បាយចិត្តខ្លាំងណាស់ចំពោះរឿងនេះ។

ក្រុមមនុស្សញញឹម

ទិន្នន័យគឺសំយោគ ប៉ុន្តែក្រុមរបស់យើងគឺពិត!

ទាក់ទងស៊ីនថូ ហើយអ្នកជំនាញរបស់យើងនឹងទាក់ទងជាមួយអ្នកក្នុងល្បឿនពន្លឺ ដើម្បីស្វែងយល់ពីតម្លៃនៃទិន្នន័យសំយោគ!