ຂໍ້ມູນທີ່ບໍ່ເປີດເຜີຍຊື່ທຽບກັບຂໍ້ມູນສັງເຄາະ

ຖ້າ​ຫາກ​ວ່າ​ທ່ານ anonymize ຂໍ້​ມູນ​ຂອງ​ທ່ານ​ກ່ອນ​ທີ່​ຈະ​ປະ​ຕິ​ບັດ​ການ​ທົດ​ສອບ​ຂໍ້​ມູນ​ຂອງ​ການ​ວິ​ເຄາະ​ຂໍ້​ມູນ​, ມີ​ປັດ​ໄຈ​ຈໍາ​ນວນ​ຫນຶ່ງ​ໃນ​ການ​ຫຼິ້ນ​:

  1. ໃນເກືອບທຸກກໍລະນີ, ຂໍ້ມູນທີ່ບໍ່ເປີດເຜີຍຊື່ຍັງສາມາດຕິດຕາມກັບບຸກຄົນໄດ້ເນື່ອງຈາກແຖວສະເພາະ ແລະ ເປັນເອກະລັກ (ເຊັ່ນ: ບັນທຶກທາງການແພດ)
  2. ຍິ່ງເຈົ້າບໍ່ເປີດເຜີຍຊື່ ຫຼື generalize ຫຼາຍເທົ່າໃດ, ເຈົ້າຈະທໍາລາຍຂໍ້ມູນຫຼາຍຂຶ້ນ. ນີ້ເຮັດໃຫ້ຄຸນນະພາບຂອງຂໍ້ມູນຂອງທ່ານຫຼຸດລົງ ແລະດັ່ງນັ້ນຄວາມເຂົ້າໃຈຂອງທ່ານ
  3. ການປິດບັງຊື່ເຮັດວຽກແຕກຕ່າງກັນສໍາລັບຮູບແບບຂໍ້ມູນທີ່ແຕກຕ່າງກັນ. ນີ້ຫມາຍຄວາມວ່າມັນບໍ່ສາມາດຂະຫຍາຍໄດ້ແລະສາມາດໃຊ້ເວລາຫຼາຍ

ຂໍ້ມູນສັງເຄາະແກ້ໄຂຂໍ້ບົກຜ່ອງທັງໝົດເຫຼົ່ານີ້ ແລະ ອື່ນໆ. ເບິ່ງວິດີໂອຂ້າງລຸ່ມນີ້ເພື່ອເບິ່ງຜູ້ຊ່ຽວຊານດ້ານການວິເຄາະຈາກ SAS (ຜູ້ນໍາຕະຫຼາດໂລກໃນການວິເຄາະ) ອະທິບາຍກ່ຽວກັບການປະເມີນຂອງລາວກ່ຽວກັບຄວາມແຕກຕ່າງຂອງຄຸນນະພາບລະຫວ່າງຂໍ້ມູນຕົ້ນສະບັບ, ຂໍ້ມູນທີ່ບໍ່ເປີດເຜີຍຊື່ແລະຂໍ້ມູນສັງເຄາະທີ່ສ້າງໂດຍ Syntho.

ວິດີໂອນີ້ຖືກບັນທຶກຈາກ Syntho x SAS D[N]ຄາເຟ່ກ່ຽວກັບຂໍ້ມູນສັງເຄາະທີ່ສ້າງດ້ວຍ AI. ຊອກຫາວິດີໂອເຕັມທີ່ນີ້.

Edwin van Unen ໄດ້ສົ່ງຊຸດຂໍ້ມູນຕົ້ນສະບັບໄປໃຫ້ Syntho ແລະພວກເຮົາສັງເຄາະຊຸດຂໍ້ມູນ. ແຕ່ຄໍາຖາມແມ່ນ: "ຈະເກີດຫຍັງຂຶ້ນຖ້າພວກເຮົາປຽບທຽບຂໍ້ມູນສັງເຄາະກັບຂໍ້ມູນທີ່ບໍ່ເປີດເຜີຍຊື່?" ເນື່ອງຈາກວ່າທ່ານສູນເສຍຂໍ້ມູນຈໍານວນຫລາຍໃນຂໍ້ມູນທີ່ບໍ່ເປີດເຜີຍຊື່, ນີ້ຍັງຈະເກີດຂຶ້ນໃນເວລາທີ່ການສັງເຄາະຊຸດຂໍ້ມູນບໍ? ພວກເຮົາເລີ່ມຕົ້ນດ້ວຍຊຸດຂໍ້ມູນຈາກອຸດສາຫະກໍາໂທລະຄົມມະນາຄົມທີ່ມີ 56.000 ແຖວ ແລະ 128 ຖັນຂອງຂໍ້ມູນຂອງບໍລິສັດ. ຊຸດຂໍ້ມູນນີ້ຖືກສັງເຄາະ ແລະ ບໍ່ໄດ້ລະບຸຕົວຕົນ ເພື່ອໃຫ້ Edwin ສາມາດປຽບທຽບການສັງເຄາະດ້ວຍການປິດບັງຊື່. ຫຼັງຈາກນັ້ນ, Edwin ເລີ່ມສ້າງແບບຈໍາລອງໂດຍໃຊ້ SAS Viya. ລາວສ້າງຕົວແບບ churn ສອງຢ່າງໃນຊຸດຂໍ້ມູນຕົ້ນສະບັບ, ໂດຍນໍາໃຊ້ເຕັກນິກການຖົດຖອຍແບບຄລາສສິກແລະການຕັດຕົ້ນໄມ້, ແຕ່ຍັງເຕັກນິກທີ່ຊັບຊ້ອນກວ່າເຊັ່ນ: ເຄືອຂ່າຍ neural, ການຊຸກຍູ້ gradient, ປ່າໄມ້ແບບສຸ່ມ - ເຕັກນິກເຫຼົ່ານີ້. ການນໍາໃຊ້ທາງເລືອກ SAS Viya ມາດຕະຖານໃນເວລາສ້າງແບບຈໍາລອງ.

ຫຼັງຈາກນັ້ນ, ມັນແມ່ນເວລາທີ່ຈະເບິ່ງຜົນໄດ້ຮັບ. ຜົນໄດ້ຮັບແມ່ນດີຫຼາຍສໍາລັບຂໍ້ມູນສັງເຄາະແລະບໍ່ແມ່ນສໍາລັບການປິດບັງຊື່. ສໍາລັບຜູ້ຊ່ຽວຊານດ້ານການຮຽນຮູ້ທີ່ບໍ່ມີເຄື່ອງຈັກໃນຜູ້ຊົມ, ພວກເຮົາເບິ່ງພື້ນທີ່ພາຍໃຕ້ເສັ້ນໂຄ້ງ ROC ເຊິ່ງບອກບາງສິ່ງບາງຢ່າງກ່ຽວກັບຄວາມຖືກຕ້ອງຂອງຕົວແບບ. ການປຽບທຽບຂໍ້ມູນຕົ້ນສະບັບກັບຂໍ້ມູນທີ່ບໍ່ເປີດເຜີຍຊື່, ພວກເຮົາເຫັນວ່າຕົວແບບຂໍ້ມູນຕົ້ນສະບັບມີພື້ນທີ່ພາຍໃຕ້ເສັ້ນໂຄ້ງ ROC ຂອງ .8, ເຊິ່ງຂ້ອນຂ້າງດີ, ຢ່າງໃດກໍຕາມ, ຂໍ້ມູນທີ່ບໍ່ເປີດເຜີຍຊື່ມີພື້ນທີ່ພາຍໃຕ້ເສັ້ນໂຄ້ງ ROC ຂອງ .6. ນີ້ຫມາຍຄວາມວ່າພວກເຮົາສູນເສຍຂໍ້ມູນຈໍານວນຫລາຍກັບຕົວແບບທີ່ບໍ່ເປີດເຜີຍຊື່ດັ່ງນັ້ນທ່ານຈະສູນເສຍພະລັງງານການຄາດເດົາຢ່າງຫຼວງຫຼາຍ.

ແຕ່ຫຼັງຈາກນັ້ນ, ຄໍາຖາມແມ່ນຫຍັງກ່ຽວກັບຂໍ້ມູນສັງເຄາະ? ທີ່ນີ້, ພວກເຮົາໄດ້ເຮັດຄືກັນແຕ່ແທນທີ່ຈະເປັນການປິດບັງຂໍ້ມູນ, Syntho ໄດ້ສັງເຄາະຂໍ້ມູນ. ໃນປັດຈຸບັນ, ພວກເຮົາເຫັນທັງຂໍ້ມູນຕົ້ນສະບັບແລະຂໍ້ມູນສັງເຄາະມີພື້ນທີ່ພາຍໃຕ້ເສັ້ນໂຄ້ງ ROC ຂອງ .8, ເຊິ່ງຄ້າຍຄືກັນຫຼາຍ. ບໍ່ຄືກັນເນື່ອງຈາກການປ່ຽນແປງ, ແຕ່ຄ້າຍຄືກັນຫຼາຍ. ນີ້ຫມາຍຄວາມວ່າ, ທ່າແຮງຂອງຂໍ້ມູນສັງເຄາະແມ່ນດີຫຼາຍ - Edwin ດີໃຈຫຼາຍກ່ຽວກັບເລື່ອງນີ້.

ກຸ່ມຄົນຍິ້ມ

ຂໍ້ມູນແມ່ນສັງເຄາະ, ແຕ່ທີມງານຂອງພວກເຮົາແມ່ນຈິງ!

ຕິດຕໍ່ Syntho ແລະຫນຶ່ງໃນຜູ້ຊ່ຽວຊານຂອງພວກເຮົາຈະຕິດຕໍ່ກັບທ່ານດ້ວຍຄວາມໄວຂອງແສງເພື່ອຄົ້ນຫາມູນຄ່າຂອງຂໍ້ມູນສັງເຄາະ!