ການປະເມີນພາຍນອກຂອງຂໍ້ມູນສັງເຄາະຂອງພວກເຮົາໂດຍຜູ້ຊ່ຽວຊານດ້ານຂໍ້ມູນຂອງ SAS

ຂໍ້ມູນສັງເຄາະຂອງພວກເຮົາແມ່ນ ປະເມີນຜົນ ແລະ ການອະນຸມັດ ໂດຍຜູ້ຊ່ຽວຊານດ້ານຂໍ້ມູນຂອງ SAS

ການແນະນໍາການປະເມີນຜົນພາຍນອກຂອງຂໍ້ມູນສັງເຄາະຂອງພວກເຮົາໂດຍຜູ້ຊ່ຽວຊານດ້ານຂໍ້ມູນຂອງ SAS

ພວກເຮົາໄດ້ເຮັດຫຍັງ?

ຂໍ້ມູນສັງເຄາະທີ່ສ້າງຂຶ້ນໂດຍ Syntho ໄດ້ຖືກປະເມີນ, ກວດສອບ ແລະອະນຸມັດຈາກມຸມເບິ່ງພາຍນອກ ແລະຈຸດປະສົງໂດຍຜູ້ຊ່ຽວຊານດ້ານຂໍ້ມູນຂອງ SAS.

ເປັນຫຍັງຂໍ້ມູນສັງເຄາະຂອງພວກເຮົາຈຶ່ງຖືກປະເມີນຈາກພາຍນອກໂດຍຜູ້ຊ່ຽວຊານດ້ານຂໍ້ມູນຂອງ SAS?

ເຖິງແມ່ນວ່າ Syntho ມີຄວາມພູມໃຈທີ່ຈະສະເຫນີໃຫ້ຜູ້ຊົມໃຊ້ມີບົດລາຍງານການຮັບປະກັນຄຸນນະພາບຂັ້ນສູງ, ພວກເຮົາຍັງເຂົ້າໃຈເຖິງຄວາມສໍາຄັນຂອງການປະເມີນພາຍນອກແລະຈຸດປະສົງຂອງຂໍ້ມູນສັງເຄາະຂອງພວກເຮົາຈາກຜູ້ນໍາອຸດສາຫະກໍາ. ນັ້ນແມ່ນເຫດຜົນທີ່ພວກເຮົາຮ່ວມມືກັບ SAS, ຜູ້ນໍາໃນການວິເຄາະ, ເພື່ອປະເມີນຂໍ້ມູນສັງເຄາະຂອງພວກເຮົາ.

SAS ດໍາເນີນການປະເມີນຜົນຢ່າງລະອຽດຕ່າງໆກ່ຽວກັບຄວາມຖືກຕ້ອງຂອງຂໍ້ມູນ, ການປົກປ້ອງຄວາມເປັນສ່ວນຕົວ, ແລະການນໍາໃຊ້ຂອງຂໍ້ມູນສັງເຄາະທີ່ສ້າງໂດຍ AI ຂອງ Syntho ໃນການປຽບທຽບກັບຂໍ້ມູນຕົ້ນສະບັບ. ເປັນການສະຫລຸບ, SAS ໄດ້ປະເມີນແລະອະນຸມັດຂໍ້ມູນສັງເຄາະຂອງ Syntho ວ່າຖືກຕ້ອງ, ປອດໄພ, ແລະສາມາດໃຊ້ໄດ້ເມື່ອປຽບທຽບກັບຂໍ້ມູນຕົ້ນສະບັບ.

SAS ໄດ້ເຮັດຫຍັງໃນລະຫວ່າງການປະເມີນນີ້?

ພວກເຮົາໄດ້ໃຊ້ຂໍ້ມູນໂທລະຄົມທີ່ໃຊ້ສໍາລັບ "churn" ການຄາດຄະເນເປັນຂໍ້ມູນເປົ້າຫມາຍ. ເປົ້າໝາຍຂອງການປະເມີນແມ່ນເພື່ອນຳໃຊ້ຂໍ້ມູນສັງເຄາະເພື່ອຝຶກຝົນແບບຄາດຄະຕິຕ່າງໆ ແລະ ປະເມີນປະສິດທິພາບຂອງແຕ່ລະຕົວແບບ. ເນື່ອງຈາກການຄາດຄະເນການປັ່ນປ່ວນແມ່ນວຽກງານການຈັດປະເພດ, SAS ໄດ້ເລືອກຮູບແບບການຈັດປະເພດທີ່ນິຍົມເພື່ອເຮັດໃຫ້ການຄາດຄະເນ, ລວມທັງ:

ປ່າສຸ່ມ
ການເພີ່ມລະດັບສີ
ການຖົດຖອຍ logistic
Neural network

ກ່ອນທີ່ຈະສ້າງຂໍ້ມູນສັງເຄາະ, SAS ແບ່ງຊຸດຂໍ້ມູນໂທລະຄົມແບບສຸ່ມອອກເປັນຊຸດລົດໄຟ (ສໍາລັບການຝຶກອົບຮົມແບບຈໍາລອງ) ແລະຊຸດຄ້າງ (ສໍາລັບການໃຫ້ຄະແນນແບບຈໍາລອງ). ການມີຊຸດຄ້າງໄວ້ແຍກຕ່າງຫາກສໍາລັບການໃຫ້ຄະແນນຊ່ວຍໃຫ້ມີການປະເມີນທີ່ບໍ່ເປັນກາງວ່າຮູບແບບການຈັດປະເພດອາດຈະເຮັດແນວໃດດີເມື່ອນໍາໃຊ້ກັບຂໍ້ມູນໃຫມ່.

ໂດຍໃຊ້ຊຸດລົດໄຟເປັນວັດສະດຸປ້ອນ, Syntho ໄດ້ໃຊ້ເຄື່ອງຈັກ Syntho ເພື່ອສ້າງຊຸດຂໍ້ມູນສັງເຄາະ. ສໍາລັບ benchmarking, SAS ຍັງໄດ້ສ້າງສະບັບພາສາທີ່ບໍ່ເປີດເຜີຍຊື່ຂອງລົດໄຟທີ່ກໍານົດໄວ້ຫຼັງຈາກການນໍາໃຊ້ເຕັກນິກການປິດບັງຊື່ຕ່າງໆເພື່ອບັນລຸເປົ້າຫມາຍສະເພາະໃດຫນຶ່ງ (ຂອງ k-anonymity). ຂັ້ນຕອນທີ່ຜ່ານມາໄດ້ເຮັດໃຫ້ມີສີ່ຊຸດຂໍ້ມູນ:

ຊຸດຂໍ້ມູນລົດໄຟ (ເຊັ່ນຊຸດຂໍ້ມູນຕົ້ນສະບັບລົບຊຸດຂໍ້ມູນການຖືເອົາ)
ຊຸດຂໍ້ມູນທີ່ຄ້າງໄວ້ (ເຊັ່ນຊຸດຍ່ອຍຂອງຊຸດຂໍ້ມູນຕົ້ນສະບັບ)
ຊຸດຂໍ້ມູນທີ່ບໍ່ເປີດເຜີຍຕົວຕົນ (ຂໍ້ມູນທີ່ບໍ່ເປີດເຜີຍຊື່ຂອງຊຸດຂໍ້ມູນລົດໄຟ, ຊຸດຂໍ້ມູນຕົ້ນສະບັບລົບຊຸດຂໍ້ມູນການຖືເອົາ)
ຊຸດຂໍ້ມູນສັງເຄາະ (ຂໍ້ມູນສັງເຄາະຂອງຊຸດຂໍ້ມູນລົດໄຟ, ຊຸດຂໍ້ມູນຕົ້ນສະບັບລົບຊຸດຂໍ້ມູນການຖືເອົາ)

ຊຸດຂໍ້ມູນ 1, 3 ແລະ 4 ໄດ້ຖືກນໍາໃຊ້ເພື່ອຝຶກອົບຮົມແຕ່ລະຮູບແບບການຈັດປະເພດ, ຜົນໄດ້ຮັບ 12 (3 x 4) ແບບຝຶກອົບຮົມ. ຕໍ່ມາ SAS ໄດ້ນໍາໃຊ້ຊຸດຂໍ້ມູນການຍຶດຖືເພື່ອວັດແທກຄວາມຖືກຕ້ອງຂອງແຕ່ລະແບບຈໍາລອງໃນການຄາດຄະເນການປັ່ນປ່ວນຂອງລູກຄ້າ.

ທ່ານມີຄໍາຖາມໃດໆ?

ສົນທະນາກັບຜູ້ຊ່ຽວຊານຂອງພວກເຮົາ

ຕິດຕໍ່ພວກເຮົາ

ຜົນໄດ້ຮັບເບື້ອງຕົ້ນຂອງການປະເມີນຂໍ້ມູນໂດຍ SAS

ແບບຈໍາລອງທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບຂໍ້ມູນສັງເຄາະໃຫ້ຄະແນນທີ່ຄ້າຍຄືກັນສູງເມື່ອປຽບທຽບກັບຕົວແບບທີ່ໄດ້ຮັບການຝຶກອົບຮົມຈາກຂໍ້ມູນຕົ້ນສະບັບ

ຂໍ້ມູນສັງເຄາະຈາກ Syntho ຖືບໍ່ພຽງແຕ່ສໍາລັບຮູບແບບພື້ນຖານ, ມັນຍັງເກັບກໍາຮູບແບບສະຖິຕິທີ່ 'ເຊື່ອງໄວ້' ເລິກທີ່ຕ້ອງການສໍາລັບວຽກງານການວິເຄາະຂັ້ນສູງ. ອັນສຸດທ້າຍແມ່ນສະແດງໃຫ້ເຫັນຢູ່ໃນຕາຕະລາງແຖບ, ຊີ້ໃຫ້ເຫັນວ່າຄວາມຖືກຕ້ອງຂອງຕົວແບບທີ່ໄດ້ຝຶກອົບຮົມກ່ຽວກັບຂໍ້ມູນສັງເຄາະທຽບກັບແບບຈໍາລອງທີ່ໄດ້ຮັບການຝຶກອົບຮົມຈາກຂໍ້ມູນຕົ້ນສະບັບແມ່ນຄ້າຍຄືກັນ. ດັ່ງນັ້ນ, ຂໍ້ມູນສັງເຄາະສາມາດຖືກນໍາໃຊ້ສໍາລັບການຝຶກອົບຮົມຕົວຈິງຂອງຕົວແບບ. ວັດສະດຸປ້ອນ ແລະ ຄວາມສໍາຄັນຕົວປ່ຽນແປງທີ່ເລືອກໂດຍລະບົບສູດການຄິດໄລ່ກ່ຽວກັບຂໍ້ມູນສັງເຄາະທຽບກັບຂໍ້ມູນຕົ້ນສະບັບແມ່ນຄ້າຍຄືກັນຫຼາຍ. ດັ່ງນັ້ນ, ມັນໄດ້ຖືກສະຫຼຸບວ່າຂະບວນການສ້າງແບບຈໍາລອງສາມາດເຮັດໄດ້ໃນຂໍ້ມູນສັງເຄາະ, ເປັນທາງເລືອກສໍາລັບການນໍາໃຊ້ຂໍ້ມູນທີ່ມີຄວາມອ່ອນໄຫວທີ່ແທ້ຈິງ.

ເປັນຫຍັງແບບຈໍາລອງທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບຂໍ້ມູນທີ່ບໍ່ເປີດເຜີຍຊື່ເຮັດໃຫ້ຄະແນນບໍ່ດີ?

ເຕັກນິກການປິດບັງຊື່ແບບຄລາສສິກມີຢູ່ທົ່ວໄປວ່າພວກເຂົາຈັດການຂໍ້ມູນຕົ້ນສະບັບເພື່ອຂັດຂວາງການຕິດຕາມບຸກຄົນ. ພວກເຂົາເຈົ້າ manipulate ຂໍ້ມູນແລະເຮັດໃຫ້ການທໍາລາຍຂໍ້ມູນໃນຂະບວນການ. ຍິ່ງເຈົ້າບໍ່ເປີດເຜີຍຕົວຕົນຫຼາຍເທົ່າໃດ, ຂໍ້ມູນຂອງທ່ານຈະຖືກປົກປ້ອງໄດ້ດີຂຶ້ນ, ແຕ່ກໍ່ຍິ່ງເຮັດໃຫ້ຂໍ້ມູນຂອງທ່ານຖືກທໍາລາຍຫຼາຍເທົ່າທີ່ຄວນ. ນີ້ແມ່ນຄວາມເສຍຫາຍໂດຍສະເພາະສໍາລັບວຽກງານ AI ແລະການສ້າງແບບຈໍາລອງທີ່ "ພະລັງງານການຄາດເດົາ" ເປັນສິ່ງຈໍາເປັນ, ເພາະວ່າຂໍ້ມູນທີ່ມີຄຸນນະພາບທີ່ບໍ່ດີຈະເຮັດໃຫ້ເກີດຄວາມເຂົ້າໃຈທີ່ບໍ່ດີຈາກຕົວແບບ AI. SAS ສະແດງໃຫ້ເຫັນນີ້, ໂດຍມີພື້ນທີ່ພາຍໃຕ້ເສັ້ນໂຄ້ງ (AUC*) ຢູ່ໃກ້ກັບ 0.5, ສະແດງໃຫ້ເຫັນວ່າຕົວແບບທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບຂໍ້ມູນທີ່ບໍ່ເປີດເຜີຍຊື່ປະຕິບັດໄດ້ຮ້າຍແຮງທີ່ສຸດ.

ຜົນໄດ້ຮັບເພີ່ມເຕີມຂອງການປະເມີນຂໍ້ມູນສັງເຄາະໂດຍ SAS

ການພົວພັນແລະຄວາມສໍາພັນລະຫວ່າງຕົວແປໄດ້ຖືກເກັບຮັກສາໄວ້ຢ່າງຖືກຕ້ອງໃນຂໍ້ມູນສັງເຄາະ.

ພື້ນທີ່ພາຍໃຕ້ເສັ້ນໂຄ້ງ (AUC), metric ສໍາລັບການວັດແທກການປະຕິບັດຕົວແບບ, ຍັງຄົງສອດຄ່ອງ.

ຍິ່ງໄປກວ່ານັ້ນ, ຄວາມສໍາຄັນຂອງຕົວແປ, ເຊິ່ງຊີ້ໃຫ້ເຫັນເຖິງອໍານາດຄາດຄະເນຂອງຕົວແປໃນແບບຈໍາລອງ, ຍັງຄົງ intact ເມື່ອປຽບທຽບຂໍ້ມູນສັງເຄາະກັບຊຸດຂໍ້ມູນຕົ້ນສະບັບ.

ອີງຕາມການສັງເກດເຫຼົ່ານີ້ໂດຍ SAS ແລະໂດຍການນໍາໃຊ້ SAS Viya, ພວກເຮົາສາມາດສະຫຼຸບໄດ້ຢ່າງຫມັ້ນໃຈວ່າຂໍ້ມູນສັງເຄາະທີ່ຜະລິດໂດຍ Syntho Engine ແມ່ນທຽບກັບຂໍ້ມູນທີ່ແທ້ຈິງໃນດ້ານຄຸນນະພາບ. ນີ້ຢືນຢັນການນໍາໃຊ້ຂໍ້ມູນສັງເຄາະສໍາລັບການພັດທະນາແບບຈໍາລອງ, ປູທາງສໍາລັບການວິເຄາະຂັ້ນສູງດ້ວຍຂໍ້ມູນສັງເຄາະ.

ບົດສະຫຼຸບໂດຍຜູ້ຊ່ຽວຊານດ້ານຂໍ້ມູນຂອງ SAS

ແບບຈໍາລອງທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບຂໍ້ມູນສັງເຄາະທຽບກັບຕົວແບບທີ່ໄດ້ຮັບການຝຶກອົບຮົມຈາກຂໍ້ມູນຕົ້ນສະບັບສະແດງໃຫ້ເຫັນປະສິດທິພາບທີ່ຄ້າຍຄືກັນສູງ
ແບບຈໍາລອງທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບຂໍ້ມູນທີ່ບໍ່ເປີດເຜີຍຊື່ທີ່ມີ 'ເຕັກນິກການປິດບັງຊື່ແບບຄລາສສິກ' ສະແດງໃຫ້ເຫັນປະສິດທິພາບທີ່ຕໍ່າກວ່າເມື່ອປຽບທຽບກັບຕົວແບບທີ່ໄດ້ຮັບການຝຶກອົບຮົມຈາກຂໍ້ມູນຕົ້ນສະບັບ ຫຼືຂໍ້ມູນສັງເຄາະ
ການຜະລິດຂໍ້ມູນສັງເຄາະແມ່ນງ່າຍແລະວ່ອງໄວເນື່ອງຈາກວ່າເຕັກນິກການເຮັດວຽກແທ້ດຽວກັນຕໍ່ຊຸດຂໍ້ມູນແລະປະເພດຂໍ້ມູນ

ຂໍ້ມູນສັງເຄາະຂອງພວກເຮົາແມ່ນ ການອະນຸມັດ ໂດຍຜູ້ຊ່ຽວຊານດ້ານຂໍ້ມູນຂອງ SAS

ອ່ານບົດຄວາມ

ບົດຄວາມອ້າງອີງ

ການປະເມີນໂດຍຜູ້ຊ່ຽວຊານດ້ານຂໍ້ມູນຂອງ SAS: https://blogs.sas.com/content/hiddeninsights/2022/07/07/ai-generated-synthetic-data-easy-and-fast-access-to-high-quality-data/

Syntho ຜູ້ຊະນະຂອງ SAS global hackathon: https://www.linkedin.com/feed/update/urn:li:activity:7070047376249376769/
ຜົນການສຶກສາກໍລະນີສຸຂະພາບ: https://communities.sas.com/t5/SAS-Hacker-s-Hub/AI-Generated-Synthetic-Data-in-Healthcare/ta-p/863407

ບັນທຶກຄູ່ມືຂໍ້ມູນສັງເຄາະຂອງເຈົ້າດຽວນີ້!

ຂໍ້ມູນສັງເຄາະແມ່ນຫຍັງ?
ເປັນຫຍັງອົງການຈັດຕັ້ງຈຶ່ງໃຊ້ມັນ?
ການເພີ່ມມູນຄ່າກໍລະນີລູກຄ້າຂໍ້ມູນສັງເຄາະ
ວິທີການເລີ່ມຕົ້ນ

ຂໍ້ມູນສັງເຄາະແມ່ນຫຍັງ?

ບົດລາຍງານການຮັບປະກັນຄຸນນະພາບ

ການປະເມີນພາຍນອກໂດຍ SAS

ຂໍ້ມູນສັງເຄາະຊຸດເວລາ

ເຄື່ອງສະແກນ PII

ຂໍ້ມູນຈໍາລອງສັງເຄາະ

ແຜນທີ່ສອດຄ່ອງ

De-identification ແລະສັງເຄາະ

ຂໍ້ມູນສັງເຄາະທີ່ອີງໃສ່ກົດລະບຽບ

ການຕັ້ງຄ່າຍ່ອຍ

ການນຳໃຊ້ ແລະ ການເຊື່ອມໂຍງ

ການເຊື່ອມຕໍ່

ຄຸນນະສົມບັດຂະຫຍາຍ

ຂໍ້​ມູນ​ສະ​ຫນັບ​ສະ​ຫນູນ​

ເອກະສານຜູ້ໃຊ້

ຈັດຕາຕະລາງການສາທິດ

ການຕັ້ງລາຄາ

ທົດສອບຂໍ້ມູນ

ການວິເຄາະ

ການແບ່ງປັນຂໍ້ມູນ

ຕົວ​ຢ່າງ​ຜະ​ລິດ​ຕະ​ພັນ​

ການສ້າງລາຍໄດ້ຂໍ້ມູນ

ຮັກ​ສາ​ສຸ​ຂະ​ພາບ

ການເງິນ

ອົງການຈັດຕັ້ງສາທາລະນະ

ເອກະສານຜູ້ໃຊ້

ປຶ້ມປົກຂາວ ແລະຄູ່ມື

ບລັອກ

Webinars

ກໍ​ລະ​ນີ​ສຶກ​ສາ

ການຕັ້ງລາຄາ

ກ່ຽວ​ກັບ​ພວກ​ເຮົາ

ວຽກເຮັດງານທໍາ

ການປະເມີນພາຍນອກຂອງຂໍ້ມູນສັງເຄາະຂອງພວກເຮົາໂດຍຜູ້ຊ່ຽວຊານດ້ານຂໍ້ມູນຂອງ SAS

ຂໍ້ມູນສັງເຄາະຂອງພວກເຮົາແມ່ນ ປະເມີນຜົນ ແລະ ການອະນຸມັດ ໂດຍຜູ້ຊ່ຽວຊານດ້ານຂໍ້ມູນຂອງ SAS

ການແນະນໍາການປະເມີນຜົນພາຍນອກຂອງຂໍ້ມູນສັງເຄາະຂອງພວກເຮົາໂດຍຜູ້ຊ່ຽວຊານດ້ານຂໍ້ມູນຂອງ SAS

ພວກເຮົາໄດ້ເຮັດຫຍັງ?

ເປັນຫຍັງຂໍ້ມູນສັງເຄາະຂອງພວກເຮົາຈຶ່ງຖືກປະເມີນຈາກພາຍນອກໂດຍຜູ້ຊ່ຽວຊານດ້ານຂໍ້ມູນຂອງ SAS?

SAS ໄດ້ເຮັດຫຍັງໃນລະຫວ່າງການປະເມີນນີ້?

ທ່ານ​ມີ​ຄໍາ​ຖາມ​ໃດໆ?

ສົນທະນາກັບຜູ້ຊ່ຽວຊານຂອງພວກເຮົາ

ຜົນໄດ້ຮັບເບື້ອງຕົ້ນຂອງການປະເມີນຂໍ້ມູນໂດຍ SAS

ເປັນຫຍັງແບບຈໍາລອງທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບຂໍ້ມູນທີ່ບໍ່ເປີດເຜີຍຊື່ເຮັດໃຫ້ຄະແນນບໍ່ດີ?

ຜົນໄດ້ຮັບເພີ່ມເຕີມຂອງການປະເມີນຂໍ້ມູນສັງເຄາະໂດຍ SAS

ຜົນໄດ້ຮັບເພີ່ມເຕີມຂອງການປະເມີນຂໍ້ມູນສັງເຄາະໂດຍ SAS

ບົດສະຫຼຸບໂດຍຜູ້ຊ່ຽວຊານດ້ານຂໍ້ມູນຂອງ SAS

ຂໍ້ມູນສັງເຄາະຂອງພວກເຮົາແມ່ນ ການອະນຸມັດ ໂດຍຜູ້ຊ່ຽວຊານດ້ານຂໍ້ມູນຂອງ SAS

ບົດຄວາມອ້າງອີງ

ບັນທຶກຄູ່ມືຂໍ້ມູນສັງເຄາະຂອງເຈົ້າດຽວນີ້!

ເມ​ນູ​ຫຼັກ

ບັນທຶກຄູ່ມືຂໍ້ມູນສັງເຄາະຂອງເຈົ້າດຽວນີ້!

ຂໍ້ມູນສະຫນັບສະຫນູນ

ຕົວຢ່າງຜະລິດຕະພັນ

ຮັກສາສຸຂະພາບ

ກໍລະນີສຶກສາ

ກ່ຽວກັບພວກເຮົາ

ທ່ານມີຄໍາຖາມໃດໆ?

ເມນູຫຼັກ