FAQ
ຄໍາຖາມທີ່ຖາມເລື້ອຍໆກ່ຽວກັບຂໍ້ມູນສັງເຄາະ
ເຂົ້າໃຈໄດ້! ໂຊກດີ, ພວກເຮົາມີຄໍາຕອບແລະພວກເຮົາຢູ່ທີ່ນີ້ເພື່ອຊ່ວຍ. ກວດເບິ່ງຄໍາຖາມທີ່ຖາມເລື້ອຍໆຂອງພວກເຮົາ.
ກະລຸນາເປີດຄໍາຖາມຂ້າງລຸ່ມນີ້ແລະຄລິກໃສ່ການເຊື່ອມຕໍ່ເພື່ອຊອກຫາຂໍ້ມູນເພີ່ມເຕີມ. ມີຄໍາຖາມທີ່ສັບສົນກວ່າທີ່ບໍ່ໄດ້ລະບຸໄວ້ຢູ່ທີ່ນີ້ບໍ? ສອບຖາມຜູ້ຊ່ຽວຊານຂອງພວກເຮົາໂດຍກົງ!
ຄໍາຖາມທີ່ຖືກຖາມຫຼາຍທີ່ສຸດ
ຂໍ້ມູນສັງເຄາະໝາຍເຖິງຂໍ້ມູນທີ່ຖືກສ້າງໂດຍປອມແທນທີ່ຈະເກັບກຳຈາກແຫຼ່ງຂໍ້ມູນໃນໂລກຈິງ. ໂດຍທົ່ວໄປ, ໃນຂະນະທີ່ຂໍ້ມູນຕົ້ນສະບັບໄດ້ຖືກເກັບກໍາໃນການໂຕ້ຕອບທັງຫມົດຂອງທ່ານກັບບຸກຄົນ (ລູກຄ້າ, ຄົນເຈັບ, ແລະອື່ນໆ) ແລະໂດຍຜ່ານຂະບວນການພາຍໃນທັງຫມົດຂອງທ່ານ, ຂໍ້ມູນສັງເຄາະແມ່ນສ້າງຂຶ້ນໂດຍລະບົບຄອມພິວເຕີ.
ຂໍ້ມູນສັງເຄາະຍັງສາມາດຖືກນໍາໃຊ້ເພື່ອທົດສອບແລະປະເມີນແບບຈໍາລອງໃນສະພາບແວດລ້ອມທີ່ມີການຄວບຄຸມ, ຫຼືເພື່ອປົກປ້ອງຂໍ້ມູນທີ່ລະອຽດອ່ອນໂດຍການສ້າງຂໍ້ມູນທີ່ຄ້າຍຄືກັບຂໍ້ມູນໃນໂລກທີ່ແທ້ຈິງແຕ່ບໍ່ມີຂໍ້ມູນທີ່ລະອຽດອ່ອນ. ຂໍ້ມູນສັງເຄາະມັກຈະຖືກໃຊ້ເປັນທາງເລືອກສໍາລັບຂໍ້ມູນທີ່ມີຄວາມອ່ອນໄຫວດ້ານຄວາມເປັນສ່ວນຕົວ ແລະສາມາດຖືກນໍາໃຊ້ເປັນຂໍ້ມູນທົດສອບ, ສໍາລັບການວິເຄາະ ຫຼືເພື່ອຝຶກອົບຮົມການຮຽນຮູ້ຂອງເຄື່ອງຈັກ.
ການຮັບປະກັນວ່າຂໍ້ມູນສັງເຄາະມີຄຸນນະພາບຂໍ້ມູນດຽວກັນກັບຂໍ້ມູນຕົ້ນສະບັບສາມາດເປັນສິ່ງທ້າທາຍ, ແລະມັກຈະຂຶ້ນກັບກໍລະນີການນໍາໃຊ້ສະເພາະແລະວິທີການທີ່ໃຊ້ໃນການສ້າງຂໍ້ມູນສັງເຄາະ. ບາງວິທີການສ້າງຂໍ້ມູນສັງເຄາະ, ເຊັ່ນ: ແບບຈໍາລອງການຜະລິດ, ສາມາດຜະລິດຂໍ້ມູນທີ່ມີຄວາມຄ້າຍຄືກັນກັບຂໍ້ມູນຕົ້ນສະບັບ. ຄໍາຖາມທີ່ສໍາຄັນ: ວິທີການສະແດງໃຫ້ເຫັນນີ້?
ມີບາງວິທີເພື່ອຮັບປະກັນຄຸນນະພາບຂອງຂໍ້ມູນສັງເຄາະ:
- ການວັດແທກຄຸນນະພາບຂໍ້ມູນຜ່ານບົດລາຍງານຄຸນນະພາບຂໍ້ມູນຂອງພວກເຮົາ: ວິທີຫນຶ່ງເພື່ອຮັບປະກັນວ່າຂໍ້ມູນສັງເຄາະມີຄຸນນະພາບຂໍ້ມູນດຽວກັນກັບຂໍ້ມູນຕົ້ນສະບັບແມ່ນການນໍາໃຊ້ metrics ຄຸນນະພາບຂໍ້ມູນເພື່ອປຽບທຽບຂໍ້ມູນສັງເຄາະກັບຂໍ້ມູນຕົ້ນສະບັບ. ຕົວຊີ້ວັດເຫຼົ່ານີ້ສາມາດຖືກນໍາໃຊ້ເພື່ອວັດແທກສິ່ງຕ່າງໆເຊັ່ນ: ຄວາມຄ້າຍຄືກັນ, ຄວາມຖືກຕ້ອງ, ແລະຄວາມສົມບູນຂອງຂໍ້ມູນ. ຊອບແວ Syntho ປະກອບມີບົດລາຍງານຄຸນນະພາບຂໍ້ມູນທີ່ມີຕົວຊີ້ບອກຄຸນນະພາບຂໍ້ມູນຕ່າງໆ.
- ການປະເມີນຜົນພາຍນອກ: ເນື່ອງຈາກຄຸນນະພາບຂໍ້ມູນຂອງຂໍ້ມູນສັງເຄາະໃນການປຽບທຽບກັບຂໍ້ມູນຕົ້ນສະບັບແມ່ນສໍາຄັນ, ພວກເຮົາບໍ່ດົນມານີ້ໄດ້ດໍາເນີນການປະເມີນກັບຜູ້ຊ່ຽວຊານດ້ານຂໍ້ມູນຂອງ SAS (ຜູ້ນໍາຕະຫຼາດໃນການວິເຄາະ) ເພື່ອສະແດງໃຫ້ເຫັນເຖິງຄຸນນະພາບຂໍ້ມູນຂອງຂໍ້ມູນສັງເຄາະໂດຍ Syntho ໃນການປຽບທຽບກັບຂໍ້ມູນທີ່ແທ້ຈິງ. Edwin van Unen, ຜູ້ຊ່ຽວຊານດ້ານການວິເຄາະຈາກ SAS, ໄດ້ປະເມີນຊຸດຂໍ້ມູນສັງເຄາະທີ່ສ້າງຂຶ້ນຈາກ Syntho ໂດຍຜ່ານການປະເມີນການວິເຄາະຕ່າງໆ (AI) ແລະແບ່ງປັນຜົນໄດ້ຮັບ. ເບິ່ງບົດສະຫຼຸບສັ້ນໆຂອງວິດີໂອນັ້ນຢູ່ບ່ອນນີ້.
- ການທົດສອບແລະການປະເມີນຜົນດ້ວຍຕົວທ່ານເອງ: ຂໍ້ມູນສັງເຄາະສາມາດທົດສອບ ແລະປະເມີນໄດ້ໂດຍການປຽບທຽບມັນກັບຂໍ້ມູນໃນໂລກທີ່ແທ້ຈິງ ຫຼືໂດຍການໃຊ້ມັນເພື່ອຝຶກອົບຮົມແບບຈໍາລອງການຮຽນຮູ້ຂອງເຄື່ອງຈັກ ແລະປຽບທຽບປະສິດທິພາບຂອງເຂົາເຈົ້າກັບຕົວແບບທີ່ໄດ້ຮັບການຝຶກອົບຮົມຈາກຂໍ້ມູນໃນໂລກທີ່ແທ້ຈິງ. ເປັນຫຍັງບໍ່ທົດສອບຄຸນນະພາບຂໍ້ມູນຂອງຂໍ້ມູນສັງເຄາະດ້ວຍຕົວທ່ານເອງ? ຖາມຜູ້ຊ່ຽວຊານຂອງພວກເຮົາສໍາລັບຄວາມເປັນໄປໄດ້ຂອງສິ່ງນີ້ທີ່ນີ້.
ມັນເປັນສິ່ງສໍາຄັນທີ່ຄວນສັງເກດວ່າຂໍ້ມູນສັງເຄາະບໍ່ສາມາດຮັບປະກັນໄດ້ 100% ຄ້າຍຄືກັນກັບຂໍ້ມູນຕົ້ນສະບັບ, ແຕ່ມັນສາມາດໃກ້ຊິດພຽງພໍທີ່ຈະເປັນປະໂຫຍດສໍາລັບກໍລະນີການນໍາໃຊ້ສະເພາະ. ກໍລະນີການນໍາໃຊ້ສະເພາະນີ້ສາມາດເປັນການວິເຄາະແບບພິເສດຫຼືແບບຈໍາລອງການຮຽນຮູ້ເຄື່ອງຈັກ.
'ການປິດບັງຊື່' ແບບເກົ່າບໍ່ແມ່ນທາງອອກທີ່ດີທີ່ສຸດສະເໝີໄປ, ເພາະວ່າ:
- ຄວາມສ່ຽງດ້ານຄວາມເປັນສ່ວນຕົວ - ທ່ານຈະມີສະເຫມີໄປ
ຄວາມສ່ຽງດ້ານຄວາມເປັນສ່ວນຕົວ. ການນໍາໃຊ້ເຫຼົ່ານັ້ນ
ເທັກນິກການປິດບັງຊື່ລັບແບບເກົ່າ
ເຮັດໃຫ້ມັນຍາກກວ່າ, ແຕ່ບໍ່ແມ່ນ
ເປັນໄປບໍ່ໄດ້ທີ່ຈະລະບຸບຸກຄົນ. - ການທໍາລາຍຂໍ້ມູນ – ຫຼາຍທ່ານ
anonymize, ການທີ່ດີກວ່າທ່ານປົກປ້ອງ
ຄວາມເປັນສ່ວນຕົວຂອງທ່ານ, ແຕ່ຫຼາຍທ່ານ
ທໍາລາຍຂໍ້ມູນຂອງທ່ານ. ນີ້ບໍ່ແມ່ນສິ່ງທີ່
ທ່ານຕ້ອງການການວິເຄາະ, ເພາະວ່າ
ຂໍ້ມູນທີ່ຖືກທໍາລາຍຈະສົ່ງຜົນບໍ່ດີ
ຄວາມເຂົ້າໃຈ. - ໃຊ້ເວລາຫຼາຍ – ມັນເປັນການແກ້ໄຂ
ມັນໃຊ້ເວລາຫຼາຍ, ເພາະວ່າ
ເຕັກນິກເຫຼົ່ານັ້ນເຮັດວຽກແຕກຕ່າງກັນ
ຕໍ່ຊຸດຂໍ້ມູນ ແລະຕໍ່ປະເພດຂໍ້ມູນ.
ຂໍ້ມູນສັງເຄາະມີຈຸດປະສົງເພື່ອແກ້ໄຂຂໍ້ບົກຜ່ອງທັງຫມົດເຫຼົ່ານີ້. ຄວາມແຕກຕ່າງແມ່ນດີຫຼາຍທີ່ພວກເຮົາໄດ້ເຮັດວິດີໂອກ່ຽວກັບມັນ. ເບິ່ງມັນຢູ່ທີ່ນີ້.
ຄໍາຖາມທີ່ຖືກຖາມເລື້ອຍໆ
ຂໍ້ມູນສັງເຄາະ
ໂດຍທົ່ວໄປແລ້ວ, ລູກຄ້າສ່ວນໃຫຍ່ຂອງພວກເຮົາໃຊ້ຂໍ້ມູນສັງເຄາະສໍາລັບ:
- ການທົດສອບແລະການພັດທະນາຊອບແວ
- ຂໍ້ມູນສັງເຄາະສຳລັບການວິເຄາະ, ການພັດທະນາຕົວແບບ ແລະການວິເຄາະຂັ້ນສູງ (AI & ML)
- ການສາທິດຜະລິດຕະພັນ
ຄູ່ແຝດຂໍ້ມູນສັງເຄາະແມ່ນແບບຈໍາລອງທີ່ສ້າງດ້ວຍລະບົບຂອງລະບົບຂໍ້ມູນ ແລະ/ຫຼືຖານຂໍ້ມູນຕົວຈິງ. ດ້ວຍຄູ່ແຝດຂໍ້ມູນສັງເຄາະ, Syntho ມີຈຸດປະສົງເພື່ອ mimic ຊຸດຂໍ້ມູນຕົ້ນສະບັບຫຼືຖານຂໍ້ມູນທີ່ໃກ້ຊິດເທົ່າທີ່ເປັນໄປໄດ້ກັບຂໍ້ມູນຕົ້ນສະບັບເພື່ອສ້າງການເປັນຕົວແທນທີ່ແທ້ຈິງຂອງຕົ້ນສະບັບ. ດ້ວຍຄູ່ແຝດຂໍ້ມູນສັງເຄາະ, ພວກເຮົາຕັ້ງເປົ້າໝາຍໃຫ້ມີຄຸນນະພາບຂໍ້ມູນສັງເຄາະທີ່ດີຂຶ້ນເມື່ອປຽບທຽບກັບຂໍ້ມູນຕົ້ນສະບັບ. ພວກເຮົາເຮັດອັນນີ້ກັບຊອບແວຂໍ້ມູນສັງເຄາະຂອງພວກເຮົາທີ່ໃຊ້ຕົວແບບ AI ທີ່ທັນສະໄໝ. ຮູບແບບ AI ເຫຼົ່ານັ້ນສ້າງຈຸດຂໍ້ມູນໃຫມ່ຢ່າງສົມບູນແລະສ້າງແບບຈໍາລອງໃຫ້ເຂົາເຈົ້າໃນລັກສະນະທີ່ພວກເຮົາຮັກສາຄຸນລັກສະນະ, ຄວາມສໍາພັນແລະຮູບແບບສະຖິຕິຂອງຂໍ້ມູນຕົ້ນສະບັບໃນຂອບເຂດທີ່ທ່ານສາມາດນໍາໃຊ້ມັນຄືກັບວ່າມັນເປັນຂໍ້ມູນຕົ້ນສະບັບ.
ນີ້ສາມາດຖືກນໍາໃຊ້ເພື່ອຈຸດປະສົງທີ່ຫຼາກຫຼາຍ, ເຊັ່ນ: ການທົດສອບແລະການຝຶກອົບຮົມຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກ, ການຈໍາລອງສະຖານະການສໍາລັບການຄົ້ນຄວ້າແລະການພັດທະນາ, ແລະການສ້າງສະພາບແວດລ້ອມ virtual ສໍາລັບການຝຶກອົບຮົມແລະການສຶກສາ. ຄູ່ແຝດຂໍ້ມູນສັງເຄາະສາມາດຖືກນໍາໃຊ້ເພື່ອສ້າງຂໍ້ມູນທີ່ແທ້ຈິງແລະເປັນຕົວແທນທີ່ສາມາດໃຊ້ແທນຂໍ້ມູນໃນໂລກທີ່ແທ້ຈິງໃນເວລາທີ່ມັນບໍ່ມີຫຼືໃນເວລາທີ່ການນໍາໃຊ້ຂໍ້ມູນໃນໂລກທີ່ແທ້ຈິງຈະ impractical ຫຼື unethical ເນື່ອງຈາກກົດລະບຽບຄວາມເປັນສ່ວນຕົວຂໍ້ມູນທີ່ເຂັ້ມງວດ.
ແມ່ນແລ້ວພວກເຮົາເຮັດ. ພວກເຮົາສະເຫນີການເພີ່ມປະສິດທິພາບຂໍ້ມູນສັງເຄາະແລະການເພີ່ມມູນຄ່າຕ່າງໆ, ລວມທັງການເຍາະເຍີ້ຍ, ເພື່ອນໍາຂໍ້ມູນຂອງທ່ານໄປສູ່ລະດັບຕໍ່ໄປ.
ຂໍ້ມູນຈໍາລອງແລະຂໍ້ມູນສັງເຄາະທີ່ສ້າງໂດຍ AI ແມ່ນທັງສອງປະເພດຂອງຂໍ້ມູນສັງເຄາະ, ແຕ່ພວກມັນຖືກສ້າງຂື້ນໃນທາງທີ່ແຕກຕ່າງກັນແລະຮັບໃຊ້ຈຸດປະສົງທີ່ແຕກຕ່າງກັນ.
ຂໍ້ມູນຈໍາລອງແມ່ນປະເພດຂອງຂໍ້ມູນສັງເຄາະທີ່ຖືກສ້າງຂຶ້ນດ້ວຍຕົນເອງແລະມັກຈະຖືກນໍາໃຊ້ເພື່ອຈຸດປະສົງການທົດສອບແລະການພັດທະນາ. ໂດຍປົກກະຕິມັນຖືກນໍາໃຊ້ເພື່ອຈໍາລອງພຶດຕິກໍາຂອງຂໍ້ມູນທີ່ແທ້ຈິງໃນສະພາບແວດລ້ອມທີ່ມີການຄວບຄຸມແລະມັກຈະຖືກນໍາໃຊ້ເພື່ອທົດສອບການເຮັດວຽກຂອງລະບົບຫຼືແອັບພລິເຄຊັນ. ມັນມັກຈະງ່າຍດາຍ, ງ່າຍທີ່ຈະສ້າງ, ແລະບໍ່ຮຽກຮ້ອງໃຫ້ມີຕົວແບບສະລັບສັບຊ້ອນຫຼືສູດການຄິດໄລ່. ເລື້ອຍໆ, ຜູ້ອ້າງອີງຄົນຫນຶ່ງຍັງຈະເຍາະເຍີ້ຍຂໍ້ມູນເປັນ "ຂໍ້ມູນ dummy" ຫຼື "ຂໍ້ມູນປອມ".
ໃນທາງກົງກັນຂ້າມ, ຂໍ້ມູນສັງເຄາະທີ່ສ້າງຂຶ້ນໂດຍ AI ແມ່ນສ້າງຂຶ້ນໂດຍໃຊ້ເຕັກນິກປັນຍາປະດິດ, ເຊັ່ນ: ການຮຽນຮູ້ເຄື່ອງຈັກ ຫຼື ຮູບແບບການຜະລິດ. ມັນຖືກນໍາໃຊ້ເພື່ອສ້າງຂໍ້ມູນທີ່ແທ້ຈິງແລະເປັນຕົວແທນທີ່ສາມາດຖືກນໍາໃຊ້ແທນຂໍ້ມູນໃນໂລກທີ່ແທ້ຈິງໃນເວລາທີ່ການນໍາໃຊ້ຂໍ້ມູນໃນໂລກທີ່ແທ້ຈິງຈະ impractical ຫຼື unethical ເນື່ອງຈາກກົດລະບຽບຄວາມເປັນສ່ວນຕົວທີ່ເຂັ້ມງວດ. ມັນມັກຈະມີຄວາມສັບສົນຫຼາຍ ແລະຕ້ອງການຊັບພະຍາກອນການຄິດໄລ່ຫຼາຍກວ່າຂໍ້ມູນແບບຈໍາລອງຄູ່ມື. ດັ່ງນັ້ນ, ມັນເປັນຈິງຫຼາຍແລະ mimics ຂໍ້ມູນຕົ້ນສະບັບໃກ້ຊິດເທົ່າທີ່ເປັນໄປໄດ້.
ສະຫຼຸບສັງລວມ, ຂໍ້ມູນຈໍາລອງແມ່ນຖືກສ້າງຂຶ້ນດ້ວຍຕົນເອງແລະຖືກນໍາໃຊ້ໂດຍປົກກະຕິສໍາລັບການທົດສອບແລະການພັດທະນາ, ໃນຂະນະທີ່ຂໍ້ມູນສັງເຄາະທີ່ສ້າງໂດຍ AI ຖືກສ້າງຂຶ້ນໂດຍໃຊ້ເຕັກນິກປັນຍາປະດິດແລະຖືກນໍາໃຊ້ເພື່ອສ້າງຂໍ້ມູນຕົວແທນແລະຕົວຈິງ.
ຄຸນະພາບຂໍ້ມູນ
ການຮັບປະກັນວ່າຂໍ້ມູນສັງເຄາະມີຄຸນນະພາບຂໍ້ມູນດຽວກັນກັບຂໍ້ມູນຕົ້ນສະບັບສາມາດເປັນສິ່ງທ້າທາຍ, ແລະມັກຈະຂຶ້ນກັບກໍລະນີການນໍາໃຊ້ສະເພາະແລະວິທີການທີ່ໃຊ້ໃນການສ້າງຂໍ້ມູນສັງເຄາະ. ບາງວິທີການສ້າງຂໍ້ມູນສັງເຄາະ, ເຊັ່ນ: ແບບຈໍາລອງການຜະລິດ, ສາມາດຜະລິດຂໍ້ມູນທີ່ມີຄວາມຄ້າຍຄືກັນກັບຂໍ້ມູນຕົ້ນສະບັບ. ຄໍາຖາມທີ່ສໍາຄັນ: ວິທີການສະແດງໃຫ້ເຫັນນີ້?
ມີບາງວິທີເພື່ອຮັບປະກັນຄຸນນະພາບຂອງຂໍ້ມູນສັງເຄາະ:
- ການວັດແທກຄຸນນະພາບຂໍ້ມູນຜ່ານບົດລາຍງານຄຸນນະພາບຂໍ້ມູນຂອງພວກເຮົາ: ວິທີຫນຶ່ງເພື່ອຮັບປະກັນວ່າຂໍ້ມູນສັງເຄາະມີຄຸນນະພາບຂໍ້ມູນດຽວກັນກັບຂໍ້ມູນຕົ້ນສະບັບແມ່ນການນໍາໃຊ້ metrics ຄຸນນະພາບຂໍ້ມູນເພື່ອປຽບທຽບຂໍ້ມູນສັງເຄາະກັບຂໍ້ມູນຕົ້ນສະບັບ. ຕົວຊີ້ວັດເຫຼົ່ານີ້ສາມາດຖືກນໍາໃຊ້ເພື່ອວັດແທກສິ່ງຕ່າງໆເຊັ່ນ: ຄວາມຄ້າຍຄືກັນ, ຄວາມຖືກຕ້ອງ, ແລະຄວາມສົມບູນຂອງຂໍ້ມູນ. ຊອບແວ Syntho ປະກອບມີບົດລາຍງານຄຸນນະພາບຂໍ້ມູນທີ່ມີຕົວຊີ້ບອກຄຸນນະພາບຂໍ້ມູນຕ່າງໆ.
- ການປະເມີນຜົນພາຍນອກ: ເນື່ອງຈາກຄຸນນະພາບຂໍ້ມູນຂອງຂໍ້ມູນສັງເຄາະໃນການປຽບທຽບກັບຂໍ້ມູນຕົ້ນສະບັບແມ່ນສໍາຄັນ, ພວກເຮົາບໍ່ດົນມານີ້ໄດ້ດໍາເນີນການປະເມີນກັບຜູ້ຊ່ຽວຊານດ້ານຂໍ້ມູນຂອງ SAS (ຜູ້ນໍາຕະຫຼາດໃນການວິເຄາະ) ເພື່ອສະແດງໃຫ້ເຫັນເຖິງຄຸນນະພາບຂໍ້ມູນຂອງຂໍ້ມູນສັງເຄາະໂດຍ Syntho ໃນການປຽບທຽບກັບຂໍ້ມູນທີ່ແທ້ຈິງ. Edwin van Unen, ຜູ້ຊ່ຽວຊານດ້ານການວິເຄາະຈາກ SAS, ໄດ້ປະເມີນຊຸດຂໍ້ມູນສັງເຄາະທີ່ສ້າງຂຶ້ນຈາກ Syntho ໂດຍຜ່ານການປະເມີນການວິເຄາະຕ່າງໆ (AI) ແລະແບ່ງປັນຜົນໄດ້ຮັບ. ເບິ່ງບົດສະຫຼຸບສັ້ນໆຂອງວິດີໂອນັ້ນຢູ່ບ່ອນນີ້.
- ການທົດສອບແລະການປະເມີນຜົນດ້ວຍຕົວທ່ານເອງ: ຂໍ້ມູນສັງເຄາະສາມາດທົດສອບ ແລະປະເມີນໄດ້ໂດຍການປຽບທຽບມັນກັບຂໍ້ມູນໃນໂລກທີ່ແທ້ຈິງ ຫຼືໂດຍການໃຊ້ມັນເພື່ອຝຶກອົບຮົມແບບຈໍາລອງການຮຽນຮູ້ຂອງເຄື່ອງຈັກ ແລະປຽບທຽບປະສິດທິພາບຂອງເຂົາເຈົ້າກັບຕົວແບບທີ່ໄດ້ຮັບການຝຶກອົບຮົມຈາກຂໍ້ມູນໃນໂລກທີ່ແທ້ຈິງ. ເປັນຫຍັງບໍ່ທົດສອບຄຸນນະພາບຂໍ້ມູນຂອງຂໍ້ມູນສັງເຄາະດ້ວຍຕົວທ່ານເອງ? ຖາມຜູ້ຊ່ຽວຊານຂອງພວກເຮົາສໍາລັບຄວາມເປັນໄປໄດ້ຂອງສິ່ງນີ້ທີ່ນີ້.
ມັນເປັນສິ່ງສໍາຄັນທີ່ຄວນສັງເກດວ່າຂໍ້ມູນສັງເຄາະບໍ່ສາມາດຮັບປະກັນໄດ້ 100% ຄ້າຍຄືກັນກັບຂໍ້ມູນຕົ້ນສະບັບ, ແຕ່ມັນສາມາດໃກ້ຊິດພຽງພໍທີ່ຈະເປັນປະໂຫຍດສໍາລັບກໍລະນີການນໍາໃຊ້ສະເພາະ. ກໍລະນີການນໍາໃຊ້ສະເພາະນີ້ສາມາດເປັນການວິເຄາະແບບພິເສດຫຼືແບບຈໍາລອງການຮຽນຮູ້ເຄື່ອງຈັກ.
ແມ່ນແລ້ວ. ຂໍ້ມູນສັງເຄາະເຖິງແມ່ນວ່າຖືຮູບແບບທີ່ທ່ານບໍ່ຮູ້ວ່າພວກເຂົາເຈົ້າມີຢູ່ໃນຂໍ້ມູນຕົ້ນສະບັບ.
ແຕ່ຢ່າເອົາພຽງແຕ່ຄໍາຂອງພວກເຮົາສໍາລັບມັນ. ຜູ້ຊ່ຽວຊານດ້ານການວິເຄາະຂອງ SAS (ຜູ້ນໍາຕະຫຼາດໂລກໃນການວິເຄາະ) ໄດ້ປະເມີນ (AI) ຂໍ້ມູນສັງເຄາະຂອງພວກເຮົາແລະປຽບທຽບກັບຂໍ້ມູນຕົ້ນສະບັບ. ຢາກຮູ້ຢາກເຫັນ? ສັງເກດເບິ່ງ ເຫດການທັງຫມົດຢູ່ທີ່ນີ້ ຫຼືເບິ່ງສະບັບສັ້ນກ່ຽວກັບ ຄຸນະພາບຂໍ້ມູນຢູ່ທີ່ນີ້.
ແມ່ນແລ້ວພວກເຮົາເຮັດ. ແພລະຕະຟອມຂອງພວກເຮົາຖືກປັບປຸງໃຫ້ເຫມາະສົມສໍາລັບຖານຂໍ້ມູນແລະດັ່ງນັ້ນ, ການຮັກສາຄວາມຊື່ສັດຂອງການອ້າງອິງລະຫວ່າງຊຸດຂໍ້ມູນໃນ datgabase.
ຢາກຮູ້ຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບເລື່ອງນີ້ບໍ?
ຄວາມເປັນສ່ວນຕົວ
ບໍ່ພວກເຮົາເຮັດບໍ່ໄດ້. ພວກເຮົາສາມາດນໍາໃຊ້ Syntho Engine ໄດ້ຢ່າງງ່າຍດາຍໃນສະຖານທີ່ຫຼືໃນການຟັງສ່ວນຕົວຂອງທ່ານໂດຍຜ່ານ docker.
ບໍ່. ພວກເຮົາປັບປຸງແພລະຕະຟອມຂອງພວກເຮົາໃຫ້ເໝາະສົມໃນແບບທີ່ມັນສາມາດນຳໃຊ້ໄດ້ງ່າຍໃນສະພາບແວດລ້ອມທີ່ໜ້າເຊື່ອຖືຂອງລູກຄ້າ. ນີ້ຮັບປະກັນວ່າຂໍ້ມູນຈະບໍ່ອອກຈາກສະພາບແວດລ້ອມທີ່ເຊື່ອຖືໄດ້ຂອງລູກຄ້າ. ທາງເລືອກໃນການນໍາໃຊ້ສໍາລັບສະພາບແວດລ້ອມທີ່ເຊື່ອຖືໄດ້ຂອງລູກຄ້າແມ່ນ "ໃນສະຖານທີ່" ແລະໃນ "ສະພາບແວດລ້ອມຟັງຂອງລູກຄ້າ (private cloud)".
ທາງເລືອກ: Syntho ຮອງຮັບເວີຊັນທີ່ຖືກໂຮດຢູ່ໃນ “Syntho cloud”.
ບໍ່. ເຄື່ອງຈັກ Syntho ເປັນເວທີການບໍລິການຕົນເອງ. ດັ່ງນັ້ນ, ການສ້າງຂໍ້ມູນສັງເຄາະດ້ວຍເຄື່ອງຈັກ Syntho ແມ່ນເປັນໄປໄດ້ໃນແບບທີ່ end-to-end ຂະບວນການ, Syntho ບໍ່ເຄີຍສາມາດເຫັນແລະບໍ່ເຄີຍຕ້ອງການເພື່ອປະມວນຜົນຂໍ້ມູນ.
ແມ່ນແລ້ວພວກເຮົາເຮັດສິ່ງນີ້ຜ່ານບົດລາຍງານ QA ຂອງພວກເຮົາ.
ໃນເວລາທີ່ການສັງເຄາະຊຸດຂໍ້ມູນ, ມັນເປັນສິ່ງຈໍາເປັນທີ່ຈະສະແດງໃຫ້ເຫັນວ່າຄົນເຮົາບໍ່ສາມາດກໍານົດບຸກຄົນຄືນໃຫມ່ໄດ້. ໃນ ວິດີໂອນີ້, Marijn ແນະນໍາມາດຕະການຄວາມເປັນສ່ວນຕົວທີ່ມີຢູ່ໃນບົດລາຍງານຄຸນນະພາບຂອງພວກເຮົາເພື່ອສະແດງໃຫ້ເຫັນເຖິງເລື່ອງນີ້.
ບົດລາຍງານ QA ຂອງ Syntho ມີສາມ ມາດຕະຖານອຸດສາຫະກໍາ metrics ສໍາລັບການປະເມີນຄວາມເປັນສ່ວນຕົວຂອງຂໍ້ມູນ. ແນວຄວາມຄິດທີ່ຢູ່ເບື້ອງຫລັງແຕ່ລະ metrics ນີ້ແມ່ນດັ່ງຕໍ່ໄປນີ້:
- ຂໍ້ມູນສັງເຄາະ (S) ຈະ "ໃກ້ຊິດທີ່ສຸດເທົ່າທີ່ເປັນໄປໄດ້", ແຕ່ "ບໍ່ໃກ້ເກີນໄປ" ກັບຂໍ້ມູນເປົ້າຫມາຍ (T).
- ເລືອກຂໍ້ມູນການຄ້າງຢູ່ແບບສຸ່ມ (H) ກໍານົດມາດຕະຖານສໍາລັບ "ໃກ້ເກີນໄປ".
- A ການແກ້ໄຂທີ່ດີເລີດ ສ້າງຂໍ້ມູນສັງເຄາະໃໝ່ທີ່ມີລັກສະນະຄືກັບຂໍ້ມູນເດີມ, ແຕ່ບໍ່ເຄີຍເຫັນມາກ່ອນ (= H).
ຫນຶ່ງໃນກໍລະນີການນໍາໃຊ້ທີ່ຖືກເນັ້ນໂດຍສະເພາະໂດຍອົງການປົກປ້ອງຂໍ້ມູນໂຮນລັງແມ່ນການນໍາໃຊ້ຂໍ້ມູນສັງເຄາະເປັນຂໍ້ມູນການທົດສອບ.
ເຄື່ອງຈັກ Syntho
ເຄື່ອງຈັກ Syntho ຖືກຈັດສົ່ງໃນຕູ້ຄອນເທນເນີ Docker ແລະສາມາດນໍາໄປໃຊ້ໄດ້ງ່າຍແລະສຽບເຂົ້າໄປໃນສະພາບແວດລ້ອມທີ່ທ່ານເລືອກ.
ທາງເລືອກໃນການນຳໃຊ້ທີ່ເປັນໄປໄດ້ລວມມີ:
- ຢູ່ໃນສະຖານທີ່
- ໃດ (ສ່ວນຕົວ) ຟັງ
- ສະພາບແວດລ້ອມອື່ນໆ
Syntho ຊ່ວຍໃຫ້ທ່ານສາມາດເຊື່ອມຕໍ່ກັບຖານຂໍ້ມູນ, ແອັບພລິເຄຊັນ, ທໍ່ຂໍ້ມູນ ຫຼືລະບົບໄຟລ໌ຂອງທ່ານໄດ້ຢ່າງງ່າຍດາຍ.
ພວກເຮົາສະຫນັບສະຫນູນການເຊື່ອມຕໍ່ປະສົມປະສານຕ່າງໆເພື່ອໃຫ້ທ່ານສາມາດເຊື່ອມຕໍ່ກັບແຫຼ່ງສະພາບແວດລ້ອມ (ບ່ອນທີ່ຂໍ້ມູນຕົ້ນສະບັບໄດ້ຖືກເກັບຮັກສາໄວ້) ແລະສະພາບແວດລ້ອມຈຸດຫມາຍປາຍທາງ (ບ່ອນທີ່ທ່ານຕ້ອງການທີ່ຈະຂຽນຂໍ້ມູນສັງເຄາະຂອງທ່ານ) ສໍາລັບການ end-to-end ວິທີການປະສົມປະສານ.
ຄຸນນະສົມບັດການເຊື່ອມຕໍ່ທີ່ພວກເຮົາສະຫນັບສະຫນູນ:
- Plug-and-play ກັບ Docker
- 20+ ຕົວເຊື່ອມຕໍ່ຖານຂໍ້ມູນ
- 20+ ຕົວເຊື່ອມຕໍ່ລະບົບໄຟລ໌
ຕາມທໍາມະຊາດ, ເວລາການຜະລິດແມ່ນຂຶ້ນກັບຂະຫນາດຂອງຖານຂໍ້ມູນ. ໂດຍສະເລ່ຍ, ຕາຕະລາງທີ່ມີບັນທຶກຫນ້ອຍກວ່າ 1 ລ້ານຖືກສັງເຄາະໃນເວລາຫນ້ອຍກວ່າ 5 ນາທີ.
ຂັ້ນຕອນການຮຽນຮູ້ເຄື່ອງຈັກຂອງ Syntho ສາມາດປັບປຸງຄຸນສົມບັດທົ່ວໄປໄດ້ດີຂຶ້ນດ້ວຍບັນທຶກຫົວໜ່ວຍທີ່ມີໃຫ້ຫຼາຍຂຶ້ນ, ເຊິ່ງເຮັດໃຫ້ຄວາມສ່ຽງດ້ານຄວາມເປັນສ່ວນຕົວຫຼຸດລົງ. ອັດຕາສ່ວນຖັນຕໍ່ແຖວຂັ້ນຕ່ຳແມ່ນ 1:500 ແນະນຳ. ຕົວຢ່າງ: ຖ້າຕາຕະລາງແຫຼ່ງຂອງເຈົ້າມີ 6 ຖັນ, ມັນຄວນຈະມີຢ່າງໜ້ອຍ 3000 ແຖວ.
ບໍ່ແມ່ນທັງຫມົດ. ເຖິງແມ່ນວ່າມັນອາດຈະໃຊ້ຄວາມພະຍາຍາມບາງຢ່າງທີ່ຈະເຂົ້າໃຈຢ່າງເຕັມສ່ວນຂໍ້ໄດ້ປຽບ, ການເຮັດວຽກແລະການນໍາໃຊ້ກໍລະນີຂອງຂໍ້ມູນສັງເຄາະ, ຂະບວນການສັງເຄາະແມ່ນງ່າຍດາຍຫຼາຍແລະທຸກຄົນທີ່ມີຄວາມຮູ້ພື້ນຖານຂອງຄອມພິວເຕີສາມາດເຮັດໄດ້. ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບຂະບວນການສັງເຄາະ, ກວດເບິ່ງອອກ ຫນ້ານີ້ or ຮ້ອງຂໍສາທິດ.
ເຄື່ອງຈັກ Syntho ເຮັດວຽກທີ່ດີທີ່ສຸດກ່ຽວກັບຂໍ້ມູນທີ່ມີໂຄງສ້າງ, ຕາຕະລາງ (ອັນໃດກໍ່ຕາມທີ່ມີແຖວແລະຖັນ). ພາຍໃນໂຄງສ້າງເຫຼົ່ານີ້, ພວກເຮົາສະຫນັບສະຫນູນປະເພດຂໍ້ມູນຕໍ່ໄປນີ້:
- ຂໍ້ມູນໂຄງສ້າງທີ່ມີຮູບແບບໃນຕາຕະລາງ (ປະເພດ, ຕົວເລກ, ແລະອື່ນໆ)
- ຕົວລະບຸໂດຍກົງ ແລະ PII
- ຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ແລະຖານຂໍ້ມູນ
- ຂໍ້ມູນສະຖານທີ່ທາງພູມສາດ (ເຊັ່ນ: GPS)
- ຂໍ້ມູນຊຸດເວລາ
- ຖານຂໍ້ມູນຫຼາຍຕາຕະລາງ (ມີຄວາມຊື່ສັດການອ້າງອິງ)
- ເປີດຂໍ້ມູນຂໍ້ຄວາມ
ສະຫນັບສະຫນູນຂໍ້ມູນສະລັບສັບຊ້ອນ
ຕໍ່ໄປກັບທຸກປະເພດຂອງຂໍ້ມູນຕາຕະລາງປົກກະຕິ, Syntho Engine ສະຫນັບສະຫນູນປະເພດຂໍ້ມູນສະລັບສັບຊ້ອນແລະໂຄງສ້າງຂໍ້ມູນສະລັບສັບຊ້ອນ.
- ໄລຍະເວລາ
- ຖານຂໍ້ມູນຫຼາຍຕາຕະລາງ
- ເປີດຂໍ້ຄວາມ
ບໍ່, ພວກເຮົາປັບປຸງແພລະຕະຟອມຂອງພວກເຮົາເພື່ອຫຼຸດຜ່ອນຄວາມຕ້ອງການດ້ານການຄິດໄລ່ (ເຊັ່ນ: ບໍ່ຈໍາເປັນຕ້ອງໃຊ້ GPU), ໂດຍບໍ່ມີການປະນີປະນອມກັບຄວາມຖືກຕ້ອງຂອງຂໍ້ມູນ. ນອກຈາກນັ້ນ, ພວກເຮົາສະຫນັບສະຫນູນ auto scaling, ດັ່ງນັ້ນຫນຶ່ງສາມາດສັງເຄາະຖານຂໍ້ມູນຂະຫນາດໃຫຍ່.
ແມ່ນແລ້ວ. ຊອບແວ Syntho ຖືກປັບປຸງໃຫ້ເໝາະສົມກັບຖານຂໍ້ມູນທີ່ບັນຈຸຫຼາຍຕາຕະລາງ.
ສໍາລັບການນີ້, Syntho ອັດຕະໂນມັດກວດພົບປະເພດຂໍ້ມູນ, schemas ແລະຮູບແບບເພື່ອເຮັດໃຫ້ຄວາມຖືກຕ້ອງຂອງຂໍ້ມູນສູງສຸດ. ສໍາລັບຖານຂໍ້ມູນຫຼາຍຕາຕະລາງ, ພວກເຮົາສະຫນັບສະຫນູນການ inference ການພົວພັນຕາຕະລາງອັດຕະໂນມັດແລະການສັງເຄາະເພື່ອຮັກສາຄວາມຊື່ສັດການອ້າງອິງ.
ຂໍ້ມູນແມ່ນສັງເຄາະ, ແຕ່ທີມງານຂອງພວກເຮົາແມ່ນຈິງ!
ຕິດຕໍ່ Syntho ແລະຫນຶ່ງໃນຜູ້ຊ່ຽວຊານຂອງພວກເຮົາຈະຕິດຕໍ່ກັບທ່ານດ້ວຍຄວາມໄວຂອງແສງເພື່ອຄົ້ນຫາມູນຄ່າຂອງຂໍ້ມູນສັງເຄາະ!