ข้อมูลที่ไม่ระบุตัวตนเทียบกับข้อมูลสังเคราะห์

หากคุณทำให้ข้อมูลของคุณเป็นนิรนามก่อนทำการทดสอบข้อมูลของการวิเคราะห์ข้อมูล มีปัจจัยหลายประการที่เกี่ยวข้อง:

  1. ในเกือบทุกกรณี ข้อมูลที่ไม่ระบุชื่อยังคงสามารถตรวจสอบย้อนกลับไปยังบุคคลได้เนื่องจากแถวที่เฉพาะเจาะจงและไม่ซ้ำใคร (เช่น เวชระเบียน)
  2. ยิ่งคุณไม่เปิดเผยตัวตนหรือพูดเป็นนัย ข้อมูลที่คุณทำลายก็จะยิ่งมากขึ้นเท่านั้น สิ่งนี้จะลดคุณภาพของข้อมูลและทำให้ข้อมูลเชิงลึกของคุณ
  3. การทำให้ไม่เปิดเผยชื่อทำงานแตกต่างกันสำหรับรูปแบบข้อมูลต่างๆ ซึ่งหมายความว่าไม่สามารถปรับขนาดได้และอาจใช้เวลานานมาก

ข้อมูลสังเคราะห์ช่วยแก้ไขข้อบกพร่องเหล่านี้และอื่นๆ อีกมากมาย ชมวิดีโอด้านล่างเพื่อดูผู้เชี่ยวชาญด้านการวิเคราะห์จาก SAS (ผู้นำตลาดระดับโลกในด้านการวิเคราะห์) อธิบายเกี่ยวกับการประเมินของเขาเกี่ยวกับความแตกต่างในด้านคุณภาพระหว่างข้อมูลต้นฉบับ ข้อมูลที่ไม่ระบุตัวตน และโดย Syntho ได้สร้างข้อมูลสังเคราะห์ขึ้น

วิดีโอนี้ถ่ายจาก Syntho x SAS D[N]A Café เกี่ยวกับข้อมูลสังเคราะห์ที่สร้างโดย AI ค้นหาวิดีโอแบบเต็มได้ที่นี่

Edwin van Unen ส่งชุดข้อมูลดั้งเดิมไปยัง Syntho และเราสังเคราะห์ชุดข้อมูลดังกล่าว แต่คำถามก็คือ: "จะเกิดอะไรขึ้นถ้าเราเปรียบเทียบข้อมูลสังเคราะห์กับข้อมูลที่ไม่ระบุชื่อ" เนื่องจากคุณสูญเสียข้อมูลจำนวนมากในข้อมูลที่ไม่ระบุตัวตน สิ่งนี้จะเกิดขึ้นเช่นกันเมื่อทำการสังเคราะห์ชุดข้อมูลหรือไม่ เราเริ่มต้นด้วยชุดข้อมูลจากอุตสาหกรรมโทรคมนาคมที่มี 56.000 แถวและ 128 คอลัมน์ของข้อมูลการปั่นของบริษัท ชุดข้อมูลนี้มีทั้งการสังเคราะห์และไม่ระบุชื่อ ดังนั้น Edwin สามารถเปรียบเทียบการสังเคราะห์กับการไม่ระบุชื่อได้ จากนั้น Edwin ก็เริ่มสร้างแบบจำลองโดยใช้ SAS Viya เขาสร้างโมเดลปั่นป่วนสองสามชุดบนชุดข้อมูลดั้งเดิม โดยใช้เทคนิคการถดถอยแบบคลาสสิกและแผนผังการตัดสินใจ แต่ยังรวมถึงเทคนิคที่ซับซ้อนมากขึ้นด้วย เช่น โครงข่ายประสาทเทียม การไล่ระดับความชัน ฟอเรสต์แบบสุ่ม ซึ่งเป็นเทคนิคประเภทนี้ การใช้ตัวเลือก SAS Viya มาตรฐานเมื่อสร้างแบบจำลอง

จากนั้นก็ถึงเวลาดูผลลัพธ์ ผลลัพธ์ที่ได้มีแนวโน้มที่ดีสำหรับข้อมูลสังเคราะห์และไม่ได้สำหรับการไม่เปิดเผยชื่อ สำหรับผู้เชี่ยวชาญที่ไม่มีแมชชีนเลิร์นนิงในกลุ่มผู้ชม เราจะดูที่พื้นที่ใต้เส้นโค้ง ROC ซึ่งบอกบางอย่างเกี่ยวกับความถูกต้องของแบบจำลอง การเปรียบเทียบข้อมูลต้นฉบับกับข้อมูลที่ไม่ระบุชื่อ เราพบว่าแบบจำลองข้อมูลต้นฉบับมีพื้นที่ใต้เส้นโค้ง ROC ที่ .8 ซึ่งถือว่าค่อนข้างดี อย่างไรก็ตาม ข้อมูลที่ไม่ระบุตัวตนมีพื้นที่ใต้เส้นโค้ง ROC ที่ .6 ซึ่งหมายความว่าเราสูญเสียข้อมูลจำนวนมากด้วยแบบจำลองที่ไม่ระบุชื่อ ดังนั้นคุณจึงสูญเสียพลังการทำนายไปมาก

แต่แล้ว คำถามก็คือ แล้วข้อมูลสังเคราะห์ล่ะ? ที่นี่ เราทำสิ่งเดียวกันทุกประการ แต่แทนที่จะทำให้ข้อมูลไม่เปิดเผยตัว Syntho สังเคราะห์ข้อมูล ตอนนี้ เราเห็นทั้งข้อมูลดั้งเดิมและข้อมูลสังเคราะห์มีพื้นที่ใต้เส้นโค้ง ROC ที่ .8 ซึ่งคล้ายกันมาก ไม่เหมือนกันทั้งหมดเนื่องจากความแปรปรวน แต่คล้ายกันมาก ซึ่งหมายความว่า ศักยภาพของข้อมูลสังเคราะห์มีแนวโน้มสูง – Edwin มีความสุขมากเกี่ยวกับเรื่องนี้

กลุ่มคนที่ยิ้ม

ข้อมูลเป็นสิ่งสังเคราะห์ แต่ทีมของเรามีจริง!

ติดต่อ Syntho และหนึ่งในผู้เชี่ยวชาญของเราจะติดต่อคุณด้วยความเร็วแสงเพื่อสำรวจคุณค่าของข้อมูลสังเคราะห์!