ข้อมูลที่ไม่ระบุตัวตนเทียบกับข้อมูลสังเคราะห์

หากคุณทำให้ข้อมูลของคุณเป็นนิรนามก่อนทำการทดสอบข้อมูลของการวิเคราะห์ข้อมูล มีปัจจัยหลายประการที่เกี่ยวข้อง:

ในเกือบทุกกรณี ข้อมูลที่ไม่ระบุชื่อยังคงสามารถตรวจสอบย้อนกลับไปยังบุคคลได้เนื่องจากแถวที่เฉพาะเจาะจงและไม่ซ้ำใคร (เช่น เวชระเบียน)
ยิ่งคุณไม่เปิดเผยตัวตนหรือพูดเป็นนัย ข้อมูลที่คุณทำลายก็จะยิ่งมากขึ้นเท่านั้น สิ่งนี้จะลดคุณภาพของข้อมูลและทำให้ข้อมูลเชิงลึกของคุณ
การทำให้ไม่เปิดเผยชื่อทำงานแตกต่างกันสำหรับรูปแบบข้อมูลต่างๆ ซึ่งหมายความว่าไม่สามารถปรับขนาดได้และอาจใช้เวลานานมาก

ข้อมูลสังเคราะห์ช่วยแก้ไขข้อบกพร่องเหล่านี้และอื่นๆ อีกมากมาย ชมวิดีโอด้านล่างเพื่อดูผู้เชี่ยวชาญด้านการวิเคราะห์จาก SAS (ผู้นำตลาดระดับโลกในด้านการวิเคราะห์) อธิบายเกี่ยวกับการประเมินของเขาเกี่ยวกับความแตกต่างในด้านคุณภาพระหว่างข้อมูลต้นฉบับ ข้อมูลที่ไม่ระบุตัวตน และโดย Syntho ได้สร้างข้อมูลสังเคราะห์ขึ้น

วิดีโอนี้ถ่ายจาก Syntho x SAS D[N]A Café เกี่ยวกับข้อมูลสังเคราะห์ที่สร้างโดย AI ค้นหาวิดีโอแบบเต็มได้ที่นี่

Edwin van Unen ส่งชุดข้อมูลดั้งเดิมไปยัง Syntho และเราสังเคราะห์ชุดข้อมูลดังกล่าว แต่คำถามก็คือ: "จะเกิดอะไรขึ้นถ้าเราเปรียบเทียบข้อมูลสังเคราะห์กับข้อมูลที่ไม่ระบุชื่อ" เนื่องจากคุณสูญเสียข้อมูลจำนวนมากในข้อมูลที่ไม่ระบุตัวตน สิ่งนี้จะเกิดขึ้นเช่นกันเมื่อทำการสังเคราะห์ชุดข้อมูลหรือไม่ เราเริ่มต้นด้วยชุดข้อมูลจากอุตสาหกรรมโทรคมนาคมที่มี 56.000 แถวและ 128 คอลัมน์ของข้อมูลการปั่นของบริษัท ชุดข้อมูลนี้มีทั้งการสังเคราะห์และไม่ระบุชื่อ ดังนั้น Edwin สามารถเปรียบเทียบการสังเคราะห์กับการไม่ระบุชื่อได้ จากนั้น Edwin ก็เริ่มสร้างแบบจำลองโดยใช้ SAS Viya เขาสร้างโมเดลปั่นป่วนสองสามชุดบนชุดข้อมูลดั้งเดิม โดยใช้เทคนิคการถดถอยแบบคลาสสิกและแผนผังการตัดสินใจ แต่ยังรวมถึงเทคนิคที่ซับซ้อนมากขึ้นด้วย เช่น โครงข่ายประสาทเทียม การไล่ระดับความชัน ฟอเรสต์แบบสุ่ม ซึ่งเป็นเทคนิคประเภทนี้ การใช้ตัวเลือก SAS Viya มาตรฐานเมื่อสร้างแบบจำลอง

จากนั้นก็ถึงเวลาดูผลลัพธ์ ผลลัพธ์ที่ได้มีแนวโน้มที่ดีสำหรับข้อมูลสังเคราะห์และไม่ได้สำหรับการไม่เปิดเผยชื่อ สำหรับผู้เชี่ยวชาญที่ไม่มีแมชชีนเลิร์นนิงในกลุ่มผู้ชม เราจะดูที่พื้นที่ใต้เส้นโค้ง ROC ซึ่งบอกบางอย่างเกี่ยวกับความถูกต้องของแบบจำลอง การเปรียบเทียบข้อมูลต้นฉบับกับข้อมูลที่ไม่ระบุชื่อ เราพบว่าแบบจำลองข้อมูลต้นฉบับมีพื้นที่ใต้เส้นโค้ง ROC ที่ .8 ซึ่งถือว่าค่อนข้างดี อย่างไรก็ตาม ข้อมูลที่ไม่ระบุตัวตนมีพื้นที่ใต้เส้นโค้ง ROC ที่ .6 ซึ่งหมายความว่าเราสูญเสียข้อมูลจำนวนมากด้วยแบบจำลองที่ไม่ระบุชื่อ ดังนั้นคุณจึงสูญเสียพลังการทำนายไปมาก

แต่แล้ว คำถามก็คือ แล้วข้อมูลสังเคราะห์ล่ะ? ที่นี่ เราทำสิ่งเดียวกันทุกประการ แต่แทนที่จะทำให้ข้อมูลไม่เปิดเผยตัว Syntho สังเคราะห์ข้อมูล ตอนนี้ เราเห็นทั้งข้อมูลดั้งเดิมและข้อมูลสังเคราะห์มีพื้นที่ใต้เส้นโค้ง ROC ที่ .8 ซึ่งคล้ายกันมาก ไม่เหมือนกันทั้งหมดเนื่องจากความแปรปรวน แต่คล้ายกันมาก ซึ่งหมายความว่า ศักยภาพของข้อมูลสังเคราะห์มีแนวโน้มสูง – Edwin มีความสุขมากเกี่ยวกับเรื่องนี้

ข้อมูลเป็นสิ่งสังเคราะห์ แต่ทีมของเรามีจริง!

ติดต่อ Syntho และหนึ่งในผู้เชี่ยวชาญของเราจะติดต่อคุณด้วยความเร็วแสงเพื่อสำรวจคุณค่าของข้อมูลสังเคราะห์!

ข้อมูลสังเคราะห์คืออะไร?

รายงานการประกันคุณภาพ

การประเมินภายนอกโดย SAS

ข้อมูลสังเคราะห์อนุกรมเวลา

เครื่องสแกน PII

ข้อมูลจำลองสังเคราะห์

การทำแผนที่ที่สอดคล้องกัน

การไม่ระบุตัวตนและการสังเคราะห์

ข้อมูลสังเคราะห์ตามกฎ

เซตย่อย

การปรับใช้และการบูรณาการ

เชื่อมต่อ

คุณสมบัติเพิ่มเติม

ข้อมูลที่รองรับ

เอกสารประกอบสำหรับผู้ใช้

กำหนดเวลาการสาธิต

ราคา

ข้อมูลสังเคราะห์เป็นข้อมูลทดสอบ

ข้อมูลสังเคราะห์สำหรับการวิเคราะห์

ข้อมูลสังเคราะห์สำหรับการแบ่งปันข้อมูล

ข้อมูลสังเคราะห์สำหรับการสาธิตผลิตภัณฑ์

การดูแลสุขภาพ

การเงิน

องค์การมหาชน

เอกสารประกอบสำหรับผู้ใช้

เอกสารไวท์เปเปอร์และคำแนะนำ

บล็อก

webinars

กรณีศึกษา

ราคา

เกี่ยวกับเรา

ตำแหน่งงาน

ข้อมูลที่ไม่ระบุตัวตนเทียบกับข้อมูลสังเคราะห์

ข้อมูลเป็นสิ่งสังเคราะห์ แต่ทีมของเรามีจริง!

สิ่งที่เราทำ

บริษัท

แหล่งข้อมูล

จดหมายข่าวซินโธ

เมนูหลัก