การประเมินภายนอกของข้อมูลสังเคราะห์ของเราโดยผู้เชี่ยวชาญด้านข้อมูลของ SAS

ข้อมูลสังเคราะห์ของเราคือ การประเมิน และ ได้รับการอนุมัติ โดยผู้เชี่ยวชาญด้านข้อมูลของ SAS

ข้อมูลเบื้องต้นเกี่ยวกับการประเมินภายนอกของข้อมูลสังเคราะห์ของเราโดยผู้เชี่ยวชาญด้านข้อมูลของ SAS

เราทำอะไร?

ข้อมูลสังเคราะห์ที่สร้างโดย Syntho ได้รับการประเมิน ตรวจสอบ และอนุมัติจากมุมมองภายนอกและวัตถุประสงค์โดยผู้เชี่ยวชาญด้านข้อมูลของ SAS

เหตุใดข้อมูลสังเคราะห์ของเราจึงได้รับการประเมินจากภายนอกโดยผู้เชี่ยวชาญด้านข้อมูลของ SAS

แม้ว่า Syntho มีความภูมิใจที่จะเสนอรายงานการรับประกันคุณภาพขั้นสูงแก่ผู้ใช้ แต่เราก็เข้าใจถึงความสำคัญของการประเมินข้อมูลสังเคราะห์ของเราจากผู้นำในอุตสาหกรรมภายนอกและตามวัตถุประสงค์ นั่นเป็นเหตุผลที่เราร่วมมือกับ SAS ผู้นำด้านการวิเคราะห์เพื่อประเมินข้อมูลสังเคราะห์ของเรา

SAS ดำเนินการประเมินอย่างละเอียดเกี่ยวกับความถูกต้องของข้อมูล การปกป้องความเป็นส่วนตัว และการใช้งานข้อมูลสังเคราะห์ที่สร้างโดย AI ของ Syntho เมื่อเปรียบเทียบกับข้อมูลต้นฉบับ โดยสรุป SAS ได้ประเมินและอนุมัติข้อมูลสังเคราะห์ของ Syntho ว่ามีความถูกต้อง ปลอดภัย และใช้งานได้เมื่อเปรียบเทียบกับข้อมูลต้นฉบับ

SAS ทำอะไรในระหว่างการประเมินนี้?

เราใช้ข้อมูลโทรคมนาคมที่ใช้สำหรับการคาดการณ์ "ปั่น" เป็นข้อมูลเป้าหมาย เป้าหมายของการประเมินคือการใช้ข้อมูลสังเคราะห์เพื่อฝึกโมเดลการทำนายการเปลี่ยนใจต่างๆ และเพื่อประเมินประสิทธิภาพของแต่ละโมเดล เนื่องจากการทำนายการเปลี่ยนใจเป็นงานการจัดหมวดหมู่ SAS จึงเลือกแบบจำลองการจัดหมวดหมู่ยอดนิยมเพื่อทำการคาดการณ์ ซึ่งรวมถึง:

  1. ป่าสุ่ม
  2. ไล่โทนสี
  3. การถดถอยโลจิสติก
  4. เครือข่ายประสาทเทียม

ก่อนสร้างข้อมูลสังเคราะห์ SAS สุ่มแบ่งชุดข้อมูลโทรคมนาคมเป็นชุดรถไฟ (สำหรับฝึกโมเดล) และชุดพักสาย (สำหรับการให้คะแนนโมเดล) การมีการแบ่งแยกที่กำหนดไว้สำหรับการให้คะแนนช่วยให้สามารถประเมินอย่างเป็นกลางว่าแบบจำลองการจัดประเภทสามารถทำได้ดีเพียงใดเมื่อใช้กับข้อมูลใหม่

การใช้ชุดรถไฟเป็นอินพุต Syntho ใช้ Syntho Engine เพื่อสร้างชุดข้อมูลสังเคราะห์ สำหรับการเปรียบเทียบ SAS ยังสร้างชุดรถไฟเวอร์ชันที่ไม่เปิดเผยตัวตนหลังจากใช้เทคนิคการไม่เปิดเผยตัวตนต่างๆ เพื่อให้ถึงเกณฑ์ที่กำหนด (ของการไม่เปิดเผยตัวตนแบบ k) ขั้นตอนก่อนหน้านี้ส่งผลให้มีชุดข้อมูลสี่ชุด:

  1. ชุดข้อมูลรถไฟ (เช่น ชุดข้อมูลดั้งเดิมลบชุดข้อมูลการระงับ)
  2. ชุดข้อมูล holdout (เช่น ชุดย่อยของชุดข้อมูลเดิม)
  3. ชุดข้อมูลที่ไม่ระบุตัวตน (ข้อมูลที่ไม่ระบุตัวตนของชุดข้อมูลรถไฟ ชุดข้อมูลดั้งเดิมลบด้วยชุดข้อมูลที่ระงับ)
  4. ชุดข้อมูลสังเคราะห์ (ข้อมูลที่สังเคราะห์ของชุดข้อมูลรถไฟ ชุดข้อมูลดั้งเดิมลบด้วยชุดข้อมูลที่ระงับ)

ชุดข้อมูลที่ 1, 3 และ 4 ถูกนำมาใช้ในการฝึกโมเดลการจำแนกแต่ละโมเดล ส่งผลให้ได้โมเดลที่ได้รับการฝึก 12 (3 x 4) ต่อมา SAS ใช้ชุดข้อมูลการระงับเพื่อวัดความแม่นยำของแต่ละรุ่นในการทำนายการเลิกใช้งานของลูกค้า

SAS ดำเนินการประเมินอย่างละเอียดเกี่ยวกับความถูกต้องของข้อมูล การปกป้องความเป็นส่วนตัว และการใช้งานข้อมูลสังเคราะห์ที่สร้างโดย AI ของ Syntho เมื่อเปรียบเทียบกับข้อมูลต้นฉบับ โดยสรุป SAS ได้ประเมินและอนุมัติข้อมูลสังเคราะห์ของ Syntho ว่ามีความถูกต้อง ปลอดภัย และใช้งานได้เมื่อเปรียบเทียบกับข้อมูลต้นฉบับ

คุณมีคำถามหรือไม่?

พูดคุยกับหนึ่งในผู้เชี่ยวชาญของเรา

ผลลัพธ์เบื้องต้นของการประเมินข้อมูลโดย SAS

แบบจำลองที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลสังเคราะห์จะมีคะแนนใกล้เคียงกันอย่างมากเมื่อเปรียบเทียบกับแบบจำลองที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลต้นฉบับ

ข้อมูลสังเคราะห์จาก Syntho ไม่เพียงเก็บไว้สำหรับรูปแบบพื้นฐานเท่านั้น แต่ยังรวบรวมรูปแบบทางสถิติที่ 'ซ่อน' เชิงลึกที่จำเป็นสำหรับงานการวิเคราะห์ขั้นสูงอีกด้วย อย่างหลังแสดงให้เห็นในแผนภูมิแท่ง ซึ่งบ่งชี้ว่าความแม่นยำของแบบจำลองที่ได้รับการฝึกกับข้อมูลสังเคราะห์กับแบบจำลองที่ได้รับการฝึกด้วยข้อมูลต้นฉบับมีความคล้ายคลึงกัน ดังนั้นข้อมูลสังเคราะห์จึงสามารถนำไปใช้ในการฝึกโมเดลจริงได้ ข้อมูลนำเข้าและความสำคัญของตัวแปรที่เลือกโดยอัลกอริธึมเกี่ยวกับข้อมูลสังเคราะห์เมื่อเปรียบเทียบกับข้อมูลต้นฉบับมีความคล้ายคลึงกันมาก ดังนั้นจึงสรุปได้ว่ากระบวนการสร้างแบบจำลองสามารถทำได้กับข้อมูลสังเคราะห์ เป็นทางเลือกในการใช้ข้อมูลที่ละเอียดอ่อนจริง

เหตุใดโมเดลที่ได้รับการฝึกเกี่ยวกับข้อมูลที่ไม่ระบุชื่อจึงได้คะแนนแย่กว่า

เทคนิคการลบข้อมูลระบุตัวตนแบบคลาสสิกมีเหมือนกันคือจัดการข้อมูลต้นฉบับเพื่อขัดขวางการติดตามตัวบุคคล พวกเขาจัดการข้อมูลและทำลายข้อมูลในกระบวนการ ยิ่งคุณไม่เปิดเผยตัวตนมากเท่าไร ข้อมูลของคุณก็จะยิ่งได้รับการปกป้องดีขึ้นเท่านั้น แต่ข้อมูลของคุณก็จะยิ่งถูกทำลายมากขึ้นด้วย นี่เป็นความเสียหายอย่างยิ่งสำหรับ AI และงานการสร้างแบบจำลองที่ "พลังในการคาดการณ์" เป็นสิ่งจำเป็น เนื่องจากข้อมูลที่มีคุณภาพไม่ดีจะส่งผลให้ได้รับข้อมูลเชิงลึกที่ไม่ดีจากแบบจำลอง AI SAS แสดงให้เห็นสิ่งนี้ โดยมีพื้นที่ใต้เส้นโค้ง (AUC*) ใกล้ถึง 0.5 ซึ่งแสดงให้เห็นว่าแบบจำลองที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่ไม่เปิดเผยตัวตนนั้นทำงานได้แย่ที่สุด

ผลลัพธ์เพิ่มเติมของการประเมินข้อมูลสังเคราะห์โดย SAS

ผลลัพธ์เพิ่มเติมของการประเมินข้อมูลสังเคราะห์โดย SAS

ความสัมพันธ์และความสัมพันธ์ระหว่างตัวแปรถูกรักษาไว้อย่างถูกต้องในข้อมูลสังเคราะห์

พื้นที่ใต้เส้นโค้ง (AUC) ซึ่งเป็นเมตริกสำหรับการวัดประสิทธิภาพของแบบจำลองยังคงสอดคล้องกัน

นอกจากนี้ ความสำคัญของตัวแปร ซึ่งบ่งชี้ถึงพลังการทำนายของตัวแปรในแบบจำลอง ยังคงไม่เปลี่ยนแปลงเมื่อเปรียบเทียบข้อมูลสังเคราะห์กับชุดข้อมูลดั้งเดิม

จากการสังเกตเหล่านี้โดย SAS และโดยการใช้ SAS Viya เราสามารถสรุปได้อย่างมั่นใจว่าข้อมูลสังเคราะห์ที่สร้างโดย Syntho Engine นั้นเทียบเท่ากับข้อมูลจริงในแง่ของคุณภาพอย่างแน่นอน สิ่งนี้จะตรวจสอบการใช้ข้อมูลสังเคราะห์เพื่อการพัฒนาแบบจำลอง ซึ่งปูทางไปสู่การวิเคราะห์ขั้นสูงด้วยข้อมูลสังเคราะห์

บทสรุปโดยผู้เชี่ยวชาญด้านข้อมูลของ SAS

โลโก้ Sas

ข้อมูลสังเคราะห์ของเราคือ ได้รับการอนุมัติ โดยผู้เชี่ยวชาญด้านข้อมูลของ SAS

บทความอ้างอิง

ฝาครอบไกด์ซินโธ

บันทึกคู่มือข้อมูลสังเคราะห์ของคุณตอนนี้!