ข้อมูลสังเคราะห์ที่สร้างโดย AI เข้าถึงข้อมูลคุณภาพสูงได้ง่ายและรวดเร็ว?

AI สร้างข้อมูลสังเคราะห์ในทางปฏิบัติ

Syntho ผู้เชี่ยวชาญด้านข้อมูลสังเคราะห์ที่สร้างโดย AI ตั้งเป้าที่จะเปลี่ยน privacy by design ได้เปรียบในการแข่งขันด้วยข้อมูลสังเคราะห์ที่สร้างโดย AI ช่วยให้องค์กรต่างๆ สร้างรากฐานข้อมูลที่แข็งแกร่งด้วยการเข้าถึงข้อมูลคุณภาพสูงได้ง่ายและรวดเร็ว และเพิ่งได้รับรางวัลนวัตกรรมจากฟิลิปส์

อย่างไรก็ตาม การสร้างข้อมูลสังเคราะห์ด้วย AI เป็นโซลูชันที่ค่อนข้างใหม่ซึ่งมักจะแนะนำคำถามที่พบบ่อย เพื่อตอบคำถามเหล่านี้ Syntho ได้เริ่มกรณีศึกษาร่วมกับ SAS ซึ่งเป็นผู้นำตลาดในซอฟต์แวร์ Advanced Analytics และ AI

ด้วยความร่วมมือกับ Dutch AI Coalition (NL AIC) พวกเขาตรวจสอบคุณค่าของข้อมูลสังเคราะห์โดยการเปรียบเทียบข้อมูลสังเคราะห์ที่สร้างโดย AI ที่สร้างโดย Syntho Engine กับข้อมูลดั้งเดิมผ่านการประเมินคุณภาพข้อมูล ความถูกต้องตามกฎหมาย และความสามารถในการใช้งานต่างๆ

การเปิดเผยข้อมูลไม่ใช่วิธีแก้ปัญหาหรือไม่?

เทคนิคการปกปิดชื่อแบบคลาสสิกมีเหมือนกันที่พวกเขาจัดการข้อมูลต้นฉบับเพื่อขัดขวางการติดตามบุคคล ตัวอย่าง ได้แก่ การวางนัยทั่วไป การระงับ การล้างข้อมูล การระบุนามแฝง การปกปิดข้อมูล และการสลับแถวและคอลัมน์ คุณสามารถดูตัวอย่างได้ในตารางด้านล่าง

เทคนิคเหล่านี้นำเสนอความท้าทายหลัก 3 ประการ:

พวกเขาทำงานแตกต่างกันไปตามประเภทข้อมูลและต่อชุดข้อมูล ทำให้ยากต่อการปรับขยาย นอกจากนี้ เนื่องจากทำงานแตกต่างกัน จึงมักมีการถกเถียงกันว่าจะใช้วิธีการใดและต้องใช้เทคนิคใดบ้างร่วมกัน
มีความสัมพันธ์แบบหนึ่งต่อหนึ่งกับข้อมูลดั้งเดิมอยู่เสมอ ซึ่งหมายความว่าจะมีความเสี่ยงด้านความเป็นส่วนตัวอยู่เสมอ โดยเฉพาะอย่างยิ่งเนื่องจากชุดข้อมูลที่เปิดอยู่ทั้งหมดและเทคนิคที่มีในการเชื่อมโยงชุดข้อมูลเหล่านั้น
พวกเขาจัดการข้อมูลและด้วยเหตุนี้จึงทำลายข้อมูลในกระบวนการ สิ่งนี้ทำลายล้างโดยเฉพาะอย่างยิ่งสำหรับงาน AI ที่ "พลังการทำนาย" เป็นสิ่งจำเป็น เนื่องจากข้อมูลที่มีคุณภาพไม่ดีจะส่งผลให้เกิดข้อมูลเชิงลึกที่ไม่ดีจากแบบจำลอง AI (ขยะเข้าจะทำให้ขยะออก)

จุดเหล่านี้ได้รับการประเมินผ่านกรณีศึกษานี้ด้วย

บทนำสู่กรณีศึกษา

สำหรับกรณีศึกษา ชุดข้อมูลเป้าหมายเป็นชุดข้อมูลโทรคมนาคมที่ SAS จัดหาให้ซึ่งมีข้อมูลของลูกค้า 56.600 ราย ชุดข้อมูลประกอบด้วย 128 คอลัมน์ รวมถึงหนึ่งคอลัมน์ที่ระบุว่าลูกค้าออกจากบริษัทไปแล้ว (เช่น 'เลิกใช้งาน') หรือไม่ เป้าหมายของกรณีศึกษาคือการใช้ข้อมูลสังเคราะห์เพื่อฝึกแบบจำลองบางตัวเพื่อทำนายการเลิกราของลูกค้าและเพื่อประเมินประสิทธิภาพของแบบจำลองที่ได้รับการฝึกอบรมเหล่านั้น เนื่องจากการคาดคะเนการปั่นเป็นงานการจัดหมวดหมู่ SAS ได้เลือกแบบจำลองการจัดหมวดหมู่ยอดนิยมสี่แบบเพื่อทำการทำนาย ได้แก่:

ป่าสุ่ม
ไล่โทนสี
การถดถอยโลจิสติก
เครือข่ายประสาทเทียม

ก่อนสร้างข้อมูลสังเคราะห์ SAS สุ่มแบ่งชุดข้อมูลโทรคมนาคมเป็นชุดรถไฟ (สำหรับฝึกโมเดล) และชุดพักสาย (สำหรับการให้คะแนนโมเดล) การมีการแบ่งแยกที่กำหนดไว้สำหรับการให้คะแนนช่วยให้สามารถประเมินอย่างเป็นกลางว่าแบบจำลองการจัดประเภทอาจทำงานได้ดีเพียงใดเมื่อใช้กับข้อมูลใหม่

การใช้ชุดรถไฟเป็นอินพุต Syntho ใช้ Syntho Engine เพื่อสร้างชุดข้อมูลสังเคราะห์ สำหรับการเปรียบเทียบ SAS ยังได้สร้างเวอร์ชันดัดแปลงของชุดรถไฟหลังจากใช้เทคนิคการลบข้อมูลระบุตัวตนต่างๆ เพื่อให้ถึงเกณฑ์ที่กำหนด (ของ k-anonimity) ขั้นตอนก่อนหน้านี้ส่งผลให้เกิดชุดข้อมูลสี่ชุด:

ชุดข้อมูลรถไฟ (เช่น ชุดข้อมูลดั้งเดิมลบชุดข้อมูลการระงับ)
ชุดข้อมูล holdout (เช่น ชุดย่อยของชุดข้อมูลเดิม)
ชุดข้อมูลที่ไม่ระบุชื่อ (ตามชุดข้อมูลรถไฟ)
ชุดข้อมูลสังเคราะห์ (ตามชุดข้อมูลรถไฟ)

ชุดข้อมูล 1, 3 และ 4 ถูกใช้เพื่อฝึกโมเดลการจำแนกแต่ละแบบ ส่งผลให้มีโมเดลที่ผ่านการฝึกอบรม 12 แบบ (3 x 4) ต่อมา SAS ใช้ชุดข้อมูลการระงับเพื่อวัดความถูกต้องซึ่งแต่ละรุ่นคาดการณ์การเลิกราของลูกค้า ผลลัพธ์แสดงไว้ด้านล่าง โดยเริ่มจากสถิติพื้นฐานบางส่วน

รูป: ไปป์ไลน์ Machine Learning ที่สร้างขึ้นใน SAS Visual Data Mining และ Machine Learning

สถิติพื้นฐานเมื่อเปรียบเทียบข้อมูลที่ไม่ระบุตัวตนกับข้อมูลเดิม

เทคนิคการลบข้อมูลระบุตัวตนจะทำลายแม้กระทั่งรูปแบบพื้นฐาน ตรรกะทางธุรกิจ ความสัมพันธ์ และสถิติ (ดังในตัวอย่างด้านล่าง) การใช้ข้อมูลที่ไม่ระบุชื่อสำหรับการวิเคราะห์ขั้นพื้นฐานจึงทำให้เกิดผลลัพธ์ที่ไม่น่าเชื่อถือ อันที่จริง ข้อมูลที่ไม่ระบุตัวตนคุณภาพต่ำทำให้แทบจะเป็นไปไม่ได้เลยที่จะใช้ข้อมูลนี้สำหรับงานวิเคราะห์ขั้นสูง (เช่น การสร้างแบบจำลอง AI/ML และแดชบอร์ด)

สถิติพื้นฐานเมื่อเปรียบเทียบข้อมูลสังเคราะห์กับข้อมูลเดิม

การสร้างข้อมูลสังเคราะห์ด้วย AI จะรักษารูปแบบพื้นฐาน ตรรกะทางธุรกิจ ความสัมพันธ์ และสถิติ (ดังในตัวอย่างด้านล่าง) การใช้ข้อมูลสังเคราะห์สำหรับการวิเคราะห์ขั้นพื้นฐานจึงให้ผลลัพธ์ที่เชื่อถือได้ คำถามสำคัญ ข้อมูลสังเคราะห์มีไว้สำหรับงานวิเคราะห์ขั้นสูงหรือไม่ (เช่น การสร้างแบบจำลอง AI/ML และแดชบอร์ด)

ข้อมูลสังเคราะห์ที่สร้างโดย AI และการวิเคราะห์ขั้นสูง

ข้อมูลสังเคราะห์ไม่ได้มีไว้สำหรับรูปแบบพื้นฐานเท่านั้น (ดังที่แสดงในแผนภาพก่อนหน้า) แต่ยังจับรูปแบบทางสถิติที่ 'ซ่อน' ไว้อย่างลึกซึ่งจำเป็นสำหรับงานวิเคราะห์ขั้นสูง ส่วนหลังแสดงให้เห็นในแผนภูมิแท่งด้านล่าง ซึ่งบ่งชี้ว่าความแม่นยำของแบบจำลองที่ฝึกด้วยข้อมูลสังเคราะห์กับแบบจำลองที่ฝึกด้วยข้อมูลดั้งเดิมนั้นใกล้เคียงกัน นอกจากนี้ ด้วยพื้นที่ใต้เส้นโค้ง (AUC*) ที่ใกล้กับ 0.5 แบบจำลองที่ได้รับการฝึกจากข้อมูลที่ไม่ระบุตัวตนจะมีประสิทธิภาพแย่ที่สุด รายงานฉบับสมบูรณ์พร้อมการประเมินการวิเคราะห์ขั้นสูงทั้งหมดเกี่ยวกับข้อมูลสังเคราะห์เมื่อเปรียบเทียบกับข้อมูลเดิมสามารถขอได้

*AUC: พื้นที่ใต้เส้นโค้งเป็นการวัดความถูกต้องของแบบจำลองการวิเคราะห์ขั้นสูง โดยพิจารณาถึงผลบวกจริง ผลบวกลวง ผลลบลวง และผลลบจริง 0,5 หมายความว่าแบบจำลองทำนายแบบสุ่มและไม่มีกำลังการทำนาย และ 1 หมายความว่าแบบจำลองนั้นถูกต้องเสมอและมีพลังการทำนายเต็มรูปแบบ

นอกจากนี้ ข้อมูลสังเคราะห์นี้ยังสามารถใช้เพื่อทำความเข้าใจคุณลักษณะของข้อมูลและตัวแปรหลักที่จำเป็นสำหรับการฝึกโมเดลจริง อินพุตที่เลือกโดยอัลกอริธึมในข้อมูลสังเคราะห์เมื่อเทียบกับข้อมูลดั้งเดิมนั้นใกล้เคียงกันมาก ดังนั้น กระบวนการสร้างแบบจำลองสามารถทำได้ในเวอร์ชันสังเคราะห์นี้ ซึ่งช่วยลดความเสี่ยงของการละเมิดข้อมูล อย่างไรก็ตาม เมื่อทำการอนุมานบันทึกแต่ละรายการ (เช่น ลูกค้าของ telco) แนะนำให้ฝึกอบรมซ้ำกับข้อมูลเดิมเพื่อให้สามารถอธิบายได้ การยอมรับเพิ่มขึ้น หรือเพียงเพราะข้อบังคับ

AUC โดยอัลกอริทึมจัดกลุ่มตามวิธี

สรุป:

โมเดลที่ฝึกด้วยข้อมูลสังเคราะห์เมื่อเทียบกับรุ่นที่ฝึกด้วยข้อมูลดั้งเดิมนั้นมีประสิทธิภาพที่ใกล้เคียงกันมาก
โมเดลที่ได้รับการฝึกฝนเกี่ยวกับข้อมูลที่ไม่ระบุตัวตนด้วย 'เทคนิคการลบข้อมูลระบุตัวตนแบบคลาสสิก' นั้นมีประสิทธิภาพที่ด้อยกว่าเมื่อเทียบกับแบบจำลองที่ฝึกฝนโดยใช้ข้อมูลดั้งเดิมหรือข้อมูลสังเคราะห์
การสร้างข้อมูลสังเคราะห์ทำได้ง่ายและรวดเร็ว เนื่องจากเทคนิคนี้ทำงานเหมือนกันทุกประการต่อชุดข้อมูลและต่อประเภทข้อมูล

กรณีการใช้ข้อมูลสังเคราะห์เพิ่มมูลค่า

ใช้กรณีที่ 1: ข้อมูลสังเคราะห์สำหรับการพัฒนาแบบจำลองและการวิเคราะห์ขั้นสูง

การมีพื้นฐานข้อมูลที่แข็งแกร่งพร้อมการเข้าถึงข้อมูลคุณภาพสูงที่ใช้งานง่ายและรวดเร็วเป็นสิ่งสำคัญในการพัฒนาแบบจำลอง (เช่น แดชบอร์ด [BI] และการวิเคราะห์ขั้นสูง [AI & ML]) อย่างไรก็ตาม หลายองค์กรประสบปัญหาจากรากฐานของข้อมูลที่ไม่ดีซึ่งส่งผลให้เกิดความท้าทายหลัก 3 ประการ:

การเข้าถึงข้อมูลใช้เวลานานเนื่องจากกฎระเบียบ (ความเป็นส่วนตัว) กระบวนการภายใน หรือคลังข้อมูล
เทคนิคการปกปิดชื่อแบบคลาสสิกทำลายข้อมูล ทำให้ข้อมูลไม่เหมาะสำหรับการวิเคราะห์และการวิเคราะห์ขั้นสูงอีกต่อไป (ขยะเข้า = ขยะออก)
โซลูชันที่มีอยู่ไม่สามารถปรับขนาดได้เนื่องจากทำงานแตกต่างกันตามชุดข้อมูลและต่อประเภทข้อมูล และไม่สามารถจัดการฐานข้อมูลขนาดใหญ่ที่มีหลายตารางได้

แนวทางข้อมูลสังเคราะห์: พัฒนาแบบจำลองด้วยข้อมูลสังเคราะห์ที่ดีเท่าของจริงเพื่อ:

ลดการใช้ข้อมูลต้นฉบับให้น้อยที่สุดโดยไม่ขัดขวางนักพัฒนาของคุณ
ปลดล็อกข้อมูลส่วนบุคคลและเข้าถึงข้อมูลเพิ่มเติมที่ถูกจำกัดก่อนหน้านี้ (เช่น เนื่องจากความเป็นส่วนตัว)
เข้าถึงข้อมูลที่เกี่ยวข้องได้ง่ายและรวดเร็ว
โซลูชันที่ปรับขนาดได้ซึ่งทำงานเหมือนกันสำหรับแต่ละชุดข้อมูล ประเภทข้อมูล และสำหรับฐานข้อมูลขนาดใหญ่

ซึ่งช่วยให้องค์กรสามารถสร้างรากฐานข้อมูลที่แข็งแกร่งด้วยการเข้าถึงข้อมูลคุณภาพสูงที่ใช้งานได้ง่ายและรวดเร็ว เพื่อปลดล็อกข้อมูลและใช้ประโยชน์จากโอกาสด้านข้อมูล

กรณีการใช้งาน 2: ข้อมูลการทดสอบสังเคราะห์อัจฉริยะสำหรับการทดสอบ การพัฒนา และการส่งมอบซอฟต์แวร์

การทดสอบและการพัฒนาด้วยข้อมูลการทดสอบคุณภาพสูงเป็นสิ่งสำคัญในการนำเสนอโซลูชั่นซอฟต์แวร์ที่ล้ำสมัย การใช้ข้อมูลการผลิตดั้งเดิมนั้นชัดเจน แต่ไม่อนุญาตเนื่องจากกฎระเบียบ (ความเป็นส่วนตัว) ทางเลือก Test Data Management (TDM) เครื่องมือแนะนำ “legacy-by-design” ในการรับข้อมูลการทดสอบที่ถูกต้อง:

ไม่แสดงข้อมูลการผลิตและตรรกะทางธุรกิจและความสมบูรณ์ของการอ้างอิงจะไม่ถูกรักษาไว้
ทำงานช้าและใช้เวลานาน
ต้องใช้มือทำงาน

แนวทางข้อมูลสังเคราะห์: ทดสอบและพัฒนาด้วยข้อมูลการทดสอบสังเคราะห์ที่สร้างโดย AI เพื่อนำเสนอโซลูชันซอฟต์แวร์ที่ล้ำสมัยอย่างชาญฉลาดด้วย:

ข้อมูลที่เหมือนการผลิตพร้อมตรรกะทางธุรกิจที่เก็บรักษาไว้และความสมบูรณ์ของการอ้างอิง
สร้างข้อมูลได้ง่ายและรวดเร็วด้วย AI . ที่ล้ำสมัย
ความเป็นส่วนตัวโดยการออกแบบ
ง่าย รวดเร็ว และ agile

ซึ่งช่วยให้องค์กรสามารถทดสอบและพัฒนาด้วยข้อมูลการทดสอบระดับถัดไปเพื่อนำเสนอโซลูชั่นซอฟต์แวร์ที่ล้ำสมัย!

ข้อมูลเพิ่มเติม

สนใจ? สำหรับข้อมูลเพิ่มเติมเกี่ยวกับข้อมูลสังเคราะห์ เยี่ยมชมเว็บไซต์ Syntho หรือติดต่อ Wim Kees Janssen ดูข้อมูลเพิ่มเติมเกี่ยวกับ SAS ได้ที่ www.sas.com หรือติดต่อ kees@syntho.ai

ในกรณีการใช้งานนี้ Syntho, SAS และ NL AIC จะทำงานร่วมกันเพื่อให้ได้ผลลัพธ์ตามที่ต้องการ Syntho เป็นผู้เชี่ยวชาญในข้อมูลสังเคราะห์ที่สร้างโดย AI และ SAS เป็นผู้นำตลาดในด้านการวิเคราะห์และนำเสนอซอฟต์แวร์สำหรับการสำรวจ วิเคราะห์ และแสดงข้อมูลเป็นภาพ

* คาดการณ์ปี 2021 – กลยุทธ์ด้านข้อมูลและการวิเคราะห์เพื่อควบคุม ปรับขนาด และพลิกโฉมธุรกิจดิจิทัล, Gartner, 2020

บันทึกคู่มือข้อมูลสังเคราะห์ของคุณตอนนี้!

ข้อมูลสังเคราะห์คืออะไร?
ทำไมองค์กรถึงใช้มัน?
การเพิ่มมูลค่ากรณีไคลเอ็นต์ข้อมูลสังเคราะห์
วิธีการเริ่มต้น

ข้อมูลสังเคราะห์คืออะไร?

รายงานการประกันคุณภาพ

การประเมินภายนอกโดย SAS

ข้อมูลสังเคราะห์อนุกรมเวลา

เครื่องสแกน PII

ข้อมูลจำลองสังเคราะห์

การทำแผนที่ที่สอดคล้องกัน

การไม่ระบุตัวตนและการสังเคราะห์

ข้อมูลสังเคราะห์ตามกฎ

เซตย่อย

การปรับใช้และการบูรณาการ

เชื่อมต่อ

คุณสมบัติเพิ่มเติม

ข้อมูลที่รองรับ

เอกสารประกอบสำหรับผู้ใช้

กำหนดเวลาการสาธิต

ราคา

ข้อมูลสังเคราะห์เป็นข้อมูลทดสอบ

ข้อมูลสังเคราะห์สำหรับการวิเคราะห์

ข้อมูลสังเคราะห์สำหรับการแบ่งปันข้อมูล

ข้อมูลสังเคราะห์สำหรับการสาธิตผลิตภัณฑ์

การดูแลสุขภาพ

การเงิน

องค์การมหาชน

เอกสารประกอบสำหรับผู้ใช้

เอกสารไวท์เปเปอร์และคำแนะนำ

บล็อก

webinars

กรณีศึกษา

ราคา

เกี่ยวกับเรา

ตำแหน่งงาน

ข้อมูลสังเคราะห์ที่สร้างโดย AI เข้าถึงข้อมูลคุณภาพสูงได้ง่ายและรวดเร็ว?

AI สร้างข้อมูลสังเคราะห์ในทางปฏิบัติ

การเปิดเผยข้อมูลไม่ใช่วิธีแก้ปัญหาหรือไม่?

บทนำสู่กรณีศึกษา

สถิติพื้นฐานเมื่อเปรียบเทียบข้อมูลที่ไม่ระบุตัวตนกับข้อมูลเดิม

สถิติพื้นฐานเมื่อเปรียบเทียบข้อมูลสังเคราะห์กับข้อมูลเดิม

ข้อมูลสังเคราะห์ที่สร้างโดย AI และการวิเคราะห์ขั้นสูง

กรณีการใช้ข้อมูลสังเคราะห์เพิ่มมูลค่า

ข้อมูลเพิ่มเติม

บันทึกคู่มือข้อมูลสังเคราะห์ของคุณตอนนี้!

เมนูหลัก

บันทึกคู่มือข้อมูลสังเคราะห์ของคุณตอนนี้!