ทายซิว่าใคร? 5 ตัวอย่างว่าทำไมการลบชื่อจึงไม่ใช่ตัวเลือก

บทนำสู่ Guess Who

ทายซิว่าใคร? แม้ว่าฉันจะแน่ใจว่าพวกคุณส่วนใหญ่รู้จักเกมนี้ตั้งแต่สมัยก่อนแล้วก็ตาม แต่นี่เป็นบทสรุปสั้น ๆ เป้าหมายของเกม: ค้นหาชื่อของตัวการ์ตูนที่เลือกโดยคู่ต่อสู้ของคุณโดยถามคำถามว่า "ใช่" และ "ไม่ใช่" เช่น 'บุคคลนั้นสวมหมวกหรือไม่' หรือ 'คนใส่แว่น'? ผู้เล่นกำจัดผู้สมัครตามการตอบสนองของฝ่ายตรงข้ามและเรียนรู้คุณลักษณะที่เกี่ยวข้องกับตัวละครลึกลับของคู่ต่อสู้ ผู้เล่นคนแรกที่ค้นพบตัวละครลึกลับของผู้เล่นคนอื่นชนะเกม

คุณได้รับมัน หนึ่งต้องระบุบุคคลจากชุดข้อมูลโดยมีสิทธิ์เข้าถึงแอตทริบิวต์ที่เกี่ยวข้องเท่านั้น อันที่จริง เราเห็นแนวคิดของ Guess Who ที่นำไปใช้ในทางปฏิบัติเป็นประจำ แต่จากนั้นก็นำไปใช้กับชุดข้อมูลที่จัดรูปแบบด้วยแถวและคอลัมน์ที่มีคุณลักษณะของคนจริง ความแตกต่างหลักเมื่อทำงานกับข้อมูลก็คือ ผู้คนมักจะดูถูกดูแคลนความสะดวกที่บุคคลจริงสามารถเปิดโปงได้โดยการเข้าถึงคุณลักษณะเพียงไม่กี่อย่างเท่านั้น

ดังที่เกม Guess Who แสดงให้เห็น ใครบางคนสามารถระบุตัวบุคคลได้ด้วยการเข้าถึงคุณลักษณะเพียงไม่กี่อย่าง มันทำหน้าที่เป็นตัวอย่างง่ายๆ ว่าทำไมการลบเฉพาะ 'ชื่อ' (หรือตัวระบุโดยตรงอื่นๆ) ออกจากชุดข้อมูลของคุณจึงล้มเหลวเนื่องจากเทคนิคการลบข้อมูลระบุตัวตน ในบล็อกนี้ เรามีกรณีที่ใช้งานได้จริงสี่กรณีเพื่อแจ้งให้คุณทราบเกี่ยวกับความเสี่ยงด้านความเป็นส่วนตัวที่เกี่ยวข้องกับการลบคอลัมน์เพื่อเป็นการปกปิดข้อมูล

2) การโจมตีแบบเชื่อมโยง: ชุดข้อมูลของคุณเชื่อมโยงกับแหล่งข้อมูล (สาธารณะ) อื่น ๆ

ความเสี่ยงของการโจมตีแบบเชื่อมโยงเป็นสาเหตุที่สำคัญที่สุดที่ทำให้การลบชื่อออกเพียงอย่างเดียวไม่ได้ผล (อีกต่อไป) เป็นวิธีการทำให้ไม่เปิดเผยชื่อ ด้วยการโจมตีแบบเชื่อมโยง ผู้โจมตีจะรวมข้อมูลดั้งเดิมกับแหล่งข้อมูลอื่นที่สามารถเข้าถึงได้เพื่อระบุตัวบุคคลและเรียนรู้ข้อมูล (มักจะละเอียดอ่อน) เกี่ยวกับบุคคลนี้

กุญแจสำคัญคือความพร้อมใช้งานของแหล่งข้อมูลอื่นๆ ที่มีอยู่ในขณะนี้ หรืออาจมีอยู่ในอนาคต คิดถึงตัวเอง. ข้อมูลส่วนตัวของคุณสามารถพบได้บน Facebook, Instagram หรือ LinkedIn ที่อาจถูกนำไปใช้ในทางที่ผิดสำหรับการโจมตีแบบเชื่อมโยงได้อย่างไร?

ในสมัยก่อน ความพร้อมใช้งานของข้อมูลมีจำกัด ซึ่งส่วนหนึ่งอธิบายได้ว่าทำไมการลบชื่อจึงเพียงพอที่จะรักษาความเป็นส่วนตัวของบุคคล ข้อมูลที่มีน้อยลงหมายถึงโอกาสในการเชื่อมโยงข้อมูลน้อยลง อย่างไรก็ตาม ขณะนี้เรา (ใช้งานอยู่) มีส่วนร่วมในเศรษฐกิจที่ขับเคลื่อนด้วยข้อมูล ซึ่งปริมาณข้อมูลเติบโตในอัตราเลขชี้กำลัง ข้อมูลเพิ่มเติมและการปรับปรุงเทคโนโลยีสำหรับการรวบรวมข้อมูลจะนำไปสู่ศักยภาพในการโจมตีที่เชื่อมโยงกันมากขึ้น อะไรจะเขียนใน 10 ปีเกี่ยวกับความเสี่ยงของการโจมตีเชื่อมโยง?

ภาพประกอบ 1

ข้อมูลที่เพิ่มขึ้นแบบทวีคูณเป็นความจริง

กรณีศึกษา

Sweeney (2002) แสดงให้เห็นในเอกสารวิชาการว่าเธอสามารถระบุและเรียกข้อมูลทางการแพทย์ที่ละเอียดอ่อนจากบุคคลโดยอิงจากการเชื่อมโยงชุดข้อมูลสาธารณะของ 'การเยี่ยมโรงพยาบาล' ที่เปิดเผยต่อสาธารณะไปยังนายทะเบียนการลงคะแนนเสียงที่เปิดเผยต่อสาธารณะในสหรัฐอเมริกา ชุดข้อมูลทั้งสองชุดที่ถือว่าไม่ระบุชื่ออย่างถูกต้องผ่านการลบชื่อและตัวระบุโดยตรงอื่นๆ

ภาพประกอบ 2

เชื่อมโยงการโจมตีในทางปฏิบัติ

จากพารามิเตอร์สามตัวเท่านั้น (1) รหัสไปรษณีย์ (2) เพศ และ (3) วันเดือนปีเกิด เธอแสดงให้เห็นว่า 87% ของประชากรสหรัฐทั้งหมดสามารถระบุได้อีกครั้งโดยจับคู่แอตทริบิวต์ดังกล่าวจากชุดข้อมูลทั้งสองชุด จากนั้นสวีนีย์ก็ทำงานของเธอซ้ำอีกครั้งโดยมี 'ประเทศ' เป็นทางเลือกแทน 'รหัสไปรษณีย์' นอกจากนี้ เธอยังแสดงให้เห็นว่า 18% ของประชากรทั้งหมดในสหรัฐอเมริกาสามารถระบุได้โดยการเข้าถึงชุดข้อมูลที่มีข้อมูลเกี่ยวกับ (1) ประเทศบ้านเกิด (2) เพศ และ (3) วันเดือนปีเกิดเท่านั้น ลองนึกถึงแหล่งข้อมูลสาธารณะที่กล่าวถึงข้างต้น เช่น Facebook, LinkedIn หรือ Instagram ประเทศ เพศ และวันเกิดของคุณสามารถมองเห็นได้หรือผู้ใช้รายอื่นสามารถหักเงินได้หรือไม่

ภาพประกอบ 3

ผลงานของสวีนีย์

ตัวระบุเสมือน	% ระบุเฉพาะของประชากรสหรัฐ (248 ล้านคน)
รหัสไปรษณีย์ 5 หลัก เพศ วันเดือนปีเกิด	ลด 87%
สถานที่, เพศ, วันเดือนปีเกิด	ลด 53%
ประเทศ, เพศ, วันเดือนปีเกิด	ลด 18%

ตัวอย่างนี้แสดงให้เห็นว่าการลบชื่อบุคคลในข้อมูลที่ดูเหมือนไม่ระบุตัวตนเป็นเรื่องง่ายอย่างน่าทึ่ง ประการแรก การศึกษานี้บ่งชี้ถึงความเสี่ยงอย่างใหญ่หลวง เช่น 87% ของประชากรสหรัฐสามารถระบุได้อย่างง่ายดายโดยใช้ ลักษณะเล็กน้อย. ประการที่สอง ข้อมูลทางการแพทย์ที่เปิดเผยในการศึกษานี้มีความไวสูง ตัวอย่างข้อมูลของบุคคลที่ถูกเปิดเผยจากชุดข้อมูลการเข้ารับการตรวจในโรงพยาบาล ได้แก่ เชื้อชาติ การวินิจฉัย และการใช้ยา คุณลักษณะที่อาจเก็บเป็นความลับ เช่น จากบริษัทประกันภัย

3) บุคคลที่ได้รับแจ้ง

ความเสี่ยงอีกประการหนึ่งในการลบเฉพาะตัวระบุโดยตรง เช่น ชื่อ เกิดขึ้นเมื่อบุคคลที่ได้รับแจ้งมีความรู้หรือข้อมูลเกี่ยวกับลักษณะหรือพฤติกรรมเฉพาะของบุคคลในชุดข้อมูลที่เหนือกว่า. จากความรู้ของพวกเขา ผู้โจมตีอาจสามารถเชื่อมโยงบันทึกข้อมูลเฉพาะกับบุคคลจริงได้

กรณีศึกษา

ตัวอย่างของการโจมตีชุดข้อมูลโดยใช้ความรู้ที่เหนือกว่าคือกรณีรถแท็กซี่ในนิวยอร์ก ซึ่ง Atocar (2014) สามารถเปิดโปงบุคคลที่เฉพาะเจาะจงได้ ชุดข้อมูลดังกล่าวประกอบด้วยการเดินทางโดยแท็กซี่ทั้งหมดในนิวยอร์ก ซึ่งเสริมด้วยคุณลักษณะพื้นฐาน เช่น พิกัดเริ่มต้น พิกัดสิ้นสุด ราคา และจุดสิ้นสุดของการเดินทาง

บุคคลที่มีข้อมูลซึ่งรู้ว่านิวยอร์กสามารถใช้บริการรถแท็กซี่ไปยังสโมสรสำหรับผู้ใหญ่ 'Hustler' ได้ โดยการกรอง 'ตำแหน่งสิ้นสุด' เขาอนุมานที่อยู่เริ่มต้นที่แน่นอนและด้วยเหตุนี้จึงระบุผู้เยี่ยมชมหลายราย ในทำนองเดียวกัน เราสามารถสรุปการนั่งแท็กซี่ได้เมื่อทราบที่อยู่บ้านของบุคคลนั้น เวลาและสถานที่ของดาราภาพยนตร์ที่มีชื่อเสียงหลายคนถูกค้นพบในไซต์ซุบซิบ หลังจากเชื่อมโยงข้อมูลนี้กับข้อมูลรถแท็กซี่ของ NYC แล้ว ก็สามารถเรียกแท็กซี่ได้ จำนวนเงินที่จ่ายไป และให้ทิปได้ง่ายหรือไม่

ภาพประกอบ 4

บุคคลที่ได้รับแจ้ง

พิกัดไปส่ง Hustler

แบรดลีย์คูเปอร์

Jessica Alba

4) ข้อมูลเป็นลายนิ้วมือ

ข้อโต้แย้งทั่วไปคือ 'ข้อมูลนี้ไร้ค่า' หรือ 'ไม่มีใครสามารถทำอะไรกับข้อมูลนี้ได้' นี้มักจะเป็นความเข้าใจผิด แม้แต่ข้อมูลที่ไร้เดียงสาที่สุดก็สามารถสร้าง 'ลายนิ้วมือ' ที่ไม่เหมือนใครและใช้เพื่อระบุตัวบุคคลได้อีกครั้ง เป็นความเสี่ยงที่เกิดจากความเชื่อที่ว่าตัวข้อมูลเองนั้นไร้ค่าทั้งๆ ที่มันไม่ใช่

ความเสี่ยงในการระบุตัวตนจะเพิ่มขึ้นตามการเพิ่มขึ้นของข้อมูล AI ตลอดจนเครื่องมือและอัลกอริทึมอื่นๆ ที่ช่วยให้สามารถเปิดเผยความสัมพันธ์ที่ซับซ้อนในข้อมูลได้ ดังนั้น แม้ว่าชุดข้อมูลของคุณจะไม่ถูกเปิดเผยในตอนนี้ และน่าจะไร้ประโยชน์สำหรับบุคคลที่ไม่ได้รับอนุญาตในวันนี้ แต่อาจไม่ใช่พรุ่งนี้

กรณีศึกษา

ตัวอย่างที่ดีคือกรณีที่ Netflix ตั้งใจจะรวบรวมแผนก R&D ของทางบริษัทด้วยการแนะนำการแข่งขัน Netflix แบบเปิดเพื่อปรับปรุงระบบแนะนำภาพยนตร์ของตน 'สิ่งที่ปรับปรุงอัลกอริธึมการกรองการทำงานร่วมกันเพื่อคาดการณ์การให้คะแนนของผู้ใช้สำหรับภาพยนตร์จะได้รับรางวัลมูลค่า 1,000,000 เหรียญสหรัฐ' เพื่อรองรับฝูงชน Netflix ได้เผยแพร่ชุดข้อมูลที่มีเฉพาะแอตทริบิวต์พื้นฐานต่อไปนี้: รหัสผู้ใช้ ภาพยนตร์ วันที่เกรดและเกรด (ดังนั้นจึงไม่มีข้อมูลเพิ่มเติมเกี่ยวกับผู้ใช้หรือตัวภาพยนตร์เอง)

ภาพประกอบ 5

โครงสร้างชุดข้อมูล ราคา Netflix

หมายเลขผู้ใช้	Movie	วันที่เรียน	เกรด
123456789	ภารกิจไปไม่ได้	10-12-2008	4

ข้อมูลปรากฏว่าไร้ประโยชน์ เมื่อถามคำถาม 'มีข้อมูลลูกค้าในชุดข้อมูลที่ควรเก็บไว้เป็นความลับหรือไม่' คำตอบคือ:

'ไม่ ข้อมูลระบุตัวตนลูกค้าทั้งหมดถูกลบออก สิ่งที่เหลืออยู่คือการให้คะแนนและวันที่ เป็นไปตามนโยบายความเป็นส่วนตัวของเรา …'

อย่างไรก็ตาม Narayanan (2008) จาก University of Texas at Austin ได้พิสูจน์เป็นอย่างอื่น การรวมกันของเกรด วันที่ของเกรด และภาพยนตร์ของแต่ละบุคคลทำให้เกิดลายนิ้วมือของภาพยนตร์ที่ไม่เหมือนใคร นึกถึงพฤติกรรม Netflix ของคุณเอง คุณคิดว่ามีคนดูหนังชุดเดียวกันกี่คน? ดูหนังชุดเดียวกันพร้อมกันกี่เรื่อง?

คำถามหลัก จะจับคู่ลายนิ้วมือนี้ได้อย่างไร? มันค่อนข้างง่าย จากข้อมูลจากเว็บไซต์จัดอันดับภาพยนตร์ที่มีชื่อเสียง IMDb (ฐานข้อมูลภาพยนตร์อินเทอร์เน็ต) สามารถสร้างลายนิ้วมือที่คล้ายกันได้ จึงสามารถระบุตัวบุคคลได้อีกครั้ง

แม้ว่าพฤติกรรมการชมภาพยนตร์อาจไม่ถูกมองว่าเป็นข้อมูลที่ละเอียดอ่อน แต่ให้นึกถึงพฤติกรรมของคุณเอง – คุณจะรังเกียจไหมหากเผยแพร่สู่สาธารณะ ตัวอย่างที่ Narayanan ระบุไว้ในบทความคือความชอบทางการเมือง (การให้คะแนนเรื่อง 'Jesus of Nazareth' และ 'The Gospel of John') และความพึงพอใจทางเพศ (การให้คะแนนเรื่อง 'Bent' และ 'Queer as folk') ที่กลั่นกรองได้ง่าย

5) ระเบียบการคุ้มครองข้อมูลทั่วไป (GDPR)

GDPR อาจไม่น่าตื่นเต้นอย่างยิ่ง หรือเป็นหัวข้อย่อยสีเงินในหัวข้อบล็อก อย่างไรก็ตาม การให้คำจำกัดความอย่างตรงไปตรงมาเมื่อประมวลผลข้อมูลส่วนบุคคลนั้นมีประโยชน์ เนื่องจากบล็อกนี้เกี่ยวกับความเข้าใจผิดทั่วไปในการลบคอลัมน์เพื่อปกปิดข้อมูลและให้ความรู้แก่คุณในฐานะผู้ประมวลผลข้อมูล ให้เราเริ่มต้นด้วยการสำรวจคำจำกัดความของการไม่เปิดเผยชื่อตาม GDPR

ตามบทบรรยายที่ 26 จาก GDPR ข้อมูลที่ไม่เปิดเผยตัวตนถูกกำหนดเป็น:

'ข้อมูลที่ไม่เกี่ยวข้องกับบุคคลธรรมดาที่ระบุหรือระบุตัวตนได้หรือข้อมูลส่วนบุคคลที่ไม่ระบุตัวตนในลักษณะที่เจ้าของข้อมูลไม่สามารถระบุได้หรือไม่สามารถระบุได้อีกต่อไป'

เนื่องจากบุคคลหนึ่งประมวลผลข้อมูลส่วนบุคคลที่เกี่ยวข้องกับบุคคลธรรมดา คำจำกัดความเฉพาะส่วนที่ 2 เท่านั้นที่เกี่ยวข้อง เพื่อให้เป็นไปตามคำจำกัดความ เราต้องแน่ใจว่าเจ้าของข้อมูล (บุคคล) ไม่สามารถระบุตัวตนได้หรือไม่ได้อีกต่อไป อย่างไรก็ตาม ตามที่ระบุไว้ในบล็อกนี้ การระบุตัวบุคคลโดยอาศัยคุณลักษณะบางอย่างนั้นง่ายมากอย่างน่าทึ่ง ดังนั้น การลบชื่อออกจากชุดข้อมูลจึงไม่เป็นไปตามคำจำกัดความของ GDPR ของการไม่เปิดเผยชื่อ

โดยสรุป

เราท้าทายวิธีหนึ่งที่พิจารณาโดยทั่วไป และน่าเสียดายที่ยังคงใช้วิธีการที่ไม่ระบุชื่อข้อมูลบ่อยครั้ง นั่นคือการลบชื่อ ในเกม Guess Who และอีกสี่ตัวอย่างเกี่ยวกับ:

การโจมตีเชื่อมโยง
บุคคลที่ได้รับแจ้ง
ข้อมูลเป็นลายนิ้วมือ
ระเบียบว่าด้วยการคุ้มครองข้อมูลทั่วไป (GDPR)

มันแสดงให้เห็นว่าการลบชื่อล้มเหลวในการทำให้ไม่เปิดเผยชื่อ แม้ว่าตัวอย่างจะเป็นกรณีที่น่าสนใจ แต่แต่ละรายการก็แสดงให้เห็นถึงความเรียบง่ายของการระบุตัวตนอีกครั้ง และผลกระทบด้านลบที่อาจเกิดขึ้นต่อความเป็นส่วนตัวของบุคคล

โดยสรุป การลบชื่อออกจากชุดข้อมูลของคุณไม่ส่งผลให้มีข้อมูลที่ไม่ระบุตัวตน ดังนั้น เราจึงควรหลีกเลี่ยงการใช้ทั้งสองคำแทนกัน ฉันหวังเป็นอย่างยิ่งว่าคุณจะไม่ใช้วิธีนี้ในการปกปิดชื่อ และหากคุณยังคงทำอยู่ ตรวจสอบให้แน่ใจว่าคุณและทีมของคุณเข้าใจความเสี่ยงด้านความเป็นส่วนตัวอย่างครบถ้วน และได้รับอนุญาตให้ยอมรับความเสี่ยงเหล่านั้นในนามของบุคคลที่ได้รับผลกระทบ

ข้อมูลเป็นสิ่งสังเคราะห์ แต่ทีมของเรามีจริง!

ติดต่อ Syntho และหนึ่งในผู้เชี่ยวชาญของเราจะติดต่อคุณด้วยความเร็วแสงเพื่อสำรวจคุณค่าของข้อมูลสังเคราะห์!

ดี. ไรน์เซล, เจ. แกนซ์, จอห์น ริดนิง. การแปลงเป็นดิจิทัลของโลกจาก Edge to Core, Data Age 2025, 2018
แอล. สวีนีย์. k-anonymity: ต้นแบบการปกป้องความเป็นส่วนตัว International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 10 (5), 2002: 557-570
แอล. สวีนีย์. ข้อมูลประชากรอย่างง่ายมักจะระบุตัวบุคคลโดยเฉพาะ Carnegie Mellon University, Data Privacy Working Paper 3. Pittsburgh 2000
ป. สมรติ. การปกป้องข้อมูลระบุตัวตนของผู้ตอบในการเผยแพร่ Microdata ธุรกรรม IEEE เกี่ยวกับความรู้และวิศวกรรมข้อมูล, 13 (6), 2001: 1010-1027
อาทอคก้า. ขี่กับดวงดาว: ความเป็นส่วนตัวของผู้โดยสารในชุดข้อมูลรถแท็กซี่ NYC ปี 2014
Narayanan, A. และ Shmatikov, V. (2008) การลบข้อมูลระบุชื่อที่แข็งแกร่งของชุดข้อมูลขนาดใหญ่ที่กระจัดกระจาย In Proceedings – 2008 IEEE Symposium on Security and Privacy, SP (หน้า 111-125)
ระเบียบว่าด้วยการคุ้มครองข้อมูลทั่วไป (GDPR), การบรรยาย 26, ใช้ไม่ได้กับข้อมูลที่ไม่ระบุชื่อ

ข้อมูลสังเคราะห์คืออะไร?

รายงานการประกันคุณภาพ

การประเมินภายนอกโดย SAS

ข้อมูลสังเคราะห์อนุกรมเวลา

เครื่องสแกน PII

ข้อมูลจำลองสังเคราะห์

การทำแผนที่ที่สอดคล้องกัน

การไม่ระบุตัวตนและการสังเคราะห์

ข้อมูลสังเคราะห์ตามกฎ

เซตย่อย

การปรับใช้และการบูรณาการ

เชื่อมต่อ

คุณสมบัติเพิ่มเติม

ข้อมูลที่รองรับ

เอกสารประกอบสำหรับผู้ใช้

กำหนดเวลาการสาธิต

ราคา

ข้อมูลสังเคราะห์เป็นข้อมูลทดสอบ

ข้อมูลสังเคราะห์สำหรับการวิเคราะห์

ข้อมูลสังเคราะห์สำหรับการแบ่งปันข้อมูล

ข้อมูลสังเคราะห์สำหรับการสาธิตผลิตภัณฑ์

การดูแลสุขภาพ

การเงิน

องค์การมหาชน

เอกสารประกอบสำหรับผู้ใช้

เอกสารไวท์เปเปอร์และคำแนะนำ

บล็อก

webinars

กรณีศึกษา

ราคา

เกี่ยวกับเรา

ตำแหน่งงาน

ทายซิว่าใคร? 5 ตัวอย่างว่าทำไมการลบชื่อจึงไม่ใช่ตัวเลือก

บทนำสู่ Guess Who

2) การโจมตีแบบเชื่อมโยง: ชุดข้อมูลของคุณเชื่อมโยงกับแหล่งข้อมูล (สาธารณะ) อื่น ๆ

ข้อมูลที่เพิ่มขึ้นแบบทวีคูณเป็นความจริง

กรณีศึกษา

เชื่อมโยงการโจมตีในทางปฏิบัติ

ผลงานของสวีนีย์

3) บุคคลที่ได้รับแจ้ง

กรณีศึกษา

บุคคลที่ได้รับแจ้ง

4) ข้อมูลเป็นลายนิ้วมือ

กรณีศึกษา

โครงสร้างชุดข้อมูล ราคา Netflix

5) ระเบียบการคุ้มครองข้อมูลทั่วไป (GDPR)

โดยสรุป

ข้อมูลเป็นสิ่งสังเคราะห์ แต่ทีมของเรามีจริง!

เมนูหลัก