خمن من؟ 5 أمثلة على أن إزالة الأسماء ليست خيارًا

مقدمة إلى Guess Who

خمن من؟ على الرغم من أنني متأكد من أن معظمكم يعرف هذه اللعبة منذ أيام ، فإليك ملخصًا موجزًا. الهدف من اللعبة: اكتشف اسم شخصية الكارتون التي اختارها خصمك بطرح أسئلة "نعم" و "لا" ، مثل "هل يرتدي الشخص قبعة؟" أو "هل يرتدي الشخص نظارات"؟ يستبعد اللاعبون المرشحين بناءً على استجابة الخصم ويتعلمون السمات التي تتعلق بشخصية خصمهم الغامضة. أول لاعب يكتشف شخصية اللاعب الآخر الغامضة يفوز باللعبة.

لك ذالك. يجب على المرء تحديد الفرد من مجموعة البيانات من خلال الوصول فقط إلى السمات المقابلة. في الواقع ، نرى بانتظام مفهوم Guess Who المطبق عمليًا ، ولكن بعد ذلك يتم استخدامه في مجموعات البيانات المنسقة بصفوف وأعمدة تحتوي على سمات لأشخاص حقيقيين. يتمثل الاختلاف الرئيسي عند التعامل مع البيانات في أن الأشخاص يميلون إلى التقليل من أهمية السهولة التي يمكن من خلالها الكشف عن أفراد حقيقيين من خلال الوصول إلى بعض السمات فقط.

كما توضح لعبة Guess Who ، يمكن لأي شخص التعرف على الأفراد من خلال الوصول إلى بعض السمات فقط. إنه بمثابة مثال بسيط على سبب فشل إزالة "الأسماء" فقط (أو غيرها من المعرفات المباشرة) من مجموعة البيانات الخاصة بك كأسلوب لإخفاء الهوية. في هذه المدونة ، نقدم أربع حالات عملية لإبلاغك بمخاطر الخصوصية المرتبطة بإزالة الأعمدة كوسيلة لإخفاء هوية البيانات.

2) هجمات الارتباط: مجموعة البيانات الخاصة بك مرتبطة بمصادر بيانات (عامة) أخرى

يُعد خطر هجمات الارتباط أهم سبب لعدم نجاح إزالة الأسماء فقط (بعد الآن) كطريقة لإخفاء الهوية. باستخدام هجوم الربط ، يجمع المهاجم البيانات الأصلية مع مصادر البيانات الأخرى التي يمكن الوصول إليها من أجل تحديد هوية الفرد بشكل فريد ومعرفة المعلومات (الحساسة غالبًا) حول هذا الشخص.

المفتاح هنا هو توافر مصادر البيانات الأخرى الموجودة الآن ، أو التي قد تصبح موجودة في المستقبل. فكر في نفسك. ما مقدار البيانات الشخصية الخاصة بك التي يمكن العثور عليها على Facebook أو Instagram أو LinkedIn والتي من المحتمل أن يتم إساءة استخدامها في هجوم الارتباط؟

في الأيام السابقة ، كان توافر البيانات محدودًا بدرجة أكبر ، وهو ما يفسر جزئيًا سبب أن إزالة الأسماء كانت كافية للحفاظ على خصوصية الأفراد. نقص البيانات المتاحة يعني فرصًا أقل لربط البيانات. ومع ذلك ، نحن الآن مشاركين (نشطين) في اقتصاد يعتمد على البيانات ، حيث ينمو حجم البيانات بمعدل أسي. سيؤدي المزيد من البيانات وتحسين التكنولوجيا لجمع البيانات إلى زيادة احتمالية هجمات الارتباط. ما الذي يمكن أن يكتبه المرء في غضون 10 سنوات عن مخاطر هجوم الارتباط؟

التوضيح 1

البيانات المتزايدة باطراد حقيقة واقعة

دراسة حالة

أوضحت سويني (2002) في ورقة أكاديمية كيف أنها كانت قادرة على تحديد واسترجاع البيانات الطبية الحساسة من الأفراد بناءً على ربط مجموعة البيانات المتاحة للجمهور من "زيارات المستشفى" بمسجل التصويت المتاح للجمهور في الولايات المتحدة. كلتا مجموعتي البيانات حيث يُفترض أنهما مجهولتان بشكل صحيح من خلال حذف الأسماء والمعرفات المباشرة الأخرى.

التوضيح 2

هجوم الارتباط في الممارسة العملية

استنادًا إلى المعلمات الثلاثة فقط (1) الرمز البريدي ، (2) الجنس و (3) تاريخ الميلاد ، أظهرت أنه يمكن إعادة تحديد 87٪ من إجمالي سكان الولايات المتحدة من خلال مطابقة السمات المذكورة أعلاه من مجموعتي البيانات. ثم كررت سويني عملها مع وجود "دولة" كبديل لـ "الرمز البريدي". بالإضافة إلى ذلك ، أوضحت أنه لا يمكن تحديد 18٪ من إجمالي سكان الولايات المتحدة إلا من خلال الوصول إلى مجموعة بيانات تحتوي على معلومات حول (1) البلد الأصلي و (2) الجنس و (3) تاريخ الميلاد. فكر في المصادر العامة المذكورة أعلاه ، مثل Facebook أو LinkedIn أو Instagram. هل يظهر بلدك وجنسك وتاريخ ميلادك ، أم يستطيع المستخدمون الآخرون خصمها؟

التوضيح 3

نتائج سويني

شبه المعرفات	٪ محددة بشكل فريد من سكان الولايات المتحدة (248 مليون)
5 أرقام ZIP ، الجنس وتاريخ الميلاد	87%
مكانوالجنس وتاريخ الميلاد	53%
البلدوالجنس وتاريخ الميلاد	18%

يوضح هذا المثال أنه يمكن أن يكون من السهل بشكل ملحوظ إلغاء إخفاء هوية الأفراد في البيانات التي تبدو مجهولة الهوية. أولاً ، تشير هذه الدراسة إلى حجم كبير من المخاطر ، مثل يمكن التعرف بسهولة على 87٪ من سكان الولايات المتحدة باستخدام بعض الخصائص. ثانيًا ، كانت البيانات الطبية المكشوفة في هذه الدراسة شديدة الحساسية. تتضمن أمثلة بيانات الأفراد المعرضين من مجموعة بيانات زيارات المستشفى العرق والتشخيص والأدوية. السمات التي قد يفضل المرء إخفاءها ، على سبيل المثال ، من شركات التأمين.

3) الأفراد المطلعين

ينشأ خطر آخر لإزالة المعرفات المباشرة فقط ، مثل الأسماء ، عندما يكون لدى الأفراد المطلعين معرفة أو معلومات فائقة حول سمات أو سلوك أفراد معينين في مجموعة البيانات. بناءً على معرفتهم ، قد يتمكن المهاجم بعد ذلك من ربط سجلات بيانات محددة بأشخاص فعليين.

دراسة حالة

مثال على هجوم على مجموعة بيانات باستخدام معرفة فائقة هو قضية سيارات الأجرة في نيويورك ، حيث تمكن أتوكار (2014) من الكشف عن أفراد معينين. احتوت مجموعة البيانات المستخدمة على جميع رحلات سيارات الأجرة في نيويورك ، مع إثراءها بالسمات الأساسية مثل إحداثيات البداية وإحداثيات النهاية والسعر ورأس الرحلة.

شخص مطلع يعرف نيويورك كان قادرًا على اشتقاق رحلات تاكسي إلى نادي الكبار "Hustler". من خلال تصفية "الموقع النهائي" ، استنتج عناوين البداية الدقيقة وبالتالي حدد العديد من الزوار المتكررين. وبالمثل ، يمكن للمرء أن يستنتج ركوب سيارات الأجرة عندما يكون عنوان منزل الفرد معروفًا. تم اكتشاف وقت وموقع العديد من نجوم السينما المشاهير في مواقع الشائعات. بعد ربط هذه المعلومات ببيانات سيارات الأجرة في مدينة نيويورك ، كان من السهل اشتقاق رحلات سيارات الأجرة الخاصة بهم ، والمبلغ الذي دفعوه ، وما إذا كانوا قد تلقوا إكرامية.

التوضيح 4

فرد مطلع

الانزال ينسق محتال

برادلي كوبر

جيسيكا ألبا

4) البيانات كبصمة

ومن الجدل الشائع أن "هذه البيانات لا قيمة لها" أو "لا يمكن لأحد أن يفعل أي شيء بهذه البيانات". هذا غالبا ما يكون فكرة خاطئة. حتى البيانات الأكثر براءة يمكن أن تشكل "بصمة" فريدة ويمكن استخدامها لإعادة تحديد هوية الأفراد. إنه الخطر الناجم عن الاعتقاد بأن البيانات نفسها لا قيمة لها ، في حين أنها ليست كذلك.

ستزداد مخاطر تحديد الهوية مع زيادة البيانات والذكاء الاصطناعي والأدوات والخوارزميات الأخرى التي تمكن من الكشف عن العلاقات المعقدة في البيانات. وبالتالي ، حتى إذا كان لا يمكن الكشف عن مجموعة البيانات الخاصة بك الآن ، ومن المفترض أنها عديمة الفائدة للأشخاص غير المصرح لهم اليوم ، فقد لا تكون غدًا.

دراسة حالة

وخير مثال على ذلك هو الحالة التي قصدت فيها Netflix التعهيد الجماعي لقسم البحث والتطوير لديها من خلال تقديم مسابقة Netflix مفتوحة لتحسين نظام التوصية بالأفلام. "الشخص الذي يعمل على تحسين خوارزمية التصفية التعاونية للتنبؤ بتقييمات المستخدمين للأفلام يفوز بجائزة قدرها مليون دولار أمريكي". من أجل دعم الجمهور ، نشرت Netflix مجموعة بيانات تحتوي فقط على السمات الأساسية التالية: معرف المستخدم ، والفيلم ، وتاريخ الدرجة والدرجة (لذلك لا توجد معلومات إضافية عن المستخدم أو الفيلم نفسه).

التوضيح 5

هيكل مجموعة البيانات سعر Netflix

معرف المستخدم	فيلم	تاريخ الصف	الصف
123456789	مستحيل مهمة	10-12-2008	4

بدت البيانات عديمة الجدوى بمعزل عن غيرها. عند طرح السؤال "هل هناك أي معلومات خاصة بالعميل في مجموعة البيانات يجب الاحتفاظ بها خاصة؟" ، كانت الإجابة:

"لا ، تمت إزالة كافة معلومات تعريف العميل ؛ كل ما تبقى هو التقييمات والتواريخ. هذا يتبع سياسة الخصوصية الخاصة بنا ... "

ومع ذلك ، أثبت نارايانان (2008) من جامعة تكساس في أوستن خلاف ذلك. يشكل الجمع بين الدرجات وتاريخ الدرجة والفيلم الخاص بالفرد بصمة فريدة للفيلم. فكر في سلوك Netflix الخاص بك. كم عدد الأشخاص الذين شاهدوا نفس مجموعة الأفلام برأيك؟ كم عدد الذين شاهدوا نفس مجموعة الأفلام في نفس الوقت؟

السؤال الرئيسي كيف تطابق البصمة هذه؟ كان الأمر بسيطًا إلى حد ما. استنادًا إلى معلومات من موقع IMDb الشهير لتصنيف الأفلام على الإنترنت (قاعدة بيانات الأفلام على الإنترنت) ، يمكن تكوين بصمة مماثلة. وبالتالي ، يمكن إعادة تحديد هوية الأفراد.

في حين أن سلوك مشاهدة الأفلام قد لا يُفترض على أنه معلومات حساسة ، ففكر في سلوكك الخاص - هل تمانع إذا تم طرحه للجمهور؟ الأمثلة التي قدمها نارايانان في ورقته البحثية هي التفضيلات السياسية (تقييمات على "يسوع الناصري" و "إنجيل يوحنا") والتفضيلات الجنسية (تصنيفات على "بنت" و "كوير كشعبية") التي يمكن استخلاصها بسهولة.

5) اللائحة العامة لحماية البيانات (GDPR)

قد لا تكون اللائحة العامة لحماية البيانات مثيرة للغاية ، ولا الحل الفضي بين موضوعات المدونات. ومع ذلك ، من المفيد الحصول على التعريفات مباشرة عند معالجة البيانات الشخصية. نظرًا لأن هذه المدونة تدور حول المفهوم الخاطئ الشائع المتمثل في إزالة الأعمدة كطريقة لإخفاء هوية البيانات ولتعليمك كمعالج بيانات ، فلنبدأ باستكشاف تعريف إخفاء الهوية وفقًا للائحة العامة لحماية البيانات (GDPR).

وفقًا للحيثية 26 من اللائحة العامة لحماية البيانات ، يتم تعريف المعلومات مجهولة المصدر على النحو التالي:

"المعلومات التي لا تتعلق بشخص طبيعي محدد أو قابل للتحديد أو بيانات شخصية مجهولة الهوية بطريقة تجعل موضوع البيانات غير قابل للتحديد أو لا يمكن التعرف عليه."

نظرًا لأن المرء يعالج البيانات الشخصية المتعلقة بشخص طبيعي ، فإن الجزء 2 فقط من التعريف يكون ذا صلة. من أجل الامتثال للتعريف ، يتعين على المرء التأكد من أن موضوع البيانات (الفرد) لم يعد قابلاً للتحديد أو لم يعد قابلاً للتحديد. ومع ذلك ، كما هو موضح في هذه المدونة ، من السهل بشكل ملحوظ تحديد الأفراد بناءً على بعض السمات. لذا ، فإن إزالة الأسماء من مجموعة البيانات لا يتوافق مع تعريف اللائحة العامة لحماية البيانات لإخفاء الهوية.

أخيرا

لقد تحدنا أحد الأساليب التي يتم النظر فيها بشكل شائع ، ولسوء الحظ ، لا يزال يتم تطبيقها بشكل متكرر لإخفاء هوية البيانات: إزالة الأسماء. في لعبة Guess Who وأربعة أمثلة أخرى حول:

هجمات الربط
الأفراد المطلعين
البيانات كبصمة إصبع
اللائحة العامة لحماية البيانات (GDPR)

تبين أن إزالة الأسماء فشل لإخفاء الهوية. على الرغم من أن الأمثلة هي حالات ملفتة للنظر ، إلا أن كل منها يظهر بساطة إعادة تحديد الهوية والتأثير السلبي المحتمل على خصوصية الأفراد.

في الختام ، لا ينتج عن إزالة الأسماء من مجموعة البيانات الخاصة بك بيانات مجهولة المصدر. وبالتالي ، من الأفضل تجنب استخدام كلا المصطلحين بالتبادل. أتمنى مخلصًا ألا تطبق هذا النهج لإخفاء الهوية. وإذا كنت لا تزال تفعل ذلك ، فتأكد من فهمك أنت وفريقك تمامًا لمخاطر الخصوصية ، ومسموح لك بقبول هذه المخاطر نيابة عن الأفراد المتضررين.

البيانات مصطنعة، لكن فريقنا حقيقي!

الاتصال Syntho وسيتواصل معك أحد خبرائنا بسرعة الضوء لاستكشاف قيمة البيانات التركيبية!

رينسل ، جي جانتز ، جون ريدنينج. رقمنة العالم من الحافة إلى الأساسية ، عصر البيانات 2025 ، 2018
إل سويني. إخفاء الهوية ك: نموذج لحماية الخصوصية. المجلة الدولية حول عدم اليقين والغموض والأنظمة القائمة على المعرفة ، 10 (5) ، 2002: 557-570
إل سويني. غالبًا ما تحدد الخصائص الديمغرافية البسيطة الأشخاص بشكل فريد. جامعة كارنيجي ميلون ، ورقة عمل خصوصية البيانات 3. بيتسبرغ 2000
P. Samarati. حماية هويات المستجيبين في إصدار البيانات الجزئية. معاملات IEEE على المعرفة وهندسة البيانات ، 13 (6) ، 2001: 1010-1027
أتوكار. الركوب مع النجوم: خصوصية الركاب في مجموعة بيانات NYC Taxicab ، 2014
نارايانان ، أ ، وشماتيكوف ، ف. (2008). إزالة قوية للهوية من مجموعات البيانات المتفرقة الكبيرة. في الإجراءات - ندوة IEEE 2008 حول الأمن والخصوصية ، SP (ص 111-125)
اللائحة العامة لحماية البيانات (GDPR) ، الحيثية 26 ، لا تنطبق على البيانات المجهولة

ما هي البيانات التركيبية؟

تقرير ضمان الجودة

التقييم الخارجي من قبل SAS

البيانات الاصطناعية السلاسل الزمنية

ماسح PII

بيانات وهمية الاصطناعية

رسم الخرائط متسقة

إلغاء الهوية والتوليف

البيانات الاصطناعية القائمة على القواعد

التقليل

النشر والتكامل

الموصلات

ميزات موسعة

البيانات المدعومة

وثائق المستخدم

جدولة التجريبي

التسعير

البيانات التركيبية كبيانات اختبار

البيانات التركيبية للتحليلات

البيانات الاصطناعية لتبادل البيانات

البيانات التركيبية لعرض المنتج

الرعاية الصحية

تمويل

المنظمات العامة

وثائق المستخدم

الأوراق البيضاء والأدلة

المدونة

ويبينار

دراسة الحالات

التسعير

من نحن

فرص عمل

خمن من؟ 5 أمثلة على أن إزالة الأسماء ليست خيارًا

مقدمة إلى Guess Who

2) هجمات الارتباط: مجموعة البيانات الخاصة بك مرتبطة بمصادر بيانات (عامة) أخرى

البيانات المتزايدة باطراد حقيقة واقعة

دراسة حالة

هجوم الارتباط في الممارسة العملية

نتائج سويني

3) الأفراد المطلعين

دراسة حالة

فرد مطلع

4) البيانات كبصمة

دراسة حالة

هيكل مجموعة البيانات سعر Netflix

5) اللائحة العامة لحماية البيانات (GDPR)

أخيرا

البيانات مصطنعة، لكن فريقنا حقيقي!

القائمة الرئيسية