خمن من؟ على الرغم من أنني متأكد من أن معظمكم يعرف هذه اللعبة منذ أيام ، فإليك ملخصًا موجزًا. الهدف من اللعبة: اكتشف اسم شخصية الكارتون التي اختارها خصمك بطرح أسئلة "نعم" و "لا" ، مثل "هل يرتدي الشخص قبعة؟" أو "هل يرتدي الشخص نظارات"؟ يستبعد اللاعبون المرشحين بناءً على استجابة الخصم ويتعلمون السمات التي تتعلق بشخصية خصمهم الغامضة. أول لاعب يكتشف شخصية اللاعب الآخر الغامضة يفوز باللعبة.
لك ذالك. يجب على المرء تحديد الفرد من مجموعة البيانات من خلال الوصول فقط إلى السمات المقابلة. في الواقع ، نرى بانتظام مفهوم Guess Who المطبق عمليًا ، ولكن بعد ذلك يتم استخدامه في مجموعات البيانات المنسقة بصفوف وأعمدة تحتوي على سمات لأشخاص حقيقيين. يتمثل الاختلاف الرئيسي عند التعامل مع البيانات في أن الأشخاص يميلون إلى التقليل من أهمية السهولة التي يمكن من خلالها الكشف عن أفراد حقيقيين من خلال الوصول إلى بعض السمات فقط.
كما توضح لعبة Guess Who ، يمكن لأي شخص التعرف على الأفراد من خلال الوصول إلى بعض السمات فقط. إنه بمثابة مثال بسيط على سبب فشل إزالة "الأسماء" فقط (أو غيرها من المعرفات المباشرة) من مجموعة البيانات الخاصة بك كأسلوب لإخفاء الهوية. في هذه المدونة ، نقدم أربع حالات عملية لإبلاغك بمخاطر الخصوصية المرتبطة بإزالة الأعمدة كوسيلة لإخفاء هوية البيانات.
يُعد خطر هجمات الارتباط أهم سبب لعدم نجاح إزالة الأسماء فقط (بعد الآن) كطريقة لإخفاء الهوية. باستخدام هجوم الربط ، يجمع المهاجم البيانات الأصلية مع مصادر البيانات الأخرى التي يمكن الوصول إليها من أجل تحديد هوية الفرد بشكل فريد ومعرفة المعلومات (الحساسة غالبًا) حول هذا الشخص.
المفتاح هنا هو توافر مصادر البيانات الأخرى الموجودة الآن ، أو التي قد تصبح موجودة في المستقبل. فكر في نفسك. ما مقدار البيانات الشخصية الخاصة بك التي يمكن العثور عليها على Facebook أو Instagram أو LinkedIn والتي من المحتمل أن يتم إساءة استخدامها في هجوم الارتباط؟
في الأيام السابقة ، كان توافر البيانات محدودًا بدرجة أكبر ، وهو ما يفسر جزئيًا سبب أن إزالة الأسماء كانت كافية للحفاظ على خصوصية الأفراد. نقص البيانات المتاحة يعني فرصًا أقل لربط البيانات. ومع ذلك ، نحن الآن مشاركين (نشطين) في اقتصاد يعتمد على البيانات ، حيث ينمو حجم البيانات بمعدل أسي. سيؤدي المزيد من البيانات وتحسين التكنولوجيا لجمع البيانات إلى زيادة احتمالية هجمات الارتباط. ما الذي يمكن أن يكتبه المرء في غضون 10 سنوات عن مخاطر هجوم الارتباط؟
التوضيح 1
أوضحت سويني (2002) في ورقة أكاديمية كيف أنها كانت قادرة على تحديد واسترجاع البيانات الطبية الحساسة من الأفراد بناءً على ربط مجموعة البيانات المتاحة للجمهور من "زيارات المستشفى" بمسجل التصويت المتاح للجمهور في الولايات المتحدة. كلتا مجموعتي البيانات حيث يُفترض أنهما مجهولتان بشكل صحيح من خلال حذف الأسماء والمعرفات المباشرة الأخرى.
التوضيح 2
استنادًا إلى المعلمات الثلاثة فقط (1) الرمز البريدي ، (2) الجنس و (3) تاريخ الميلاد ، أظهرت أنه يمكن إعادة تحديد 87٪ من إجمالي سكان الولايات المتحدة من خلال مطابقة السمات المذكورة أعلاه من مجموعتي البيانات. ثم كررت سويني عملها مع وجود "دولة" كبديل لـ "الرمز البريدي". بالإضافة إلى ذلك ، أوضحت أنه لا يمكن تحديد 18٪ من إجمالي سكان الولايات المتحدة إلا من خلال الوصول إلى مجموعة بيانات تحتوي على معلومات حول (1) البلد الأصلي و (2) الجنس و (3) تاريخ الميلاد. فكر في المصادر العامة المذكورة أعلاه ، مثل Facebook أو LinkedIn أو Instagram. هل يظهر بلدك وجنسك وتاريخ ميلادك ، أم يستطيع المستخدمون الآخرون خصمها؟
التوضيح 3
شبه المعرفات | ٪ محددة بشكل فريد من سكان الولايات المتحدة (248 مليون) |
5 أرقام ZIP ، الجنس وتاريخ الميلاد | 87% |
مكانوالجنس وتاريخ الميلاد | 53% |
البلدوالجنس وتاريخ الميلاد | 18% |
يوضح هذا المثال أنه يمكن أن يكون من السهل بشكل ملحوظ إلغاء إخفاء هوية الأفراد في البيانات التي تبدو مجهولة الهوية. أولاً ، تشير هذه الدراسة إلى حجم كبير من المخاطر ، مثل يمكن التعرف بسهولة على 87٪ من سكان الولايات المتحدة باستخدام بعض الخصائص. ثانيًا ، كانت البيانات الطبية المكشوفة في هذه الدراسة شديدة الحساسية. تتضمن أمثلة بيانات الأفراد المعرضين من مجموعة بيانات زيارات المستشفى العرق والتشخيص والأدوية. السمات التي قد يفضل المرء إخفاءها ، على سبيل المثال ، من شركات التأمين.
ينشأ خطر آخر لإزالة المعرفات المباشرة فقط ، مثل الأسماء ، عندما يكون لدى الأفراد المطلعين معرفة أو معلومات فائقة حول سمات أو سلوك أفراد معينين في مجموعة البيانات. بناءً على معرفتهم ، قد يتمكن المهاجم بعد ذلك من ربط سجلات بيانات محددة بأشخاص فعليين.
مثال على هجوم على مجموعة بيانات باستخدام معرفة فائقة هو قضية سيارات الأجرة في نيويورك ، حيث تمكن أتوكار (2014) من الكشف عن أفراد معينين. احتوت مجموعة البيانات المستخدمة على جميع رحلات سيارات الأجرة في نيويورك ، مع إثراءها بالسمات الأساسية مثل إحداثيات البداية وإحداثيات النهاية والسعر ورأس الرحلة.
شخص مطلع يعرف نيويورك كان قادرًا على اشتقاق رحلات تاكسي إلى نادي الكبار "Hustler". من خلال تصفية "الموقع النهائي" ، استنتج عناوين البداية الدقيقة وبالتالي حدد العديد من الزوار المتكررين. وبالمثل ، يمكن للمرء أن يستنتج ركوب سيارات الأجرة عندما يكون عنوان منزل الفرد معروفًا. تم اكتشاف وقت وموقع العديد من نجوم السينما المشاهير في مواقع الشائعات. بعد ربط هذه المعلومات ببيانات سيارات الأجرة في مدينة نيويورك ، كان من السهل اشتقاق رحلات سيارات الأجرة الخاصة بهم ، والمبلغ الذي دفعوه ، وما إذا كانوا قد تلقوا إكرامية.
التوضيح 4
الانزال ينسق محتال
برادلي كوبر
جيسيكا ألبا
ومن الجدل الشائع أن "هذه البيانات لا قيمة لها" أو "لا يمكن لأحد أن يفعل أي شيء بهذه البيانات". هذا غالبا ما يكون فكرة خاطئة. حتى البيانات الأكثر براءة يمكن أن تشكل "بصمة" فريدة ويمكن استخدامها لإعادة تحديد هوية الأفراد. إنه الخطر الناجم عن الاعتقاد بأن البيانات نفسها لا قيمة لها ، في حين أنها ليست كذلك.
ستزداد مخاطر تحديد الهوية مع زيادة البيانات والذكاء الاصطناعي والأدوات والخوارزميات الأخرى التي تمكن من الكشف عن العلاقات المعقدة في البيانات. وبالتالي ، حتى إذا كان لا يمكن الكشف عن مجموعة البيانات الخاصة بك الآن ، ومن المفترض أنها عديمة الفائدة للأشخاص غير المصرح لهم اليوم ، فقد لا تكون غدًا.
وخير مثال على ذلك هو الحالة التي قصدت فيها Netflix التعهيد الجماعي لقسم البحث والتطوير لديها من خلال تقديم مسابقة Netflix مفتوحة لتحسين نظام التوصية بالأفلام. "الشخص الذي يعمل على تحسين خوارزمية التصفية التعاونية للتنبؤ بتقييمات المستخدمين للأفلام يفوز بجائزة قدرها مليون دولار أمريكي". من أجل دعم الجمهور ، نشرت Netflix مجموعة بيانات تحتوي فقط على السمات الأساسية التالية: معرف المستخدم ، والفيلم ، وتاريخ الدرجة والدرجة (لذلك لا توجد معلومات إضافية عن المستخدم أو الفيلم نفسه).
التوضيح 5
معرف المستخدم | فيلم | تاريخ الصف | الصف |
123456789 | مستحيل مهمة | 10-12-2008 | 4 |
بدت البيانات عديمة الجدوى بمعزل عن غيرها. عند طرح السؤال "هل هناك أي معلومات خاصة بالعميل في مجموعة البيانات يجب الاحتفاظ بها خاصة؟" ، كانت الإجابة:
"لا ، تمت إزالة كافة معلومات تعريف العميل ؛ كل ما تبقى هو التقييمات والتواريخ. هذا يتبع سياسة الخصوصية الخاصة بنا ... "
ومع ذلك ، أثبت نارايانان (2008) من جامعة تكساس في أوستن خلاف ذلك. يشكل الجمع بين الدرجات وتاريخ الدرجة والفيلم الخاص بالفرد بصمة فريدة للفيلم. فكر في سلوك Netflix الخاص بك. كم عدد الأشخاص الذين شاهدوا نفس مجموعة الأفلام برأيك؟ كم عدد الذين شاهدوا نفس مجموعة الأفلام في نفس الوقت؟
السؤال الرئيسي كيف تطابق البصمة هذه؟ كان الأمر بسيطًا إلى حد ما. استنادًا إلى معلومات من موقع IMDb الشهير لتصنيف الأفلام على الإنترنت (قاعدة بيانات الأفلام على الإنترنت) ، يمكن تكوين بصمة مماثلة. وبالتالي ، يمكن إعادة تحديد هوية الأفراد.
في حين أن سلوك مشاهدة الأفلام قد لا يُفترض على أنه معلومات حساسة ، ففكر في سلوكك الخاص - هل تمانع إذا تم طرحه للجمهور؟ الأمثلة التي قدمها نارايانان في ورقته البحثية هي التفضيلات السياسية (تقييمات على "يسوع الناصري" و "إنجيل يوحنا") والتفضيلات الجنسية (تصنيفات على "بنت" و "كوير كشعبية") التي يمكن استخلاصها بسهولة.
قد لا تكون اللائحة العامة لحماية البيانات مثيرة للغاية ، ولا الحل الفضي بين موضوعات المدونات. ومع ذلك ، من المفيد الحصول على التعريفات مباشرة عند معالجة البيانات الشخصية. نظرًا لأن هذه المدونة تدور حول المفهوم الخاطئ الشائع المتمثل في إزالة الأعمدة كطريقة لإخفاء هوية البيانات ولتعليمك كمعالج بيانات ، فلنبدأ باستكشاف تعريف إخفاء الهوية وفقًا للائحة العامة لحماية البيانات (GDPR).
وفقًا للحيثية 26 من اللائحة العامة لحماية البيانات ، يتم تعريف المعلومات مجهولة المصدر على النحو التالي:
"المعلومات التي لا تتعلق بشخص طبيعي محدد أو قابل للتحديد أو بيانات شخصية مجهولة الهوية بطريقة تجعل موضوع البيانات غير قابل للتحديد أو لا يمكن التعرف عليه."
نظرًا لأن المرء يعالج البيانات الشخصية المتعلقة بشخص طبيعي ، فإن الجزء 2 فقط من التعريف يكون ذا صلة. من أجل الامتثال للتعريف ، يتعين على المرء التأكد من أن موضوع البيانات (الفرد) لم يعد قابلاً للتحديد أو لم يعد قابلاً للتحديد. ومع ذلك ، كما هو موضح في هذه المدونة ، من السهل بشكل ملحوظ تحديد الأفراد بناءً على بعض السمات. لذا ، فإن إزالة الأسماء من مجموعة البيانات لا يتوافق مع تعريف اللائحة العامة لحماية البيانات لإخفاء الهوية.
لقد تحدنا أحد الأساليب التي يتم النظر فيها بشكل شائع ، ولسوء الحظ ، لا يزال يتم تطبيقها بشكل متكرر لإخفاء هوية البيانات: إزالة الأسماء. في لعبة Guess Who وأربعة أمثلة أخرى حول:
تبين أن إزالة الأسماء فشل لإخفاء الهوية. على الرغم من أن الأمثلة هي حالات ملفتة للنظر ، إلا أن كل منها يظهر بساطة إعادة تحديد الهوية والتأثير السلبي المحتمل على خصوصية الأفراد.
في الختام ، لا ينتج عن إزالة الأسماء من مجموعة البيانات الخاصة بك بيانات مجهولة المصدر. وبالتالي ، من الأفضل تجنب استخدام كلا المصطلحين بالتبادل. أتمنى مخلصًا ألا تطبق هذا النهج لإخفاء الهوية. وإذا كنت لا تزال تفعل ذلك ، فتأكد من فهمك أنت وفريقك تمامًا لمخاطر الخصوصية ، ومسموح لك بقبول هذه المخاطر نيابة عن الأفراد المتضررين.
الاتصال Syntho وسيتواصل معك أحد خبرائنا بسرعة الضوء لاستكشاف قيمة البيانات التركيبية!