لماذا لا ينتج عن إخفاء الهوية الكلاسيكي (والتسمية المستعارة) بيانات مجهولة المصدر

ما هو إخفاء الهوية الكلاسيكي؟

باستخدام إخفاء الهوية الكلاسيكي ، فإننا نعني جميع المنهجيات التي يتلاعب فيها الفرد بمجموعة بيانات أصلية أو يشوهها لعرقلة تتبع الأفراد.

الأمثلة النموذجية لإخفاء الهوية الكلاسيكي التي نراها في الممارسة هي التعميم ، والقمع / المسح ، والتسمية المستعارة ، وخلط الصفوف والأعمدة.

بموجب هذه التقنيات مع الأمثلة المقابلة.

تقنية البيانات الأصلية البيانات التي تم التلاعب بها
تعميم سنوات العمر 27 بين 25 و 30 سنة
القمع / المسح info@syntho.ai xxxx@xxxxxx.xxx
اسماء مستعارة أمستردام 6
خلط الصفوف والعمود الانحياز خلط

ما هي عيوب إخفاء الهوية الكلاسيكي؟

ينتج عن معالجة مجموعة البيانات باستخدام تقنيات إخفاء الهوية التقليدية عيبان رئيسيان:

  1. يؤدي تشويه مجموعة البيانات إلى انخفاض جودة البيانات (أي فائدة البيانات). يقدم هذا المبدأ الكلاسيكي للقمامة في التخلص من القمامة.
  2. مخاطر الخصوصية سيتم تخفيض ، ولكن سيكون دائما حاضرا. يبقى الإصدار المعالَج من مجموعة البيانات الأصلية بعلاقات 1-1.

نوضح هذين العيبين الرئيسيين ، فائدة البيانات وحماية الخصوصية. نقوم بذلك من خلال الرسم التوضيحي التالي مع القمع المطبق والتعميم.

ملاحظة: نحن نستخدم الصور لأغراض التوضيح. ينطبق نفس المبدأ على مجموعات البيانات المنظمة.

فشل إخفاء الهوية الكلاسيكي
  • بقي من الزمن: القليل من تطبيق إخفاء الهوية الكلاسيكي يؤدي إلى توضيح تمثيلي. ومع ذلك ، يمكن بسهولة تحديد الفرد وتكون مخاطر الخصوصية كبيرة.

 

  • الحق: يؤدي التطبيق الصارم لإخفاء الهوية الكلاسيكي إلى حماية خصوصية قوية. ومع ذلك ، يصبح الرسم التوضيحي عديم الفائدة.

تقدم تقنيات إخفاء الهوية الكلاسيكية مزيجًا دون المستوى الأمثل بين فائدة البيانات وحماية الخصوصية.

يقدم هذا المفاضلة بين فائدة البيانات وحماية الخصوصية ، حيث تقدم تقنيات إخفاء الهوية الكلاسيكية دائمًا مزيجًا دون المستوى الأمثل من الاثنين. 

منحنى فائدة إخفاء الهوية الكلاسيكي

هل تُعد إزالة جميع المعرفات المباشرة (مثل الأسماء) من مجموعة البيانات حلاً؟

لا. هذه فكرة خاطئة كبيرة ولا تؤدي إلى بيانات مجهولة. هل ما زلت تطبق هذا كطريقة لإخفاء هوية مجموعة البيانات الخاصة بك؟ ثم هذه المدونة يجب أن تقرأ لك.

كيف تختلف البيانات التركيبية؟

تقوم Syntho بتطوير برنامج لإنشاء مجموعة بيانات جديدة تمامًا من سجلات البيانات الحديثة. لا توجد معلومات لتحديد الأفراد الحقيقيين في مجموعة البيانات التركيبية. نظرًا لأن البيانات التركيبية تحتوي على سجلات بيانات اصطناعية تم إنشاؤها بواسطة البرامج ، فإن البيانات الشخصية ببساطة غير موجودة مما يؤدي إلى موقف لا ينطوي على مخاطر تتعلق بالخصوصية.

الاختلاف الرئيسي في Syntho: نحن نطبق التعلم الآلي. وبالتالي ، فإن حلنا يعيد إنتاج بنية وخصائص مجموعة البيانات الأصلية في مجموعة البيانات التركيبية مما يؤدي إلى تعظيم فائدة البيانات. وفقًا لذلك ، ستتمكن من الحصول على نفس النتائج عند تحليل البيانات التركيبية مقارنة باستخدام البيانات الأصلية.

دراسة الحالة هذه يوضح النقاط البارزة من تقرير الجودة الخاص بنا الذي يحتوي على إحصائيات مختلفة من البيانات التركيبية التي تم إنشاؤها من خلال محرك Syntho مقارنة بالبيانات الأصلية.

في الختام ، تعد البيانات التركيبية هي الحل المفضل للتغلب على المفاضلة النموذجية دون المثالية بين أداة البيانات وحماية الخصوصية ، والتي توفرها لك جميع تقنيات إخفاء الهوية التقليدية.

منحنى فائدة إخفاء الهوية الكلاسيكي

إذن ، لماذا نستخدم بيانات حقيقية (حساسة) بينما يمكنك استخدام البيانات التركيبية؟

في الختام ، من منظور أداة البيانات وحماية الخصوصية ، يجب على المرء دائمًا اختيار البيانات التركيبية عندما تسمح حالة الاستخدام الخاصة بك بذلك.

 قيمة للتحليلمخاطر الخصوصية
البيانات التركيبيةمرتفعبدون اضاءة
بيانات حقيقية (شخصية)مرتفعمرتفع
البيانات التي تم التلاعب بها (من خلال "إخفاء الهوية" الكلاسيكي)منخفض متوسطةمتوسطة عالية
فكرة

تملأ البيانات التركيبية بواسطة Syntho الفجوات حيث تقصر تقنيات إخفاء الهوية التقليدية عن طريق تعظيم كليهما فائدة البيانات و  حماية الخصوصية.

مهتم؟

اكتشف القيمة المضافة للبيانات التركيبية معنا