چرا ناشناس ماندن کلاسیک (و نام مستعار) منجر به داده های ناشناس نمی شود

گمنامی کلاسیک چیست؟

با بی هویتی کلاسیک ، ما به همه روش هایی دلالت داریم که در آن شخص یک مجموعه داده اصلی را دستکاری یا تحریف می کند تا مانع ردیابی افراد شود.

نمونه های معمولی از گمنامی کلاسیک که در عمل می بینیم عبارتند از تعمیم ، سرکوب / پاک کردن ، نام مستعار و تغییر سطر و ستون.

بدین وسیله آن تکنیکها با مثالهای مربوطه.

تکنیک داده های اصلی داده های دستکاری شده
تعمیم سال 27 بین 25 تا 30 سال
سرکوب / پاک کردن info@syntho.ai xxxx@xxxxxx.xx
نام مستعار آمستردام hVFD6td3jdHHj78ghdgrewui6
به هم زدن ردیف و ستون هم راستا بهم امیختن

بی هویتی کلاسیک چه معایبی دارد؟

دستکاری یک مجموعه داده با تکنیک های کلاسیک ناشناس شدن منجر به 2 معایب کلیدی می شود:

  1. تحریف یک مجموعه داده منجر به کاهش کیفیت داده ها (یعنی سودمندی داده ها) می شود. این اصل کلاسیک جمع آوری زباله در زباله را معرفی می کند.
  2. خطر حفظ حریم خصوصی کاهش می یابد ، اما همیشه حضور خواهد داشتبه این نسخه از مجموعه داده اصلی با روابط 1-1 باقی می ماند و دستکاری می شود.

ما آن 2 معایب کلیدی ، کاربرد داده و حفاظت از حریم خصوصی را نشان می دهیم. ما این کار را با تصویر زیر با سرکوب و تعمیم کاربردی انجام می دهیم.

توجه: ما از تصاویر برای مقاصد گویا استفاده می کنیم. همین اصل در مورد مجموعه داده های ساختار یافته نیز صادق است.

گمنامی کلاسیک ناموفق است
  • ترک کرد: استفاده ناچیز از گمنامی کلاسیک منجر به یک تصویر نماینده می شود. با این حال ، فرد می تواند به راحتی شناسایی شود و خطر حفظ حریم خصوصی قابل توجه است.

 

  • درست: استفاده شدید از گمنامی کلاسیک منجر به حفاظت از حریم خصوصی قوی می شود. با این حال ، تصویر بی فایده می شود.

تکنیک های کلاسیک ناشناس سازی ترکیبی غیر بهینه بین کاربرد داده و حفاظت از حریم خصوصی را ارائه می دهند.

این امر ، مبادله بین کاربرد داده و حفاظت از حریم خصوصی را معرفی می کند ، جایی که تکنیک های کلاسیک ناشناس سازی همیشه ترکیبی از بهینه از هر دو را ارائه می دهند. 

منحنی ابزار ناشناس سازی کلاسیک

آیا حذف همه شناسه های مستقیم (مانند نام ها) از مجموعه داده راه حلی است؟

خیر. این یک تصور غلط بزرگ است و منجر به داده های ناشناس نمی شود. آیا هنوز از این روش برای ناشناس کردن مجموعه داده خود استفاده می کنید؟ سپس این وبلاگ برای شما ضروری است.

تفاوت داده های مصنوعی چگونه است؟

Syntho نرم افزاری را برای ایجاد مجموعه داده کاملاً جدید از پرونده های جدید ایجاد می کند. اطلاعات برای شناسایی افراد واقعی به سادگی در مجموعه داده های مصنوعی وجود ندارد. از آنجا که داده های مصنوعی حاوی سوابق داده های مصنوعی هستند که توسط نرم افزار تولید شده اند ، داده های شخصی به سادگی موجود نیستند و در نتیجه بدون هیچ خطری در مورد حریم خصوصی ایجاد می شود.

تفاوت اصلی در Syntho: ما از یادگیری ماشین استفاده می کنیم. در نتیجه ، راه حل ما ساختار و ویژگی های مجموعه داده اصلی را در مجموعه داده های مصنوعی بازتولید می کند و در نتیجه حداکثر استفاده از داده را فراهم می کند. بر این اساس ، هنگام تجزیه و تحلیل داده های مصنوعی می توانید نتایج یکسانی را در مقایسه با استفاده از داده های اصلی بدست آورید.

این مطالعه موردی نکات برجسته ای از گزارش کیفیت ما شامل آمارهای مختلف از داده های مصنوعی تولید شده از طریق موتور Syntho ما در مقایسه با داده های اصلی را نشان می دهد.

در نتیجه ، داده های ترکیبی راه حلی ترجیحی برای غلبه بر توافق معمولی غیر مطلوب بین کاربرد داده و حفاظت از حریم خصوصی است ، که همه تکنیک های کلاسیک ناشناس سازی به شما ارائه می دهند.

منحنی ابزار ناشناس سازی کلاسیک

بنابراین ، چرا می توانید از داده های واقعی (حساس) استفاده کنید در حالی که می توانید از داده های مصنوعی استفاده کنید؟

در نتیجه ، از نظر ابزار داده و حفاظت از حریم خصوصی ، همیشه باید داده های مصنوعی را هنگامی که مورد استفاده شما اجازه می دهد انتخاب کنید.

 ارزش تجزیه و تحلیلخطر حفظ حریم خصوصی
داده های مصنوعیزیادهیچ
داده های واقعی (شخصی)زیادزیاد
داده های دستکاری شده (از طریق "ناشناس سازی" کلاسیک)پایین و متوسطمتوسط ​​رو به بالا
اندیشه

داده های مصنوعی توسط Syntho شکاف هایی را که در آن تکنیک های کلاسیک ناشناس ماندن با حداکثر کردن هر دو کوتاه می آید ، پر می کند ابزار داده و حفظ حریم خصوصی.

علاقه مند؟

ارزش افزوده داده های مصنوعی را با ما کاوش کنید