অনুমান করতো কে? 5 উদাহরণ কেন নাম মুছে ফেলা একটি বিকল্প নয়

কে খেলা অনুমান

অনুমান কে কে একটি ভূমিকা

বলতো কে? যদিও আমি নিশ্চিত যে আপনারা অনেকেই এই গেমটি আগের দিন থেকে জানেন, এখানে একটি সংক্ষিপ্ত বিবরণ। খেলার লক্ষ্য: 'হ্যাঁ' এবং 'না' প্রশ্ন করে আপনার প্রতিপক্ষের নির্বাচিত কার্টুন চরিত্রের নাম আবিষ্কার করুন, যেমন 'ব্যক্তি টুপি পরে?' অথবা 'ব্যক্তি কি চশমা পরে'? খেলোয়াড়রা প্রতিপক্ষের প্রতিক্রিয়ার উপর ভিত্তি করে প্রার্থীদের নির্মূল করে এবং তাদের প্রতিপক্ষের রহস্য চরিত্রের সাথে সম্পর্কিত বৈশিষ্ট্যগুলি শিখে। প্রথম খেলোয়াড় যিনি অন্য খেলোয়াড়ের রহস্যের চরিত্র বের করেন গেমটি জিতে যায়।

তুমি বুঝতে পেরেছ. শুধুমাত্র সংশ্লিষ্ট বৈশিষ্ট্যে অ্যাক্সেস পেয়ে একজনকে ডেটাসেটের বাইরে চিহ্নিত করতে হবে। প্রকৃতপক্ষে, আমরা নিয়মিতভাবে অনুমান করি এই অনুশীলনটি কে অনুশীলনে প্রয়োগ করে, কিন্তু তারপর বাস্তব মানুষের গুণাবলী সম্বলিত সারি এবং কলামগুলির সাথে বিন্যাসিত ডেটাসেটে নিযুক্ত হয়। ডেটা নিয়ে কাজ করার সময় প্রধান পার্থক্য হল যে লোকেরা কেবলমাত্র কয়েকটি বৈশিষ্ট্যের অ্যাক্সেসের মাধ্যমে আসল ব্যক্তিদের অনায়াস করা যায় এমন স্বাচ্ছন্দ্যকে অবমূল্যায়ন করার প্রবণতা রাখে।

গেস হু গেমটি যেমন দেখায়, কেউ কেবলমাত্র কয়েকটি বৈশিষ্ট্যে অ্যাক্সেস পেয়ে ব্যক্তিদের সনাক্ত করতে পারে। এটি একটি সহজ উদাহরণ হিসাবে কাজ করে কেন আপনার ডেটাসেট থেকে কেবল 'নাম' (বা অন্যান্য সরাসরি শনাক্তকারী) সরানো একটি বেনামীকরণ কৌশল হিসাবে ব্যর্থ হয়। এই ব্লগে, আমরা চারটি ব্যবহারিক কেস প্রদান করি যাতে তথ্য গোপনীয়তার মাধ্যম হিসেবে কলামগুলি অপসারণের সাথে সম্পর্কিত গোপনীয়তা ঝুঁকি সম্পর্কে আপনাকে জানানো হয়।

2) লিংকেজ অ্যাটাক: আপনার ডেটাসেট অন্যান্য (পাবলিক) ডেটা সোর্সের সাথে সংযুক্ত

লিংকেজ আক্রমণের ঝুঁকি সবচেয়ে গুরুত্বপূর্ণ কারণ কেন শুধুমাত্র নাম মুছে ফেলা কাজ করে না (এখন আর) নাম গোপন করার পদ্ধতি হিসাবে। একটি লিঙ্কেজ আক্রমণের সাথে, আক্রমণকারী আসল ডেটাকে অন্যান্য অ্যাক্সেসযোগ্য ডেটা উত্সের সাথে একত্রিত করে যাতে একজন ব্যক্তিকে স্বতন্ত্রভাবে সনাক্ত করা যায় এবং এই ব্যক্তি সম্পর্কে (প্রায়শই সংবেদনশীল) তথ্য শিখতে পারে।

এখানে মূল হল অন্যান্য ডেটা রিসোর্সের প্রাপ্যতা যা বর্তমানে আছে, অথবা ভবিষ্যতে উপস্থিত হতে পারে। নিজের কথা ভাবুন। ফেসবুক, ইনস্টাগ্রাম বা লিংকডইন -এ আপনার নিজের ব্যক্তিগত ডেটা কতটুকু পাওয়া যাবে যা লিংকেজ আক্রমণের জন্য সম্ভাব্যভাবে অপব্যবহার করা যেতে পারে?

আগের দিনগুলিতে, তথ্যের প্রাপ্যতা অনেক বেশি সীমিত ছিল, যা আংশিকভাবে ব্যাখ্যা করে যে কেন ব্যক্তিদের গোপনীয়তা রক্ষার জন্য নামগুলি অপসারণ যথেষ্ট ছিল। কম উপলব্ধ ডেটা মানে ডেটা লিঙ্ক করার জন্য কম সুযোগ। যাইহোক, আমরা এখন একটি ডেটা চালিত অর্থনীতিতে (সক্রিয়) অংশগ্রহণকারী, যেখানে তথ্যের পরিমাণ একটি সূচকীয় হারে বাড়ছে। আরও তথ্য, এবং তথ্য সংগ্রহের জন্য প্রযুক্তির উন্নতি লিংকেজ আক্রমণের সম্ভাবনা বাড়িয়ে তুলবে। লিংকেজ আক্রমণের ঝুঁকি সম্পর্কে 10 বছরে কেউ কী লিখবে?

চিত্রের এক্সএনইউএমএক্স X

দ্রুত বর্ধনশীল তথ্য একটি সত্য

তথ্যের পরিমাণ

কেস স্টাডি

সুইনি (২০০২) একটি একাডেমিক গবেষণাপত্রে দেখিয়েছিলেন যে তিনি কীভাবে মার্কিন যুক্তরাষ্ট্রে সর্বজনীনভাবে উপলব্ধ ভোটিং রেজিস্ট্রারের সাথে 'হাসপাতাল ভিজিট' এর একটি জনসাধারণের উপলব্ধ ডেটা সেটকে সংযুক্ত করার ভিত্তিতে ব্যক্তিদের কাছ থেকে সংবেদনশীল মেডিকেল ডেটা সনাক্ত এবং পুনরুদ্ধার করতে সক্ষম হন। উভয় ডেটাসেট যেখানে নাম এবং অন্যান্য সরাসরি শনাক্তকারীদের মুছে ফেলার মাধ্যমে সঠিকভাবে বেনামী বলে মনে করা হয়।

চিত্রের এক্সএনইউএমএক্স X

অনুশীলনে যোগসূত্র আক্রমণ

লিংকেজ অ্যাটাক

শুধুমাত্র তিনটি প্যারামিটারের (1) জিপ কোড, (2) লিঙ্গ এবং (3) জন্ম তারিখের উপর ভিত্তি করে, তিনি দেখিয়েছেন যে উভয় ডেটাসেট থেকে উল্লিখিত গুণাবলীর সাথে মিল রেখে পুরো মার্কিন জনসংখ্যার 87% পুনরায় চিহ্নিত করা যেতে পারে। সুইনি তখন 'জিপ কোড' এর বিকল্প হিসেবে 'দেশ' নিয়ে তার কাজ পুনরাবৃত্তি করলেন। উপরন্তু, তিনি দেখিয়েছিলেন যে সমগ্র মার্কিন জনসংখ্যার 18% শুধুমাত্র (1) স্বদেশ, (2) লিঙ্গ এবং (3) জন্ম তারিখ সম্পর্কিত তথ্য সম্বলিত একটি ডেটাসেটে প্রবেশের মাধ্যমে চিহ্নিত করা যেতে পারে। ফেসবুক, লিঙ্কডইন বা ইনস্টাগ্রামের মতো পূর্বোক্ত পাবলিক সোর্স সম্পর্কে চিন্তা করুন। আপনার দেশ, লিঙ্গ এবং জন্ম তারিখ কি দৃশ্যমান, নাকি অন্য ব্যবহারকারীরা এটি কাটাতে সক্ষম?

চিত্রের এক্সএনইউএমএক্স X

সুইনির ফলাফল

আধা-শনাক্তকারী

ইউএস জনসংখ্যার % অনন্যভাবে চিহ্নিত (248 মিলিয়ন)

5-অঙ্কের জিপ, লিঙ্গ, জন্ম তারিখ

87%

জায়গা, লিঙ্গ, জন্ম তারিখ

53%

দেশ, লিঙ্গ, জন্ম তারিখ

18%

এই উদাহরণটি দেখায় যে আপাতদৃষ্টিতে বেনামী তথ্যে ব্যক্তিদের নাম-পরিচয় গোপন করা অসাধারণভাবে সহজ হতে পারে। প্রথমত, এই অধ্যয়নটি বিপুল পরিমাণের ঝুঁকি নির্দেশ করে, যেমন মার্কিন জনসংখ্যার 87% ব্যবহার করে সহজেই চিহ্নিত করা যায় কয়েকটি বৈশিষ্ট্য। দ্বিতীয়ত, এই গবেষণায় প্রকাশিত মেডিকেল ডেটা অত্যন্ত সংবেদনশীল ছিল। হাসপাতাল পরিদর্শন ডেটাসেট থেকে প্রকাশিত ব্যক্তির তথ্যের উদাহরণগুলির মধ্যে রয়েছে জাতিগততা, রোগ নির্ণয় এবং ওষুধ। যে বৈশিষ্ট্যগুলি কেউ গোপন রাখতে পারে, উদাহরণস্বরূপ, বীমা কোম্পানি থেকে।

3) অবগত ব্যক্তি

শুধুমাত্র প্রত্যক্ষ শনাক্তকারী, যেমন নাম, অপসারণের আরেকটি ঝুঁকি দেখা দেয় যখন তথ্যপ্রাপ্ত ব্যক্তিদের ডেটাসেটে নির্দিষ্ট ব্যক্তির বৈশিষ্ট্য বা আচরণ সম্পর্কে উচ্চতর জ্ঞান বা তথ্য থাকে। তাদের জ্ঞানের উপর ভিত্তি করে, আক্রমণকারী তখন নির্দিষ্ট ডেটা রেকর্ডগুলিকে প্রকৃত মানুষের সাথে সংযুক্ত করতে সক্ষম হতে পারে।

কেস স্টাডি

উচ্চতর জ্ঞান ব্যবহার করে একটি ডেটাসেটে আক্রমণের একটি উদাহরণ হল নিউইয়র্ক ট্যাক্সি মামলা, যেখানে অটকার (2014) নির্দিষ্ট ব্যক্তিদের মুখোশ খুলে দিতে সক্ষম হয়েছিল। নিযুক্ত ডেটাসেটে নিউ ইয়র্কের সমস্ত ট্যাক্সি যাত্রা ছিল, যা প্রাথমিক গুণাবলী সমৃদ্ধ ছিল যেমন শুরু স্থানাঙ্ক, শেষ স্থানাঙ্ক, দাম এবং যাত্রার টিপ।

একজন সচেতন ব্যক্তি যিনি জানেন যে নিউইয়র্ক প্রাপ্তবয়স্ক ক্লাব 'হস্টলার' -এ ট্যাক্সি ভ্রমণ করতে সক্ষম হয়েছিল। 'এন্ড লোকেশন' ফিল্টার করে, তিনি সঠিক সূচনার ঠিকানাগুলি কাটেন এবং এর মাধ্যমে বিভিন্ন ঘন ঘন দর্শনার্থীদের চিহ্নিত করেন। একইভাবে, একজনের বাসার ঠিকানা জানা গেলে কেউ ট্যাক্সি চড়তে পারে। বেশ কয়েকজন সেলিব্রিটি চলচ্চিত্র তারকার সময় এবং অবস্থান গসিপ সাইটে আবিষ্কৃত হয়েছিল। এই তথ্যকে NYC ট্যাক্সি তথ্যের সাথে সংযুক্ত করার পরে, তাদের ট্যাক্সি যাত্রা, তারা প্রদত্ত পরিমাণ এবং তারা টিপ দিয়েছে কিনা তা পাওয়া সহজ ছিল।

চিত্রের এক্সএনইউএমএক্স X

একজন সচেতন ব্যক্তি

ড্রপ-অফ কোঅর্ডিনেটস হস্টলার

ব্র্যাডলি কুপার

ট্যাক্সি এবং মানচিত্র

জেসিকা Alba

মানচিত্র ট্র্যাকিং

4) ফিঙ্গারপ্রিন্ট হিসাবে ডেটা

যুক্তির একটি সাধারণ লাইন হল 'এই ডেটা মূল্যহীন' বা 'এই ডেটা দিয়ে কেউ কিছু করতে পারে না'। এটি প্রায়শই একটি ভুল ধারণা। এমনকি সবচেয়ে নিরীহ ডেটাও একটি অনন্য 'ফিঙ্গারপ্রিন্ট' তৈরি করতে পারে এবং ব্যক্তিদের পুনরায় চিহ্নিত করতে ব্যবহার করা যেতে পারে। এটি এমন ঝুঁকি যা বিশ্বাস করে যে ডেটা নিজেই মূল্যহীন, যদিও তা নয়।

ডেটা, এআই, এবং অন্যান্য সরঞ্জাম এবং অ্যালগরিদম বৃদ্ধির সাথে শনাক্তকরণের ঝুঁকি বৃদ্ধি পাবে যা ডেটাতে জটিল সম্পর্কের উন্মোচন সক্ষম করে। ফলস্বরূপ, এমনকি যদি আপনার ডেটাসেটটি এখনই উন্মোচন করা না যায়, এবং সম্ভবত আজ অননুমোদিত ব্যক্তিদের জন্য এটি অকেজো, এটি কাল নাও হতে পারে।

কেস স্টাডি

একটি দুর্দান্ত উদাহরণ হল সেই ক্ষেত্রে যেখানে Netflix তাদের R&D বিভাগকে তাদের মুভি সুপারিশ পদ্ধতি উন্নত করার জন্য একটি খোলা Netflix প্রতিযোগিতার প্রবর্তনের মাধ্যমে ক্রাউডসোর্স করার ইচ্ছা করেছিল। 'যে ফিল্মের জন্য ব্যবহারকারীর রেটিং ভবিষ্যদ্বাণী করার জন্য সহযোগী ফিল্টারিং অ্যালগরিদম উন্নত করে সে $ 1,000,000 মার্কিন ডলার পুরস্কার জিতেছে'। ভিড়কে সমর্থন করার জন্য, নেটফ্লিক্স একটি ডেটাসেট প্রকাশ করেছে যার মধ্যে কেবল নিম্নলিখিত মৌলিক গুণাবলী রয়েছে: ইউজার আইডি, মুভি, গ্রেড এবং গ্রেডের তারিখ (তাই ব্যবহারকারী বা ফিল্ম সম্পর্কে আর কোনও তথ্য নেই)।

চিত্রের এক্সএনইউএমএক্স X

ডেটাসেট গঠন Netflix মূল্য

আইডি সিনেমা গ্রেডের তারিখ শ্রেণী
123456789 অসম্ভব মিশন 10-12-2008 4

বিচ্ছিন্নভাবে, ডেটা নিরর্থক প্রদর্শিত হয়েছিল। প্রশ্নটি জিজ্ঞাসা করার সময় 'ডেটাসেটে কোন গ্রাহকের তথ্য আছে যা ব্যক্তিগত রাখা উচিত?', উত্তরটি ছিল:

 'না, সমস্ত গ্রাহক শনাক্তকারী তথ্য সরানো হয়েছে; বাকি সব রেটিং এবং তারিখ। এটি আমাদের গোপনীয়তা নীতি অনুসরণ করে ... '

যাইহোক, অস্টিনের টেক্সাস বিশ্ববিদ্যালয় থেকে নারায়ণন (2008) অন্যভাবে প্রমাণিত। গ্রেড, গ্রেডের তারিখ এবং একজন ব্যক্তির চলচ্চিত্রের সংমিশ্রণ একটি অনন্য মুভি-ফিঙ্গারপ্রিন্ট গঠন করে। আপনার নিজের Netflix আচরণ সম্পর্কে চিন্তা করুন। আপনি কি মনে করেন একই সংখ্যক সিনেমা দেখেছেন? একই সময়ে কতজন একই সিনেমার সেট দেখেছেন?

প্রধান প্রশ্ন, কিভাবে এই আঙুলের ছাপের সাথে মিলবে? এটা বরং সহজ ছিল। সুপরিচিত মুভি-রেটিং ওয়েবসাইট IMDb (ইন্টারনেট মুভি ডেটাবেস) এর তথ্যের উপর ভিত্তি করে, অনুরূপ আঙ্গুলের ছাপ তৈরি হতে পারে। ফলস্বরূপ, ব্যক্তিদের পুনরায় চিহ্নিত করা যেতে পারে।

যদিও সিনেমা দেখার আচরণকে স্পর্শকাতর তথ্য হিসেবে বিবেচনা করা নাও হতে পারে, আপনার নিজের আচরণ সম্পর্কে চিন্তা করুন-যদি এটি সর্বজনীন হয় তাহলে আপনার কি আপত্তি থাকবে? নারায়ণন তার গবেষণাপত্রে যেসব উদাহরণ দিয়েছেন তা হল রাজনৈতিক পছন্দ ('যীশু অফ নাসারথ' এবং 'দ্য গসপেল অফ জন' এর রেটিং) এবং যৌন পছন্দ ('বেন্ট' এবং 'কুইয়ার এজ ফোক' এর রেটিং) যা সহজেই পাতন করা যায়।

5) সাধারণ ডেটা সুরক্ষা নিয়ন্ত্রণ (জিডিপিআর)

জিডিপিআর হয়ত অতি উত্তেজনাপূর্ণ নাও হতে পারে, না ব্লগ বিষয়গুলির মধ্যে রূপালী বুলেট। তবুও, ব্যক্তিগত ডেটা প্রক্রিয়া করার সময় সংজ্ঞাগুলি সরাসরি পেতে সহায়ক। যেহেতু এই ব্লগটি ডেটা বেনামী করার একটি উপায় হিসাবে এবং আপনাকে ডেটা প্রসেসর হিসাবে শিক্ষিত করার উপায় হিসাবে কলামগুলি সরানোর সাধারণ ভুল ধারণা সম্পর্কে, তাই জিডিপিআর অনুসারে নামহীনতার সংজ্ঞা অন্বেষণ করা শুরু করা যাক। 

জিডিপিআর থেকে 26 তম আবৃত্তি অনুসারে, বেনামী তথ্যগুলি সংজ্ঞায়িত করা হয়েছে:

'এমন তথ্য যা কোনো চিহ্নিত বা শনাক্তযোগ্য প্রাকৃতিক ব্যক্তি বা ব্যক্তিগত ডেটার সাথে সম্পর্কিত নয় এমনভাবে বেনামে রেন্ডার করা হয়েছে যাতে ডেটা বিষয় নয় বা আর সনাক্তযোগ্য নয়।'

যেহেতু একজন ব্যক্তিগত ব্যক্তির সাথে সম্পর্কিত ব্যক্তিগত তথ্য প্রক্রিয়া করে, তাই সংজ্ঞাটির কেবলমাত্র অংশ 2 প্রাসঙ্গিক। সংজ্ঞা মেনে চলার জন্য, একজনকে নিশ্চিত করতে হবে যে ডেটা বিষয় (পৃথক) নয় বা আর সনাক্তযোগ্য নয়। এই ব্লগে যেমন উল্লেখ করা হয়েছে, তবে কিছু বৈশিষ্ট্যের উপর ভিত্তি করে ব্যক্তিদের চিহ্নিত করা অসাধারণভাবে সহজ। সুতরাং, একটি ডেটাসেট থেকে নাম মুছে ফেলা নামহীনতার জিডিপিআর সংজ্ঞা মেনে চলে না।

উপসংহার ইন

আমরা একটি সাধারণভাবে বিবেচিত এবং, দুর্ভাগ্যবশত, ডেটা বেনামীকরণের পদ্ধতিগুলি প্রায়শই প্রয়োগ করা হয়: নাম মুছে ফেলা। অনুমান হু গেম এবং চারটি অন্যান্য উদাহরণ সম্পর্কে:

  • সংযোগ আক্রমণ
  • জ্ঞাত ব্যক্তি
  • আঙুলের ছাপ হিসাবে ডেটা
  • সাধারণ ডাটা প্রোটেকশন রেগুলেশন (জিডিপিআর)

এটি দেখানো হয়েছিল যে নাম অপসারণ বেনামীকরণ হিসাবে ব্যর্থ হয়। যদিও উদাহরণগুলি আকর্ষণীয় ক্ষেত্রে, প্রতিটি পুন re-সনাক্তকরণের সরলতা দেখায় এবং ব্যক্তির গোপনীয়তার উপর সম্ভাব্য নেতিবাচক প্রভাব।

উপসংহারে, আপনার ডেটাসেট থেকে নাম মুছে ফেলার ফলে বেনামী ডেটা হয় না। অতএব, আমরা উভয় পদকে বিনিময়যোগ্যভাবে ব্যবহার করা এড়িয়ে চলি। আমি আন্তরিকভাবে আশা করি আপনি নাম প্রকাশের জন্য এই পদ্ধতিটি প্রয়োগ করবেন না। এবং, যদি আপনি এখনও করেন, নিশ্চিত করুন যে আপনি এবং আপনার দল গোপনীয়তার ঝুঁকিগুলি সম্পূর্ণরূপে বুঝতে পেরেছেন, এবং ক্ষতিগ্রস্ত ব্যক্তিদের পক্ষে সেই ঝুঁকিগুলি গ্রহণ করার অনুমতি দেওয়া হয়েছে।

মানুষের দল হাসছে

তথ্য সিন্থেটিক, কিন্তু আমাদের দল বাস্তব!

সিন্থোর সাথে যোগাযোগ করুন এবং আমাদের একজন বিশেষজ্ঞ আলোর গতিতে আপনার সাথে যোগাযোগ করবেন সিন্থেটিক ডেটার মান অন্বেষণ করতে!

  • ডি।রেইনসেল, জে।গ্যান্টজ, জন রাইডিং। বিশ্বের ডিজিটালাইজেশন থেকে এজ থেকে কোর, ডেটা এজ 2025, 2018
  • এল সুইনি k-anonymity: গোপনীয়তা রক্ষার জন্য একটি মডেল। অনিশ্চয়তা, অস্পষ্টতা এবং জ্ঞান-ভিত্তিক সিস্টেমের উপর আন্তর্জাতিক জার্নাল, 10 (5), 2002: 557-570
  • এল সুইনি সাধারণ ডেমোগ্রাফিক্স প্রায়ই মানুষকে অনন্যভাবে চিহ্নিত করে। কার্নেগি মেলন ইউনিভার্সিটি, ডেটা প্রাইভেসি ওয়ার্কিং পেপার 3. পিটসবার্গ 2000
  • পি সমরতি। মাইক্রোডাটা রিলিজে উত্তরদাতাদের পরিচয় রক্ষা করা। IEEE লেনদেন জ্ঞান এবং তথ্য প্রকৌশল, 13 (6), 2001: 1010-1027
  • আটোকর। তারকাদের সাথে রাইডিং: NYC ট্যাক্সিক্যাব ডেটাসেটে যাত্রীদের গোপনীয়তা, 2014
  • নারায়ণন, এ।, এবং শ্মটিকভ, ভি। (২০০))। বড় বড় ডেটাসেটের শক্তিশালী ডি-অ্যানোনিমাইজেশন। কার্যক্রমে-2008 IEEE সিম্পোজিয়াম অন সিকিউরিটি অ্যান্ড প্রাইভেসি, SP (pp। 2008-111)
  • জেনারেল ডেটা প্রোটেকশন রেগুলেশন (জিডিপিআর), রিকিটাল 26, বেনামী ডেটার ক্ষেত্রে প্রযোজ্য নয়