বলতো কে? যদিও আমি নিশ্চিত যে আপনারা অনেকেই এই গেমটি আগের দিন থেকে জানেন, এখানে একটি সংক্ষিপ্ত বিবরণ। খেলার লক্ষ্য: 'হ্যাঁ' এবং 'না' প্রশ্ন করে আপনার প্রতিপক্ষের নির্বাচিত কার্টুন চরিত্রের নাম আবিষ্কার করুন, যেমন 'ব্যক্তি টুপি পরে?' অথবা 'ব্যক্তি কি চশমা পরে'? খেলোয়াড়রা প্রতিপক্ষের প্রতিক্রিয়ার উপর ভিত্তি করে প্রার্থীদের নির্মূল করে এবং তাদের প্রতিপক্ষের রহস্য চরিত্রের সাথে সম্পর্কিত বৈশিষ্ট্যগুলি শিখে। প্রথম খেলোয়াড় যিনি অন্য খেলোয়াড়ের রহস্যের চরিত্র বের করেন গেমটি জিতে যায়।
তুমি বুঝতে পেরেছ. শুধুমাত্র সংশ্লিষ্ট বৈশিষ্ট্যে অ্যাক্সেস পেয়ে একজনকে ডেটাসেটের বাইরে চিহ্নিত করতে হবে। প্রকৃতপক্ষে, আমরা নিয়মিতভাবে অনুমান করি এই অনুশীলনটি কে অনুশীলনে প্রয়োগ করে, কিন্তু তারপর বাস্তব মানুষের গুণাবলী সম্বলিত সারি এবং কলামগুলির সাথে বিন্যাসিত ডেটাসেটে নিযুক্ত হয়। ডেটা নিয়ে কাজ করার সময় প্রধান পার্থক্য হল যে লোকেরা কেবলমাত্র কয়েকটি বৈশিষ্ট্যের অ্যাক্সেসের মাধ্যমে আসল ব্যক্তিদের অনায়াস করা যায় এমন স্বাচ্ছন্দ্যকে অবমূল্যায়ন করার প্রবণতা রাখে।
গেস হু গেমটি যেমন দেখায়, কেউ কেবলমাত্র কয়েকটি বৈশিষ্ট্যে অ্যাক্সেস পেয়ে ব্যক্তিদের সনাক্ত করতে পারে। এটি একটি সহজ উদাহরণ হিসাবে কাজ করে কেন আপনার ডেটাসেট থেকে কেবল 'নাম' (বা অন্যান্য সরাসরি শনাক্তকারী) সরানো একটি বেনামীকরণ কৌশল হিসাবে ব্যর্থ হয়। এই ব্লগে, আমরা চারটি ব্যবহারিক কেস প্রদান করি যাতে তথ্য গোপনীয়তার মাধ্যম হিসেবে কলামগুলি অপসারণের সাথে সম্পর্কিত গোপনীয়তা ঝুঁকি সম্পর্কে আপনাকে জানানো হয়।
লিংকেজ আক্রমণের ঝুঁকি সবচেয়ে গুরুত্বপূর্ণ কারণ কেন শুধুমাত্র নাম মুছে ফেলা কাজ করে না (এখন আর) নাম গোপন করার পদ্ধতি হিসাবে। একটি লিঙ্কেজ আক্রমণের সাথে, আক্রমণকারী আসল ডেটাকে অন্যান্য অ্যাক্সেসযোগ্য ডেটা উত্সের সাথে একত্রিত করে যাতে একজন ব্যক্তিকে স্বতন্ত্রভাবে সনাক্ত করা যায় এবং এই ব্যক্তি সম্পর্কে (প্রায়শই সংবেদনশীল) তথ্য শিখতে পারে।
এখানে মূল হল অন্যান্য ডেটা রিসোর্সের প্রাপ্যতা যা বর্তমানে আছে, অথবা ভবিষ্যতে উপস্থিত হতে পারে। নিজের কথা ভাবুন। ফেসবুক, ইনস্টাগ্রাম বা লিংকডইন -এ আপনার নিজের ব্যক্তিগত ডেটা কতটুকু পাওয়া যাবে যা লিংকেজ আক্রমণের জন্য সম্ভাব্যভাবে অপব্যবহার করা যেতে পারে?
আগের দিনগুলিতে, তথ্যের প্রাপ্যতা অনেক বেশি সীমিত ছিল, যা আংশিকভাবে ব্যাখ্যা করে যে কেন ব্যক্তিদের গোপনীয়তা রক্ষার জন্য নামগুলি অপসারণ যথেষ্ট ছিল। কম উপলব্ধ ডেটা মানে ডেটা লিঙ্ক করার জন্য কম সুযোগ। যাইহোক, আমরা এখন একটি ডেটা চালিত অর্থনীতিতে (সক্রিয়) অংশগ্রহণকারী, যেখানে তথ্যের পরিমাণ একটি সূচকীয় হারে বাড়ছে। আরও তথ্য, এবং তথ্য সংগ্রহের জন্য প্রযুক্তির উন্নতি লিংকেজ আক্রমণের সম্ভাবনা বাড়িয়ে তুলবে। লিংকেজ আক্রমণের ঝুঁকি সম্পর্কে 10 বছরে কেউ কী লিখবে?
চিত্রের এক্সএনইউএমএক্স X
সুইনি (২০০২) একটি একাডেমিক গবেষণাপত্রে দেখিয়েছিলেন যে তিনি কীভাবে মার্কিন যুক্তরাষ্ট্রে সর্বজনীনভাবে উপলব্ধ ভোটিং রেজিস্ট্রারের সাথে 'হাসপাতাল ভিজিট' এর একটি জনসাধারণের উপলব্ধ ডেটা সেটকে সংযুক্ত করার ভিত্তিতে ব্যক্তিদের কাছ থেকে সংবেদনশীল মেডিকেল ডেটা সনাক্ত এবং পুনরুদ্ধার করতে সক্ষম হন। উভয় ডেটাসেট যেখানে নাম এবং অন্যান্য সরাসরি শনাক্তকারীদের মুছে ফেলার মাধ্যমে সঠিকভাবে বেনামী বলে মনে করা হয়।
চিত্রের এক্সএনইউএমএক্স X
শুধুমাত্র তিনটি প্যারামিটারের (1) জিপ কোড, (2) লিঙ্গ এবং (3) জন্ম তারিখের উপর ভিত্তি করে, তিনি দেখিয়েছেন যে উভয় ডেটাসেট থেকে উল্লিখিত গুণাবলীর সাথে মিল রেখে পুরো মার্কিন জনসংখ্যার 87% পুনরায় চিহ্নিত করা যেতে পারে। সুইনি তখন 'জিপ কোড' এর বিকল্প হিসেবে 'দেশ' নিয়ে তার কাজ পুনরাবৃত্তি করলেন। উপরন্তু, তিনি দেখিয়েছিলেন যে সমগ্র মার্কিন জনসংখ্যার 18% শুধুমাত্র (1) স্বদেশ, (2) লিঙ্গ এবং (3) জন্ম তারিখ সম্পর্কিত তথ্য সম্বলিত একটি ডেটাসেটে প্রবেশের মাধ্যমে চিহ্নিত করা যেতে পারে। ফেসবুক, লিঙ্কডইন বা ইনস্টাগ্রামের মতো পূর্বোক্ত পাবলিক সোর্স সম্পর্কে চিন্তা করুন। আপনার দেশ, লিঙ্গ এবং জন্ম তারিখ কি দৃশ্যমান, নাকি অন্য ব্যবহারকারীরা এটি কাটাতে সক্ষম?
চিত্রের এক্সএনইউএমএক্স X
আধা-শনাক্তকারী | ইউএস জনসংখ্যার % অনন্যভাবে চিহ্নিত (248 মিলিয়ন) |
5-অঙ্কের জিপ, লিঙ্গ, জন্ম তারিখ | 87% |
জায়গা, লিঙ্গ, জন্ম তারিখ | 53% |
দেশ, লিঙ্গ, জন্ম তারিখ | 18% |
এই উদাহরণটি দেখায় যে আপাতদৃষ্টিতে বেনামী তথ্যে ব্যক্তিদের নাম-পরিচয় গোপন করা অসাধারণভাবে সহজ হতে পারে। প্রথমত, এই অধ্যয়নটি বিপুল পরিমাণের ঝুঁকি নির্দেশ করে, যেমন মার্কিন জনসংখ্যার 87% ব্যবহার করে সহজেই চিহ্নিত করা যায় কয়েকটি বৈশিষ্ট্য। দ্বিতীয়ত, এই গবেষণায় প্রকাশিত মেডিকেল ডেটা অত্যন্ত সংবেদনশীল ছিল। হাসপাতাল পরিদর্শন ডেটাসেট থেকে প্রকাশিত ব্যক্তির তথ্যের উদাহরণগুলির মধ্যে রয়েছে জাতিগততা, রোগ নির্ণয় এবং ওষুধ। যে বৈশিষ্ট্যগুলি কেউ গোপন রাখতে পারে, উদাহরণস্বরূপ, বীমা কোম্পানি থেকে।
শুধুমাত্র প্রত্যক্ষ শনাক্তকারী, যেমন নাম, অপসারণের আরেকটি ঝুঁকি দেখা দেয় যখন তথ্যপ্রাপ্ত ব্যক্তিদের ডেটাসেটে নির্দিষ্ট ব্যক্তির বৈশিষ্ট্য বা আচরণ সম্পর্কে উচ্চতর জ্ঞান বা তথ্য থাকে। তাদের জ্ঞানের উপর ভিত্তি করে, আক্রমণকারী তখন নির্দিষ্ট ডেটা রেকর্ডগুলিকে প্রকৃত মানুষের সাথে সংযুক্ত করতে সক্ষম হতে পারে।
উচ্চতর জ্ঞান ব্যবহার করে একটি ডেটাসেটে আক্রমণের একটি উদাহরণ হল নিউইয়র্ক ট্যাক্সি মামলা, যেখানে অটকার (2014) নির্দিষ্ট ব্যক্তিদের মুখোশ খুলে দিতে সক্ষম হয়েছিল। নিযুক্ত ডেটাসেটে নিউ ইয়র্কের সমস্ত ট্যাক্সি যাত্রা ছিল, যা প্রাথমিক গুণাবলী সমৃদ্ধ ছিল যেমন শুরু স্থানাঙ্ক, শেষ স্থানাঙ্ক, দাম এবং যাত্রার টিপ।
একজন সচেতন ব্যক্তি যিনি জানেন যে নিউইয়র্ক প্রাপ্তবয়স্ক ক্লাব 'হস্টলার' -এ ট্যাক্সি ভ্রমণ করতে সক্ষম হয়েছিল। 'এন্ড লোকেশন' ফিল্টার করে, তিনি সঠিক সূচনার ঠিকানাগুলি কাটেন এবং এর মাধ্যমে বিভিন্ন ঘন ঘন দর্শনার্থীদের চিহ্নিত করেন। একইভাবে, একজনের বাসার ঠিকানা জানা গেলে কেউ ট্যাক্সি চড়তে পারে। বেশ কয়েকজন সেলিব্রিটি চলচ্চিত্র তারকার সময় এবং অবস্থান গসিপ সাইটে আবিষ্কৃত হয়েছিল। এই তথ্যকে NYC ট্যাক্সি তথ্যের সাথে সংযুক্ত করার পরে, তাদের ট্যাক্সি যাত্রা, তারা প্রদত্ত পরিমাণ এবং তারা টিপ দিয়েছে কিনা তা পাওয়া সহজ ছিল।
চিত্রের এক্সএনইউএমএক্স X
ড্রপ-অফ কোঅর্ডিনেটস হস্টলার
ব্র্যাডলি কুপার
জেসিকা Alba
যুক্তির একটি সাধারণ লাইন হল 'এই ডেটা মূল্যহীন' বা 'এই ডেটা দিয়ে কেউ কিছু করতে পারে না'। এটি প্রায়শই একটি ভুল ধারণা। এমনকি সবচেয়ে নিরীহ ডেটাও একটি অনন্য 'ফিঙ্গারপ্রিন্ট' তৈরি করতে পারে এবং ব্যক্তিদের পুনরায় চিহ্নিত করতে ব্যবহার করা যেতে পারে। এটি এমন ঝুঁকি যা বিশ্বাস করে যে ডেটা নিজেই মূল্যহীন, যদিও তা নয়।
ডেটা, এআই, এবং অন্যান্য সরঞ্জাম এবং অ্যালগরিদম বৃদ্ধির সাথে শনাক্তকরণের ঝুঁকি বৃদ্ধি পাবে যা ডেটাতে জটিল সম্পর্কের উন্মোচন সক্ষম করে। ফলস্বরূপ, এমনকি যদি আপনার ডেটাসেটটি এখনই উন্মোচন করা না যায়, এবং সম্ভবত আজ অননুমোদিত ব্যক্তিদের জন্য এটি অকেজো, এটি কাল নাও হতে পারে।
একটি দুর্দান্ত উদাহরণ হল সেই ক্ষেত্রে যেখানে Netflix তাদের R&D বিভাগকে তাদের মুভি সুপারিশ পদ্ধতি উন্নত করার জন্য একটি খোলা Netflix প্রতিযোগিতার প্রবর্তনের মাধ্যমে ক্রাউডসোর্স করার ইচ্ছা করেছিল। 'যে ফিল্মের জন্য ব্যবহারকারীর রেটিং ভবিষ্যদ্বাণী করার জন্য সহযোগী ফিল্টারিং অ্যালগরিদম উন্নত করে সে $ 1,000,000 মার্কিন ডলার পুরস্কার জিতেছে'। ভিড়কে সমর্থন করার জন্য, নেটফ্লিক্স একটি ডেটাসেট প্রকাশ করেছে যার মধ্যে কেবল নিম্নলিখিত মৌলিক গুণাবলী রয়েছে: ইউজার আইডি, মুভি, গ্রেড এবং গ্রেডের তারিখ (তাই ব্যবহারকারী বা ফিল্ম সম্পর্কে আর কোনও তথ্য নেই)।
চিত্রের এক্সএনইউএমএক্স X
আইডি | সিনেমা | গ্রেডের তারিখ | শ্রেণী |
123456789 | অসম্ভব মিশন | 10-12-2008 | 4 |
বিচ্ছিন্নভাবে, ডেটা নিরর্থক প্রদর্শিত হয়েছিল। প্রশ্নটি জিজ্ঞাসা করার সময় 'ডেটাসেটে কোন গ্রাহকের তথ্য আছে যা ব্যক্তিগত রাখা উচিত?', উত্তরটি ছিল:
'না, সমস্ত গ্রাহক শনাক্তকারী তথ্য সরানো হয়েছে; বাকি সব রেটিং এবং তারিখ। এটি আমাদের গোপনীয়তা নীতি অনুসরণ করে ... '
যাইহোক, অস্টিনের টেক্সাস বিশ্ববিদ্যালয় থেকে নারায়ণন (2008) অন্যভাবে প্রমাণিত। গ্রেড, গ্রেডের তারিখ এবং একজন ব্যক্তির চলচ্চিত্রের সংমিশ্রণ একটি অনন্য মুভি-ফিঙ্গারপ্রিন্ট গঠন করে। আপনার নিজের Netflix আচরণ সম্পর্কে চিন্তা করুন। আপনি কি মনে করেন একই সংখ্যক সিনেমা দেখেছেন? একই সময়ে কতজন একই সিনেমার সেট দেখেছেন?
প্রধান প্রশ্ন, কিভাবে এই আঙুলের ছাপের সাথে মিলবে? এটা বরং সহজ ছিল। সুপরিচিত মুভি-রেটিং ওয়েবসাইট IMDb (ইন্টারনেট মুভি ডেটাবেস) এর তথ্যের উপর ভিত্তি করে, অনুরূপ আঙ্গুলের ছাপ তৈরি হতে পারে। ফলস্বরূপ, ব্যক্তিদের পুনরায় চিহ্নিত করা যেতে পারে।
যদিও সিনেমা দেখার আচরণকে স্পর্শকাতর তথ্য হিসেবে বিবেচনা করা নাও হতে পারে, আপনার নিজের আচরণ সম্পর্কে চিন্তা করুন-যদি এটি সর্বজনীন হয় তাহলে আপনার কি আপত্তি থাকবে? নারায়ণন তার গবেষণাপত্রে যেসব উদাহরণ দিয়েছেন তা হল রাজনৈতিক পছন্দ ('যীশু অফ নাসারথ' এবং 'দ্য গসপেল অফ জন' এর রেটিং) এবং যৌন পছন্দ ('বেন্ট' এবং 'কুইয়ার এজ ফোক' এর রেটিং) যা সহজেই পাতন করা যায়।
জিডিপিআর হয়ত অতি উত্তেজনাপূর্ণ নাও হতে পারে, না ব্লগ বিষয়গুলির মধ্যে রূপালী বুলেট। তবুও, ব্যক্তিগত ডেটা প্রক্রিয়া করার সময় সংজ্ঞাগুলি সরাসরি পেতে সহায়ক। যেহেতু এই ব্লগটি ডেটা বেনামী করার একটি উপায় হিসাবে এবং আপনাকে ডেটা প্রসেসর হিসাবে শিক্ষিত করার উপায় হিসাবে কলামগুলি সরানোর সাধারণ ভুল ধারণা সম্পর্কে, তাই জিডিপিআর অনুসারে নামহীনতার সংজ্ঞা অন্বেষণ করা শুরু করা যাক।
জিডিপিআর থেকে 26 তম আবৃত্তি অনুসারে, বেনামী তথ্যগুলি সংজ্ঞায়িত করা হয়েছে:
'এমন তথ্য যা কোনো চিহ্নিত বা শনাক্তযোগ্য প্রাকৃতিক ব্যক্তি বা ব্যক্তিগত ডেটার সাথে সম্পর্কিত নয় এমনভাবে বেনামে রেন্ডার করা হয়েছে যাতে ডেটা বিষয় নয় বা আর সনাক্তযোগ্য নয়।'
যেহেতু একজন ব্যক্তিগত ব্যক্তির সাথে সম্পর্কিত ব্যক্তিগত তথ্য প্রক্রিয়া করে, তাই সংজ্ঞাটির কেবলমাত্র অংশ 2 প্রাসঙ্গিক। সংজ্ঞা মেনে চলার জন্য, একজনকে নিশ্চিত করতে হবে যে ডেটা বিষয় (পৃথক) নয় বা আর সনাক্তযোগ্য নয়। এই ব্লগে যেমন উল্লেখ করা হয়েছে, তবে কিছু বৈশিষ্ট্যের উপর ভিত্তি করে ব্যক্তিদের চিহ্নিত করা অসাধারণভাবে সহজ। সুতরাং, একটি ডেটাসেট থেকে নাম মুছে ফেলা নামহীনতার জিডিপিআর সংজ্ঞা মেনে চলে না।
আমরা একটি সাধারণভাবে বিবেচিত এবং, দুর্ভাগ্যবশত, ডেটা বেনামীকরণের পদ্ধতিগুলি প্রায়শই প্রয়োগ করা হয়: নাম মুছে ফেলা। অনুমান হু গেম এবং চারটি অন্যান্য উদাহরণ সম্পর্কে:
এটি দেখানো হয়েছিল যে নাম অপসারণ বেনামীকরণ হিসাবে ব্যর্থ হয়। যদিও উদাহরণগুলি আকর্ষণীয় ক্ষেত্রে, প্রতিটি পুন re-সনাক্তকরণের সরলতা দেখায় এবং ব্যক্তির গোপনীয়তার উপর সম্ভাব্য নেতিবাচক প্রভাব।
উপসংহারে, আপনার ডেটাসেট থেকে নাম মুছে ফেলার ফলে বেনামী ডেটা হয় না। অতএব, আমরা উভয় পদকে বিনিময়যোগ্যভাবে ব্যবহার করা এড়িয়ে চলি। আমি আন্তরিকভাবে আশা করি আপনি নাম প্রকাশের জন্য এই পদ্ধতিটি প্রয়োগ করবেন না। এবং, যদি আপনি এখনও করেন, নিশ্চিত করুন যে আপনি এবং আপনার দল গোপনীয়তার ঝুঁকিগুলি সম্পূর্ণরূপে বুঝতে পেরেছেন, এবং ক্ষতিগ্রস্ত ব্যক্তিদের পক্ষে সেই ঝুঁকিগুলি গ্রহণ করার অনুমতি দেওয়া হয়েছে।
সিন্থোর সাথে যোগাযোগ করুন এবং আমাদের একজন বিশেষজ্ঞ আলোর গতিতে আপনার সাথে যোগাযোগ করবেন সিন্থেটিক ডেটার মান অন্বেষণ করতে!