বেনামী ডেটা বনাম সিন্থেটিক ডেটা

ডেটা অ্যানালিটিক্সের ডেটা টেস্টিং করার আগে আপনি যদি আপনার ডেটা বেনামী করে থাকেন, তাহলে বেশ কিছু কারণ রয়েছে:

  1. প্রায় সব ক্ষেত্রেই, নির্দিষ্ট এবং অনন্য সারিগুলির (যেমন মেডিকেল রেকর্ড) কারণে বেনামী ডেটা এখনও ব্যক্তিদের কাছে খুঁজে পাওয়া যায়।
  2. আপনি যত বেশি বেনামী বা সাধারণীকরণ করবেন, তত বেশি ডেটা ধ্বংস করবেন। এটি আপনার ডেটার গুণমান এবং এইভাবে আপনার অন্তর্দৃষ্টিকে হ্রাস করে
  3. বেনামীকরণ বিভিন্ন ডেটা ফর্ম্যাটের জন্য আলাদাভাবে কাজ করে। এর মানে এটি মাপযোগ্য নয় এবং খুব সময়সাপেক্ষ হতে পারে

সিন্থেটিক ডেটা এই সমস্ত ত্রুটিগুলি এবং আরও অনেক কিছু সমাধান করে। SAS (বিশ্লেষণে গ্লোবাল মার্কেট লিডার) এর একজন বিশ্লেষণ বিশেষজ্ঞ দেখতে নীচের ভিডিওটি দেখুন মূল ডেটা, বেনামী ডেটা এবং সিন্থো দ্বারা তৈরিকৃত সিন্থেটিক ডেটার মধ্যে গুণমানের পার্থক্য সম্পর্কে তাঁর মূল্যায়ন সম্পর্কে ব্যাখ্যা করুন৷

এই ভিডিওটি AI জেনারেটেড সিন্থেটিক ডেটা সম্পর্কে Syntho x SAS D[N]A Café থেকে ধারণ করা হয়েছে। এখানে সম্পূর্ণ ভিডিও খুঁজুন.

এডউইন ভ্যান উনেন সিন্থোতে একটি আসল ডেটাসেট পাঠিয়েছেন এবং আমরা ডেটাসেটটি সংশ্লেষিত করেছি। কিন্তু প্রশ্নটিও ছিল: "আমরা যদি সিন্থেটিক ডেটাকে বেনামী ডেটার সাথে তুলনা করি তাহলে কী হবে?" যেহেতু আপনি একটি বেনামী ডেটাতে অনেক তথ্য হারাবেন, একটি ডেটাসেট সংশ্লেষণ করার সময়ও কি এটি ঘটবে? আমরা 56.000 সারি এবং কোম্পানির মন্থন-তথ্যের 128টি কলাম সহ টেলিযোগাযোগ শিল্প থেকে একটি ডেটাসেট দিয়ে শুরু করেছি। এই ডেটাসেটটি সংশ্লেষিত এবং বেনামী উভয়ই ছিল তাই এডউইন সিনথেটাইজেশনকে বেনামীকরণের সাথে তুলনা করতে পারে। তারপর, এডউইন SAS Viya ব্যবহার করে মডেলিং শুরু করেন। তিনি ধ্রুপদী রিগ্রেশন কৌশল এবং সিদ্ধান্ত গাছ ব্যবহার করে মূল ডেটাসেটে কয়েকটি মন্থন মডেল তৈরি করেছেন, তবে আরও অত্যাধুনিক কৌশল যেমন নিউরাল নেটওয়ার্ক, গ্রেডিয়েন্ট বুস্টিং, র্যান্ডম ফরেস্ট - এই ধরণের কৌশলগুলি। মডেল তৈরি করার সময় স্ট্যান্ডার্ড SAS Viya বিকল্পগুলি ব্যবহার করা।

তারপর, এটি ফলাফল দেখার সময় ছিল. ফলাফলগুলি সিন্থেটিক ডেটার জন্য খুব আশাব্যঞ্জক ছিল এবং বেনামীর জন্য নয়। শ্রোতাদের মধ্যে নন-মেশিন-লার্নিং বিশেষজ্ঞদের জন্য, আমরা ROC- বক্ররেখার নীচের এলাকাটি দেখি যা মডেলটির নির্ভুলতা সম্পর্কে কিছু বলে। বেনামী ডেটার সাথে মূল ডেটার তুলনা করে, আমরা দেখতে পাই যে আসল ডেটা মডেলের .8 এর ROC- বক্ররেখার অধীনে একটি এলাকা রয়েছে, যা বেশ ভাল, যাইহোক, বেনামী ডেটার .6 এর ROC- বক্ররেখার অধীনে একটি এলাকা রয়েছে৷ এর মানে আমরা বেনামী মডেলের সাথে অনেক তথ্য হারিয়ে ফেলি তাই আপনি অনেক ভবিষ্যদ্বাণী করার ক্ষমতা হারাবেন।

কিন্তু তারপর, প্রশ্ন সিন্থেটিক্স তথ্য সম্পর্কে কি? এখানে, আমরা ঠিক একই কাজ করেছি কিন্তু ডেটা বেনামী করার পরিবর্তে, সিন্থো ডেটা সংশ্লেষিত করেছে। এখন, আমরা দেখতে পাচ্ছি মূল ডেটা এবং সিন্থেটিক ডেটা উভয়েরই .8 এর ROC- বক্ররেখার অধীনে একটি এলাকা রয়েছে, যা খুব একই রকম। পরিবর্তনশীলতার কারণে ঠিক একই নয়, তবে খুব অনুরূপ। এর মানে, সিন্থেটিক ডেটার সম্ভাবনা খুবই আশাব্যঞ্জক – এডউইন এই বিষয়ে খুবই খুশি।

মানুষের দল হাসছে

তথ্য সিন্থেটিক, কিন্তু আমাদের দল বাস্তব!

সিন্থোর সাথে যোগাযোগ করুন এবং আমাদের একজন বিশেষজ্ঞ আলোর গতিতে আপনার সাথে যোগাযোগ করবেন সিন্থেটিক ডেটার মান অন্বেষণ করতে!