گمنام ڈیٹا بمقابلہ مصنوعی ڈیٹا

اگر آپ ڈیٹا اینالیٹکس کی ڈیٹا ٹیسٹنگ کرنے سے پہلے اپنے ڈیٹا کو گمنام کرتے ہیں، تو اس میں کئی عوامل ہیں:

  1. تقریباً تمام صورتوں میں، مخصوص اور منفرد قطاروں (مثلاً طبی ریکارڈ) کی وجہ سے گمنام ڈیٹا اب بھی افراد کو واپس ٹریس کیا جا سکتا ہے۔
  2. آپ جتنا زیادہ گمنام یا عام کریں گے، اتنا ہی زیادہ ڈیٹا آپ تباہ کریں گے۔ یہ آپ کے ڈیٹا کا معیار اور اس طرح آپ کی بصیرت کو کم کرتا ہے۔
  3. مختلف ڈیٹا فارمیٹس کے لیے گمنامی مختلف طریقے سے کام کرتی ہے۔ اس کا مطلب ہے کہ یہ توسیع پذیر نہیں ہے اور بہت وقت طلب ہو سکتا ہے۔

مصنوعی ڈیٹا ان تمام کوتاہیوں اور بہت کچھ کو حل کرتا ہے۔ SAS (تجزیہ میں عالمی مارکیٹ لیڈر) کے تجزیاتی ماہر کو اصل ڈیٹا، گمنام ڈیٹا اور Syntho کے ذریعے تیار کردہ مصنوعی ڈیٹا کے درمیان معیار میں فرق کے بارے میں اپنے جائزے کی وضاحت کرنے کے لیے نیچے دی گئی ویڈیو دیکھیں۔

یہ ویڈیو AI جنریٹڈ مصنوعی ڈیٹا کے بارے میں Syntho x SAS D[N]A Café سے لی گئی ہے۔ مکمل ویڈیو یہاں تلاش کریں۔

ایڈون وین یون نے سنتھو کو ایک اصل ڈیٹاسیٹ بھیجا اور ہم نے ڈیٹاسیٹ کی ترکیب کی۔ لیکن سوال یہ بھی تھا: "اگر ہم مصنوعی ڈیٹا کا گمنام ڈیٹا سے موازنہ کریں تو کیا ہوگا؟" چونکہ آپ گمنام ڈیٹا میں بہت ساری معلومات کھو دیتے ہیں، کیا یہ ڈیٹا سیٹ کی ترکیب کرتے وقت بھی ہوگا؟ ہم نے ٹیلی کمیونیکیشن انڈسٹری کے ڈیٹاسیٹ کے ساتھ 56.000 قطاروں اور کمپنی کی معلومات کے 128 کالموں کے ساتھ شروعات کی۔ یہ ڈیٹا سیٹ ترکیب شدہ اور گمنام دونوں تھا تاکہ ایڈون ترکیب کا موازنہ گمنامی سے کر سکے۔ پھر، ایڈون نے ایس اے ایس ویا کا استعمال کرتے ہوئے ماڈلنگ شروع کی۔ اس نے اصل ڈیٹاسیٹ پر چند چرن ماڈل بنائے، کلاسیکی رجعت کی تکنیکوں اور فیصلے کے درختوں کا استعمال کرتے ہوئے، بلکہ مزید جدید ترین تکنیکیں جیسے کہ نیورل نیٹ ورکس، گریڈینٹ بوسٹنگ، رینڈم فاریسٹ – اس قسم کی تکنیکیں۔ ماڈلز بناتے وقت معیاری SAS Viya اختیارات کا استعمال۔

پھر، نتائج کو دیکھنے کا وقت تھا. نتائج مصنوعی ڈیٹا کے لیے بہت امید افزا تھے نہ کہ گمنامی کے لیے۔ سامعین میں بغیر مشین سیکھنے والے ماہرین کے لیے، ہم ROC- curve کے نیچے والے علاقے کو دیکھتے ہیں جو ماڈل کی درستگی کے بارے میں کچھ بتاتا ہے۔ اصل ڈیٹا کا گمنام ڈیٹا سے موازنہ کرتے ہوئے، ہم دیکھتے ہیں کہ اصل ڈیٹا ماڈل کا رقبہ .8 کے ROC- وکر کے نیچے ہے، جو کہ بہت اچھا ہے، تاہم، گمنام ڈیٹا کا رقبہ ROC- منحنی .6 کے نیچے ہے۔ اس کا مطلب ہے کہ ہم گمنام ماڈل کے ساتھ بہت ساری معلومات کھو دیتے ہیں لہذا آپ بہت زیادہ پیش گوئی کرنے کی طاقت کھو دیتے ہیں۔

لیکن پھر، سوال یہ ہے کہ مصنوعی ڈیٹا کے بارے میں کیا خیال ہے؟ یہاں، ہم نے بالکل ایسا ہی کیا لیکن ڈیٹا کو گمنام کرنے کے بجائے، Syntho نے ڈیٹا کی ترکیب کی۔ اب، ہم دیکھتے ہیں کہ اصل ڈیٹا اور مصنوعی ڈیٹا دونوں کا رقبہ .8 کے ROC- curve کے نیچے ہے، جو بہت مماثل ہے۔ متغیر ہونے کی وجہ سے بالکل یکساں نہیں بلکہ بہت مماثل ہے۔ اس کا مطلب ہے، مصنوعی ڈیٹا کی صلاحیت بہت امید افزا ہے – ایڈون اس سے بہت خوش ہے۔

مسکراتے ہوئے لوگوں کا گروپ

ڈیٹا مصنوعی ہے، لیکن ہماری ٹیم حقیقی ہے!

سنتو سے رابطہ کریں۔ اور ہمارے ماہرین میں سے ایک مصنوعی ڈیٹا کی قدر کو دریافت کرنے کے لیے روشنی کی رفتار سے آپ سے رابطہ کرے گا!