SAS کے ڈیٹا ماہرین کے ذریعہ ہمارے مصنوعی ڈیٹا کا بیرونی جائزہ

ہمارا مصنوعی ڈیٹا ہے۔ کا تعین کیا اور کی منظوری دے دی کے ڈیٹا ماہرین کی طرف سے SAS

SAS کے ڈیٹا ماہرین کے ذریعہ ہمارے مصنوعی ڈیٹا کی بیرونی تشخیص کا تعارف

ہم نے کیا کیا؟

Syntho کے ذریعہ تیار کردہ مصنوعی ڈیٹا کا SAS کے ڈیٹا ماہرین کے ذریعہ بیرونی اور معروضی نقطہ نظر سے جائزہ لیا جاتا ہے، اس کی تصدیق کی جاتی ہے اور اسے منظور کیا جاتا ہے۔

SAS کے ڈیٹا ماہرین کے ذریعے ہمارے مصنوعی ڈیٹا کا بیرونی طور پر جائزہ کیوں لیا جاتا ہے؟

اگرچہ Syntho کو اپنے صارفین کو ایک اعلی درجے کی کوالٹی ایشورنس رپورٹ پیش کرنے پر فخر ہے، لیکن ہم صنعت کے رہنماؤں سے اپنے مصنوعی ڈیٹا کی بیرونی اور معروضی جانچ کی اہمیت کو بھی سمجھتے ہیں۔ اسی لیے ہم اپنے مصنوعی ڈیٹا کا اندازہ لگانے کے لیے SAS، تجزیات میں رہنما، کے ساتھ تعاون کرتے ہیں۔

SAS اصل ڈیٹا کے مقابلے میں Syntho کے AI سے تیار کردہ مصنوعی ڈیٹا کے ڈیٹا کی درستگی، رازداری کے تحفظ، اور استعمال کے بارے میں مختلف مکمل جائزے کرتا ہے۔ نتیجہ کے طور پر، SAS نے Syntho کے مصنوعی ڈیٹا کو اصل ڈیٹا کے مقابلے میں درست، محفوظ اور قابل استعمال ہونے کے طور پر جانچا اور اس کی منظوری دی۔

اس تشخیص کے دوران SAS نے کیا کیا؟

ہم نے ٹیلی کام ڈیٹا کا استعمال کیا جو ٹارگٹ ڈیٹا کے بطور "منتھن" پیشین گوئی کے لیے استعمال ہوتا ہے۔ تشخیص کا مقصد مصنوعی اعداد و شمار کو استعمال کرنے کے لیے مختلف منتھنی پیشین گوئی کے ماڈلز کو تربیت دینا اور ہر ماڈل کی کارکردگی کا جائزہ لینا تھا۔ چونکہ منتھن کی پیشن گوئی ایک درجہ بندی کا کام ہے، SAS نے پیشین گوئیاں کرنے کے لیے مقبول درجہ بندی کے ماڈلز کا انتخاب کیا، بشمول:

  1. بے ترتیب جنگل
  2. گریڈینٹ کو بڑھانا
  3. لاجسٹک رجعت
  4. نیند نیٹ ورک

مصنوعی ڈیٹا تیار کرنے سے پہلے، SAS نے ٹیلی کام ڈیٹاسیٹ کو تصادفی طور پر ٹرین سیٹ (ماڈل کی تربیت کے لیے) اور ایک ہول آؤٹ سیٹ (ماڈلز کو اسکور کرنے کے لیے) میں تقسیم کیا۔ اسکورنگ کے لیے علیحدہ ہولڈ آؤٹ سیٹ ہونے سے یہ غیرجانبدارانہ اندازہ لگایا جا سکتا ہے کہ نئے ڈیٹا پر لاگو ہونے پر درجہ بندی کا ماڈل کتنا اچھا کام کر سکتا ہے۔

ٹرین سیٹ کو بطور ان پٹ استعمال کرتے ہوئے، Syntho نے اپنے Syntho Engine کو مصنوعی ڈیٹا سیٹ بنانے کے لیے استعمال کیا۔ بینچ مارکنگ کے لیے، SAS نے ایک مخصوص حد تک پہنچنے کے لیے گمنامی کی مختلف تکنیکوں کو استعمال کرنے کے بعد ٹرین سیٹ کا ایک گمنام ورژن بھی بنایا۔ سابقہ ​​اقدامات کے نتیجے میں چار ڈیٹاسیٹ بنے:

  1. ٹرین ڈیٹاسیٹ (یعنی اصل ڈیٹاسیٹ مائنس ہولڈ آؤٹ ڈیٹاسیٹ)
  2. ایک ہولڈ آؤٹ ڈیٹاسیٹ (یعنی اصل ڈیٹاسیٹ کا سب سیٹ)
  3. ایک گمنام ڈیٹاسیٹ (ٹرین ڈیٹاسیٹ کا گمنام ڈیٹا، اصل ڈیٹاسیٹ مائنس ہولڈ آؤٹ ڈیٹاسیٹ)
  4. ایک مصنوعی ڈیٹاسیٹ (ٹرین ڈیٹاسیٹ کا ترکیب شدہ ڈیٹا، اصل ڈیٹاسیٹ مائنس ہولڈ آؤٹ ڈیٹاسیٹ)

ڈیٹا سیٹس 1، 3 اور 4 کو ہر درجہ بندی کے ماڈل کو تربیت دینے کے لیے استعمال کیا گیا تھا، جس کے نتیجے میں 12 (3 x 4) تربیت یافتہ ماڈل تھے۔ ایس اے ایس نے بعد میں ہولڈ آؤٹ ڈیٹاسیٹ کا استعمال کیا تاکہ کسٹمر کرن کی پیشین گوئی میں ہر ماڈل کی درستگی کی پیمائش کی جا سکے۔

SAS اصل ڈیٹا کے مقابلے میں Syntho کے AI سے تیار کردہ مصنوعی ڈیٹا کے ڈیٹا کی درستگی، رازداری کے تحفظ، اور استعمال کے بارے میں مختلف مکمل جائزے کرتا ہے۔ نتیجہ کے طور پر، SAS نے Syntho کے مصنوعی ڈیٹا کو اصل ڈیٹا کے مقابلے میں درست، محفوظ اور قابل استعمال ہونے کے طور پر جانچا اور اس کی منظوری دی۔

کیا آپ کے پاس کوئی سوال ہے؟

ہمارے ماہرین میں سے ایک سے بات کریں۔

SAS کے ذریعہ ڈیٹا کی تشخیص کے ابتدائی نتائج

مصنوعی ڈیٹا پر تربیت یافتہ ماڈلز کا اسکور اصل ڈیٹا پر تربیت یافتہ ماڈلز کے مقابلے میں بہت ملتا جلتا ہے۔

Syntho کا مصنوعی ڈیٹا نہ صرف بنیادی نمونوں کے لیے رکھتا ہے، بلکہ یہ اعلی درجے کے تجزیاتی کاموں کے لیے درکار گہرے 'پوشیدہ' شماریاتی نمونوں کو بھی حاصل کرتا ہے۔ مؤخر الذکر کو بار چارٹ میں دکھایا گیا ہے، جس سے ظاہر ہوتا ہے کہ مصنوعی ڈیٹا پر تربیت یافتہ ماڈلز کی درستگی بمقابلہ اصل ڈیٹا پر تربیت یافتہ ماڈلز ایک جیسے ہیں۔ لہذا، مصنوعی ڈیٹا کو ماڈلز کی اصل تربیت کے لیے استعمال کیا جا سکتا ہے۔ اصل اعداد و شمار کے مقابلے مصنوعی ڈیٹا پر الگورتھم کے ذریعہ منتخب کردہ ان پٹ اور متغیر اہمیت بہت ملتے جلتے تھے۔ لہذا، یہ نتیجہ اخذ کیا گیا ہے کہ ماڈلنگ کا عمل مصنوعی ڈیٹا پر کیا جا سکتا ہے، حقیقی حساس ڈیٹا کو استعمال کرنے کے متبادل کے طور پر۔

گمنام ڈیٹا پر تربیت یافتہ ماڈلز بدتر کیوں ہوتے ہیں؟

کلاسیکی گمنامی کی تکنیکوں میں مشترک ہے کہ وہ لوگوں کو ٹریس کرنے میں رکاوٹ ڈالنے کے لیے اصل ڈیٹا میں ہیرا پھیری کرتے ہیں۔ وہ ڈیٹا میں ہیرا پھیری کرتے ہیں اور اس طرح اس عمل میں ڈیٹا کو تباہ کرتے ہیں۔ آپ جتنا زیادہ گمنام کریں گے، اتنا ہی بہتر آپ کا ڈیٹا محفوظ رہے گا، بلکہ آپ کا ڈیٹا اتنا ہی زیادہ تباہ ہوگا۔ یہ خاص طور پر AI اور ماڈلنگ کے کاموں کے لیے تباہ کن ہے جہاں "پیش گوئی کرنے والی طاقت" ضروری ہے، کیونکہ خراب کوالٹی ڈیٹا کے نتیجے میں AI ماڈل کی خراب بصیرت ہوگی۔ SAS نے اس کا مظاہرہ، منحنی خطوط (AUC*) کے نیچے 0.5 کے قریب کے ساتھ کیا، یہ ظاہر کرتے ہوئے کہ گمنام ڈیٹا پر تربیت یافتہ ماڈلز اب تک کی بدترین کارکردگی کا مظاہرہ کرتے ہیں۔

SAS کی طرف سے مصنوعی ڈیٹا کی تشخیص کے اضافی نتائج

SAS کی طرف سے مصنوعی ڈیٹا کی تشخیص کے اضافی نتائج

متغیرات کے درمیان ارتباط اور تعلقات کو مصنوعی ڈیٹا میں درست طریقے سے محفوظ کیا گیا تھا۔

Area Under the Curve (AUC)، ماڈل کی کارکردگی کی پیمائش کے لیے ایک میٹرک، مستقل رہا۔

مزید برآں، متغیر کی اہمیت، جو کہ ایک ماڈل میں متغیر کی پیشین گوئی کی طاقت کی نشاندہی کرتی ہے، مصنوعی ڈیٹا کا اصل ڈیٹاسیٹ سے موازنہ کرتے وقت برقرار ہے۔

SAS کے ان مشاہدات کی بنیاد پر اور SAS Viya کا استعمال کرتے ہوئے، ہم اعتماد کے ساتھ یہ نتیجہ اخذ کر سکتے ہیں کہ Syntho Engine کے ذریعے تیار کردہ مصنوعی ڈیٹا واقعی معیار کے لحاظ سے حقیقی ڈیٹا کے برابر ہے۔ یہ ماڈل کی ترقی کے لیے مصنوعی ڈیٹا کے استعمال کی توثیق کرتا ہے، جس سے مصنوعی ڈیٹا کے ساتھ جدید تجزیات کی راہ ہموار ہوتی ہے۔

SAS کے ڈیٹا ماہرین کے نتائج

ساس لوگو

ہمارا مصنوعی ڈیٹا ہے۔ کی منظوری دے دی SAS کے ڈیٹا ماہرین کے ذریعہ

حوالہ جات کے مضامین

سنتھو گائیڈ کور

اپنے مصنوعی ڈیٹا گائیڈ کو ابھی محفوظ کریں!