التقييم الخارجي لبياناتنا الاصطناعية من قبل خبراء البيانات في SAS

بياناتنا التركيبية هي تقييم و من وزارة الصحة من قبل خبراء البيانات SAS

مقدمة للتقييم الخارجي لبياناتنا الاصطناعية من قبل خبراء البيانات في SAS

ماذا فعلنا؟

يتم تقييم البيانات الاصطناعية التي تم إنشاؤها بواسطة Syntho والتحقق من صحتها والموافقة عليها من وجهة نظر خارجية وموضوعية من قبل خبراء البيانات في SAS.

لماذا يتم تقييم بياناتنا الاصطناعية خارجيًا من قبل خبراء البيانات في SAS؟

على الرغم من أن شركة Syntho تفخر بتقديم تقرير متقدم لضمان الجودة لمستخدميها، إلا أننا ندرك أيضًا أهمية إجراء تقييم خارجي وموضوعي لبياناتنا الاصطناعية من قادة الصناعة. ولهذا السبب نتعاون مع SAS، الشركة الرائدة في التحليلات، لتقييم بياناتنا الاصطناعية.

تجري SAS تقييمات شاملة متنوعة حول دقة البيانات وحماية الخصوصية وسهولة استخدام البيانات الاصطناعية التي تم إنشاؤها بواسطة الذكاء الاصطناعي من Syntho مقارنة بالبيانات الأصلية. في الختام، قامت SAS بتقييم واعتماد بيانات Syntho الاصطناعية باعتبارها دقيقة وآمنة وقابلة للاستخدام مقارنة بالبيانات الأصلية.

ماذا فعلت SAS خلال هذا التقييم؟

استخدمنا بيانات الاتصالات المستخدمة للتنبؤ بـ "التغيير" كبيانات مستهدفة. كان الهدف من التقييم هو استخدام البيانات الاصطناعية لتدريب نماذج التنبؤ المختلفة وتقييم أداء كل نموذج. نظرًا لأن التنبؤ بالتغيير هو مهمة تصنيفية، فقد اختارت SAS نماذج تصنيف شائعة لإجراء التنبؤات، بما في ذلك:

  1. غابة عشوائية
  2. تعزيز التدرج
  3. الانحدار اللوجستي
  4. الشبكة العصبية

قبل إنشاء البيانات التركيبية ، قسمت SAS عشوائيًا مجموعة بيانات الاتصالات إلى مجموعة قطار (لتدريب النماذج) ومجموعة حجز (لتسجيل النماذج). يسمح وجود مجموعة احتجاز منفصلة لتسجيل الدرجات بإجراء تقييم غير متحيز لمدى نجاح نموذج التصنيف عند تطبيقه على بيانات جديدة.

باستخدام مجموعة القطار كمدخل، استخدمت شركة Syntho محرك Syntho الخاص بها لإنشاء مجموعة بيانات تركيبية. من أجل قياس الأداء، أنشأت SAS أيضًا نسخة مجهولة المصدر من مجموعة القطار بعد تطبيق تقنيات إخفاء الهوية المختلفة للوصول إلى حد معين (من إخفاء الهوية k). أدت الخطوات السابقة إلى أربع مجموعات بيانات:

  1. مجموعة بيانات قطار (أي مجموعة البيانات الأصلية مطروحًا منها مجموعة بيانات الانتظار)
  2. مجموعة بيانات محتجزة (أي مجموعة فرعية من مجموعة البيانات الأصلية)
  3. مجموعة بيانات مجهولة المصدر (بيانات مجهولة المصدر لمجموعة بيانات القطار، مجموعة البيانات الأصلية مطروحًا منها مجموعة بيانات الاحتجاز)
  4. مجموعة بيانات تركيبية (بيانات مركبة لمجموعة بيانات القطار، ومجموعة البيانات الأصلية مطروحًا منها مجموعة البيانات المحظورة)

تم استخدام مجموعات البيانات 1 و3 و4 لتدريب كل نموذج تصنيف، مما أدى إلى 12 نموذجًا (3 × 4) مدربًا. استخدمت SAS لاحقًا مجموعة البيانات المحظورة لقياس دقة كل نموذج في التنبؤ بتقلب العملاء.

تجري SAS تقييمات شاملة متنوعة حول دقة البيانات وحماية الخصوصية وسهولة استخدام البيانات الاصطناعية التي تم إنشاؤها بواسطة الذكاء الاصطناعي من Syntho مقارنة بالبيانات الأصلية. في الختام، قامت SAS بتقييم واعتماد بيانات Syntho الاصطناعية باعتبارها دقيقة وآمنة وقابلة للاستخدام مقارنة بالبيانات الأصلية.

هل لديك اسئلة؟

تحدث إلى أحد خبرائنا

النتائج الأولية لتقييم البيانات من قبل SAS

النماذج التي تم تدريبها على البيانات الاصطناعية تكون متشابهة إلى حد كبير مقارنة بالنماذج التي تم تدريبها على البيانات الأصلية

لا تقتصر البيانات الاصطناعية من Syntho على الأنماط الأساسية فحسب، بل إنها تلتقط أيضًا أنماطًا إحصائية عميقة "مخفية" مطلوبة لمهام التحليلات المتقدمة. ويظهر هذا الأخير في الرسم البياني الشريطي، مما يشير إلى أن دقة النماذج المدربة على البيانات الاصطناعية مقابل النماذج المدربة على البيانات الأصلية متشابهة. ومن ثم، يمكن استخدام البيانات الاصطناعية للتدريب الفعلي للنماذج. كانت المدخلات والأهمية المتغيرة التي حددتها الخوارزميات على البيانات الاصطناعية مقارنة بالبيانات الأصلية متشابهة جدًا. ومن هنا نستنتج أن عملية النمذجة يمكن أن تتم على البيانات الاصطناعية، كبديل لاستخدام البيانات الحساسة الحقيقية.

لماذا تحصل النماذج التي تم تدريبها على البيانات مجهولة المصدر على نتائج أسوأ؟

تشترك تقنيات إخفاء الهوية الكلاسيكية في أنها تتعامل مع البيانات الأصلية من أجل إعاقة تعقب الأفراد. إنهم يتعاملون مع البيانات وبالتالي يدمرون البيانات في هذه العملية. كلما قمت بإخفاء هويتك، كلما تمت حماية بياناتك بشكل أفضل، ولكن أيضًا زاد تدمير بياناتك. وهذا أمر مدمر بشكل خاص بالنسبة للذكاء الاصطناعي ومهام النمذجة حيث تكون "القوة التنبؤية" ضرورية، لأن البيانات ذات الجودة الرديئة ستؤدي إلى رؤى سيئة من نموذج الذكاء الاصطناعي. وقد أظهرت SAS ذلك، مع مساحة تحت المنحنى (AUC*) تقترب من 0.5، مما يدل على أن النماذج التي تم تدريبها على البيانات مجهولة المصدر تؤدي الأداء الأسوأ على الإطلاق.

نتائج إضافية لتقييمات البيانات الاصطناعية بواسطة SAS

نتائج إضافية لتقييمات البيانات الاصطناعية بواسطة SAS

تم الحفاظ على الارتباطات والعلاقات بين المتغيرات بدقة في البيانات التركيبية.

ظلت المنطقة الواقعة تحت المنحنى (AUC) ، وهي مقياس لقياس أداء النموذج ، ثابتة.

علاوة على ذلك ، ظلت الأهمية المتغيرة ، التي أشارت إلى القدرة التنبؤية للمتغيرات في النموذج ، كما هي عند مقارنة البيانات التركيبية بمجموعة البيانات الأصلية.

بناءً على هذه الملاحظات التي أجرتها SAS وباستخدام SAS Viya، يمكننا أن نستنتج بثقة أن البيانات الاصطناعية التي تم إنشاؤها بواسطة محرك Syntho تتساوى بالفعل مع البيانات الحقيقية من حيث الجودة. وهذا يؤكد صحة استخدام البيانات الاصطناعية لتطوير النماذج، مما يمهد الطريق للتحليلات المتقدمة باستخدام البيانات الاصطناعية.

استنتاجات خبراء البيانات في SAS

شعار Sas

بياناتنا التركيبية هي من وزارة الصحة بواسطة خبراء البيانات في SAS

المقالات المرجعية

غطاء دليل سينثو

احفظ دليل البيانات التركيبية الآن!