يتم تقييم البيانات الاصطناعية التي تم إنشاؤها بواسطة Syntho والتحقق من صحتها والموافقة عليها من وجهة نظر خارجية وموضوعية من قبل خبراء البيانات في SAS.
على الرغم من أن شركة Syntho تفخر بتقديم تقرير متقدم لضمان الجودة لمستخدميها، إلا أننا ندرك أيضًا أهمية إجراء تقييم خارجي وموضوعي لبياناتنا الاصطناعية من قادة الصناعة. ولهذا السبب نتعاون مع SAS، الشركة الرائدة في التحليلات، لتقييم بياناتنا الاصطناعية.
تجري SAS تقييمات شاملة متنوعة حول دقة البيانات وحماية الخصوصية وسهولة استخدام البيانات الاصطناعية التي تم إنشاؤها بواسطة الذكاء الاصطناعي من Syntho مقارنة بالبيانات الأصلية. في الختام، قامت SAS بتقييم واعتماد بيانات Syntho الاصطناعية باعتبارها دقيقة وآمنة وقابلة للاستخدام مقارنة بالبيانات الأصلية.
استخدمنا بيانات الاتصالات المستخدمة للتنبؤ بـ "التغيير" كبيانات مستهدفة. كان الهدف من التقييم هو استخدام البيانات الاصطناعية لتدريب نماذج التنبؤ المختلفة وتقييم أداء كل نموذج. نظرًا لأن التنبؤ بالتغيير هو مهمة تصنيفية، فقد اختارت SAS نماذج تصنيف شائعة لإجراء التنبؤات، بما في ذلك:
قبل إنشاء البيانات التركيبية ، قسمت SAS عشوائيًا مجموعة بيانات الاتصالات إلى مجموعة قطار (لتدريب النماذج) ومجموعة حجز (لتسجيل النماذج). يسمح وجود مجموعة احتجاز منفصلة لتسجيل الدرجات بإجراء تقييم غير متحيز لمدى نجاح نموذج التصنيف عند تطبيقه على بيانات جديدة.
باستخدام مجموعة القطار كمدخل، استخدمت شركة Syntho محرك Syntho الخاص بها لإنشاء مجموعة بيانات تركيبية. من أجل قياس الأداء، أنشأت SAS أيضًا نسخة مجهولة المصدر من مجموعة القطار بعد تطبيق تقنيات إخفاء الهوية المختلفة للوصول إلى حد معين (من إخفاء الهوية k). أدت الخطوات السابقة إلى أربع مجموعات بيانات:
تم استخدام مجموعات البيانات 1 و3 و4 لتدريب كل نموذج تصنيف، مما أدى إلى 12 نموذجًا (3 × 4) مدربًا. استخدمت SAS لاحقًا مجموعة البيانات المحظورة لقياس دقة كل نموذج في التنبؤ بتقلب العملاء.
تجري SAS تقييمات شاملة متنوعة حول دقة البيانات وحماية الخصوصية وسهولة استخدام البيانات الاصطناعية التي تم إنشاؤها بواسطة الذكاء الاصطناعي من Syntho مقارنة بالبيانات الأصلية. في الختام، قامت SAS بتقييم واعتماد بيانات Syntho الاصطناعية باعتبارها دقيقة وآمنة وقابلة للاستخدام مقارنة بالبيانات الأصلية.
لا تقتصر البيانات الاصطناعية من Syntho على الأنماط الأساسية فحسب، بل إنها تلتقط أيضًا أنماطًا إحصائية عميقة "مخفية" مطلوبة لمهام التحليلات المتقدمة. ويظهر هذا الأخير في الرسم البياني الشريطي، مما يشير إلى أن دقة النماذج المدربة على البيانات الاصطناعية مقابل النماذج المدربة على البيانات الأصلية متشابهة. ومن ثم، يمكن استخدام البيانات الاصطناعية للتدريب الفعلي للنماذج. كانت المدخلات والأهمية المتغيرة التي حددتها الخوارزميات على البيانات الاصطناعية مقارنة بالبيانات الأصلية متشابهة جدًا. ومن هنا نستنتج أن عملية النمذجة يمكن أن تتم على البيانات الاصطناعية، كبديل لاستخدام البيانات الحساسة الحقيقية.
تشترك تقنيات إخفاء الهوية الكلاسيكية في أنها تتعامل مع البيانات الأصلية من أجل إعاقة تعقب الأفراد. إنهم يتعاملون مع البيانات وبالتالي يدمرون البيانات في هذه العملية. كلما قمت بإخفاء هويتك، كلما تمت حماية بياناتك بشكل أفضل، ولكن أيضًا زاد تدمير بياناتك. وهذا أمر مدمر بشكل خاص بالنسبة للذكاء الاصطناعي ومهام النمذجة حيث تكون "القوة التنبؤية" ضرورية، لأن البيانات ذات الجودة الرديئة ستؤدي إلى رؤى سيئة من نموذج الذكاء الاصطناعي. وقد أظهرت SAS ذلك، مع مساحة تحت المنحنى (AUC*) تقترب من 0.5، مما يدل على أن النماذج التي تم تدريبها على البيانات مجهولة المصدر تؤدي الأداء الأسوأ على الإطلاق.
تم الحفاظ على الارتباطات والعلاقات بين المتغيرات بدقة في البيانات التركيبية.
ظلت المنطقة الواقعة تحت المنحنى (AUC) ، وهي مقياس لقياس أداء النموذج ، ثابتة.
علاوة على ذلك ، ظلت الأهمية المتغيرة ، التي أشارت إلى القدرة التنبؤية للمتغيرات في النموذج ، كما هي عند مقارنة البيانات التركيبية بمجموعة البيانات الأصلية.
بناءً على هذه الملاحظات التي أجرتها SAS وباستخدام SAS Viya، يمكننا أن نستنتج بثقة أن البيانات الاصطناعية التي تم إنشاؤها بواسطة محرك Syntho تتساوى بالفعل مع البيانات الحقيقية من حيث الجودة. وهذا يؤكد صحة استخدام البيانات الاصطناعية لتطوير النماذج، مما يمهد الطريق للتحليلات المتقدمة باستخدام البيانات الاصطناعية.