تقييم المنفعة والتشابه في مولدات البيانات الاصطناعية: الغوص التقني العميق والتحليل المقارن

نشرت:
27 فبراير 2024

المُقدّمة

في العصر الرقمي الحالي، ارتفع الوعي بخصوصية البيانات بشكل كبير. يتعرف المستخدمون بشكل متزايد على بياناتهم باعتبارها بصمة رقمية فريدة، مما يشكل خطرًا على خصوصيتهم في حالة انتهاك البيانات. يتم تضخيم هذا القلق بشكل أكبر من خلال لوائح مثل اللائحة العامة لحماية البيانات (GDPR)، والتي تمكن المستخدمين من طلب حذف بياناتهم. على الرغم من أن هناك حاجة ماسة إلى هذا التشريع، إلا أنه يمكن أن يكون مكلفًا للغاية بالنسبة للشركات حيث يتم تقليل الوصول إلى البيانات إلى الحد الأدنى؛ القيود التي غالبا ما تستغرق وقتا طويلا وموارد للتغلب عليها. 

جدول المحتويات

ما هي مولدات البيانات الاصطناعية؟

أدخل البيانات الاصطناعية، وهو حل لهذه اللغز. تقوم مولدات البيانات الاصطناعية بإنشاء مجموعات بيانات تحاكي بيانات المستخدم الحقيقية مع الحفاظ على عدم الكشف عن هويته والسرية. ويكتسب هذا النهج زخمًا عبر الصناعات، بدءًا من الرعاية الصحية وحتى التمويل، حيث تكون الخصوصية ذات أهمية قصوى.  

تم تصميم هذا المنشور لمحترفي البيانات وعشاقها، مع التركيز على تقييم مولدات البيانات الاصطناعية. سوف نتعمق في المقاييس الرئيسية ونجري تحليلًا مقارنًا بين محرك Syntho وبدائله مفتوحة المصدر، ونقدم رؤى حول كيفية التقييم الفعال لجودة الحل لتوليد البيانات الاصطناعية. علاوة على ذلك، سنقوم أيضًا بتقييم التكلفة الزمنية لكل نموذج من هذه النماذج لتوفير مزيد من المعرفة حول عمل النماذج. 

كيفية اختيار الطريقة الصحيحة لتوليد البيانات الاصطناعية؟

في المشهد المتنوع لتوليد البيانات الاصطناعية، هناك وفرة من الأساليب المتاحة، كل منها يتنافس على الاهتمام بقدراته الفريدة. يتطلب اختيار الطريقة الأكثر ملاءمة لتطبيق معين فهمًا شاملاً لخصائص الأداء لكل خيار. وهذا يتطلب إجراء تقييم شامل لمختلف مولدات البيانات الاصطناعية بناءً على مجموعة من المقاييس المحددة جيدًا لاتخاذ قرار مستنير. 

ما يلي هو تحليل مقارن دقيق لمحرك Syntho إلى جانب إطار عمل معروف مفتوح المصدر، وهو مخزن البيانات الاصطناعية (SDV). في هذا التحليل، استخدمنا العديد من المقاييس شائعة الاستخدام مثل الإخلاص الإحصائي والدقة التنبؤية والعلاقة بين المتغيرات. 

مقاييس تقييم البيانات الاصطناعية

قبل تقديم أي مقياس محدد، يجب أن نعترف بوجود العديد من الأيديولوجيات حول تقييم البيانات الاصطناعية، وكل منها يعطي نظرة ثاقبة لجانب معين من البيانات. ومع أخذ ذلك في الاعتبار، تبرز الفئات الثلاث التالية باعتبارها مهمة وشاملة. توفر هذه المقاييس رؤى حول الجوانب المختلفة لجودة البيانات. هذه الفئات هي: 

      1. مقاييس الدقة الإحصائية: فحص السمات الإحصائية الأساسية للبيانات، مثل الوسائل والفروق، للتأكد من توافق البيانات الاصطناعية مع الملف الإحصائي لمجموعة البيانات الأصلية. 

        1. الدقة التنبؤية: فحص أداء نموذج توليد البيانات الاصطناعية، وتدريبه على البيانات الأصلية، وتقييمه على البيانات الاصطناعية (Train Real - Test Artificial، TRTS) والعكس (Train Artificial - Test Real، TSTR) 

          1. العلاقات بين المتغيرات: تشمل هذه الفئة المدمجة ما يلي: 

            • علاقة الميزة: نقوم بتقييم مدى احتفاظ البيانات الاصطناعية بالعلاقات بين المتغيرات باستخدام معاملات الارتباط. المقياس المعروف مثل متوسط ​​الخطأ التربيعي (PMSE) سيكون من هذا النوع. 

            • المعلومات المتبادلة: نحن نقيس الاعتماد المتبادل بين المتغيرات لفهم عمق هذه العلاقات بما يتجاوز مجرد الارتباطات. 

          التحليل المقارن: محرك Syntho مقابل البدائل مفتوحة المصدر

          تم إجراء التحليل المقارن باستخدام إطار تقييمي موحد وتقنيات اختبار متطابقة في جميع النماذج، بما في ذلك نماذج Syntho Engine وSDV. ومن خلال تجميع مجموعات البيانات من مصادر متطابقة وإخضاعها لنفس الاختبارات الإحصائية وتقييمات نماذج التعلم الآلي، فإننا نضمن إجراء مقارنة عادلة وغير متحيزة. يوضح القسم التالي تفاصيل أداء كل مولد بيانات تركيبية عبر نطاق المقاييس الموضحة أعلاه.  

           

          أما بالنسبة لمجموعة البيانات المستخدمة للتقييم، فقد استخدمنا مجموعة بيانات التعداد UCI للبالغين وهي مجموعة بيانات معروفة في مجتمع التعلم الآلي. قمنا بتنظيف البيانات قبل كل التدريب ثم قمنا بتقسيم مجموعة البيانات إلى مجموعتين (مجموعة تدريب ومجموعة معوقة للاختبار). استخدمنا مجموعة التدريب لإنشاء مليون نقطة بيانات جديدة مع كل نموذج وقمنا بتقييم المقاييس المختلفة على مجموعات البيانات التي تم إنشاؤها. لمزيد من تقييمات التعلم الآلي، استخدمنا مجموعة الرفض لتقييم المقاييس مثل تلك المتعلقة بـ TSTR وTRTS.  

           

          تم تشغيل كل مولد باستخدام المعلمات الافتراضية. نظرًا لأن بعض النماذج، مثل Syntho، يمكنها العمل خارج الصندوق على أي بيانات جدولية، لم يتم إجراء أي ضبط دقيق. قد يستغرق البحث عن المعلمات الفائقة المناسبة لكل نموذج قدرًا كبيرًا من الوقت، ويظهر الجدول 2 بالفعل فرقًا زمنيًا كبيرًا بين نموذج Syntho والنماذج التي تم اختبارها. 

           

          ومن الجدير بالذكر أنه على عكس بقية النماذج في SDV، يعتمد مركب Gaussian Copula على الأساليب الإحصائية. في المقابل، يعتمد الباقي على الشبكات العصبية مثل نماذج شبكات الخصومة التوليدية (GAN) وأجهزة التشفير التلقائي المتغيرة. ولهذا السبب يمكن اعتبار Gaussian Copula بمثابة خط الأساس لجميع النماذج التي تمت مناقشتها. 

          النتائج

          جودة البيانات

          الشكل 1. تصور نتائج الجودة الأساسية لجميع النماذج

          يمكن العثور على الالتزامات التي تمت مناقشتها مسبقًا للاتجاهات والتمثيلات في البيانات في الشكل 1 والجدول 1. وهنا، يمكن تفسير كل من المقاييس المستخدمة على النحو التالي:

          • نقاط الجودة الشاملة: التقييم الشامل لجودة البيانات الاصطناعية، الذي يجمع بين جوانب مختلفة مثل التشابه الإحصائي وخصائص البيانات. 
          • أشكال الأعمدة: يقيم ما إذا كانت البيانات الاصطناعية تحافظ على نفس شكل التوزيع مثل البيانات الحقيقية لكل عمود. 
          • اتجاهات زوج الأعمدة: يقيم العلاقة أو الارتباطات بين أزواج الأعمدة في البيانات الاصطناعية مقارنة بالبيانات الحقيقية. 
          •  

          بشكل عام، يمكن ملاحظة أن Syntho يحقق درجات عالية جدًا في جميع المجالات. بادئ ذي بدء، عند النظر إلى جودة البيانات الإجمالية (التي تم تقييمها باستخدام مكتبة مقاييس SDV)، يمكن لـ Syntho تحقيق نتيجة تزيد عن 99% (مع الالتزام بشكل العمود بنسبة 99.92% والالتزام بشكل زوج الأعمدة بنسبة 99.31%). هذا بينما يحصل SDV على نتيجة بحد أقصى 90.84% ​​(مع Gaussian Copula، حيث يبلغ الالتزام بشكل العمود 93.82% والالتزام بشكل زوج العمود بنسبة 87.86%). 

          تمثيل جدولي لدرجات الجودة لكل مجموعة بيانات تم إنشاؤها لكل نموذج

          الجدول 1. تمثيل جدولي لدرجات الجودة لكل مجموعة بيانات تم إنشاؤها لكل نموذج 

          تغطية البيانات

          تلفت وحدة تقرير التشخيص الخاصة بـ SDV انتباهنا إلى أن البيانات التي تم إنشاؤها بواسطة SDV (في جميع الحالات) تفتقد أكثر من 10% من النطاقات الرقمية؛ في حالة جهاز التشفير التلقائي المتغير القائم على الثلاثي (TVAE)، فإن نفس الكمية من البيانات الفئوية مفقودة أيضًا عند مقارنتها بمجموعة البيانات الأصلية. لم يتم إنشاء مثل هذه التحذيرات مع النتائج التي تم تحقيقها باستخدام Syntho.  

          تصور متوسط ​​مقاييس الأداء من حيث العمود لجميع النماذج
           
           

          الشكل 2. تصور متوسط ​​مقاييس الأداء من حيث العمود لجميع النماذج 

          في التحليل المقارن، يوضح الرسم البياني في الشكل 2 أن أرشيفات SDV تؤدي إلى نتائج أفضل بشكل هامشي في تغطية الفئة مع بعض نماذجها (أي مع GaussianCopula، وCopulaGAN، وConditional Tabular GAN – CTGAN). ومع ذلك، من المهم تسليط الضوء على أن موثوقية بيانات Syntho تفوق نماذج SDV، حيث أن التناقض في التغطية عبر الفئات والنطاقات هو الحد الأدنى، حيث يظهر تباينًا بنسبة 1.1٪ فقط. وفي المقابل، تظهر نماذج SDV تباينًا كبيرًا يتراوح بين 14.6% إلى 29.2%. 

           

          يمكن تفسير المقاييس الممثلة هنا على النحو التالي: 

          • تغطية الفئة: يقيس وجود جميع الفئات في البيانات الاصطناعية مقارنة بالبيانات الحقيقية.
          • تغطية النطاق: يقيم مدى تطابق نطاق القيم في البيانات الاصطناعية مع البيانات الحقيقية. 
          تمثيل جدولي لمتوسط ​​التغطية لنوع سمة معين لكل نموذج

          الجدول 2. تمثيل جدولي لمتوسط ​​التغطية لنوع سمة معين لكل نموذج 

          مرافق

          بالانتقال إلى موضوع فائدة البيانات الاصطناعية، تصبح مسألة نماذج التدريب على البيانات ذات صلة. للحصول على مقارنة متوازنة وعادلة بين جميع الأطر، اخترنا Gradient Boosting Classifier الافتراضي من مكتبة SciKit Learn، حيث نرى أنه مقبول إلى حد ما كنموذج جيد الأداء مع إعدادات خارج الصندوق.  

           

          يتم تدريب نموذجين مختلفين، أحدهما على البيانات الاصطناعية (لـ TSTR) والآخر على البيانات الأصلية (لـ TRTS). يتم تقييم النموذج الذي تم تدريبه على البيانات الاصطناعية باستخدام مجموعة اختبار الإيقاف (التي لم يتم استخدامها أثناء إنشاء البيانات الاصطناعية) ويتم اختبار النموذج الذي تم تدريبه على البيانات الأصلية على مجموعة البيانات الاصطناعية.  

          تصور درجات المنطقة تحت المنحنى (AUC) لكل طريقة لكل نموذج

          الشكل 3. تصور المنطقة تحت المنحنى (AUC) عشرات لكل طريقة لكل نموذج 

           توضح النتائج الموضحة أعلاه تفوق توليد البيانات الاصطناعية بواسطة محرك Syntho مقارنة بالطرق الأخرى، حيث لا يوجد فرق بين النتائج التي تم الحصول عليها بواسطة الطرق المختلفة (مما يشير إلى وجود تشابه كبير بين البيانات الاصطناعية والبيانات الحقيقية). أيضًا، الخط الأحمر المنقط الموجود في المخطط هو النتيجة التي تم الحصول عليها من خلال تقييم الأداء الأساسي لاختبار التدريب الحقيقي، الاختبار الحقيقي (TRTR) لتوفير خط أساس للمقاييس المرصودة. يمثل هذا الخط القيمة 0.92، وهي درجة المنطقة تحت المنحنى (درجة AUC) التي حققها النموذج الذي تم تدريبه على بيانات حقيقية وتم اختباره على بيانات حقيقية. 

          تمثيل جدولي لدرجات AUC التي حققتها TRTS وTSTR على التوالي لكل نموذج.

          الجدول 3. تمثيل جدولي لدرجات AUC التي حققتها TRTS وTSTR على التوالي لكل نموذج. 

          مقارنة زمنية

          وبطبيعة الحال، من المهم مراعاة الوقت المستثمر في تحقيق هذه النتائج. يوضح التصور أدناه هذا فقط.

          تصور للوقت المستغرق لتدريب وتنفيذ توليد البيانات الاصطناعية لمليون نقطة بيانات باستخدام نموذج مزود بوحدة معالجة الرسومات وبدونها.

          الشكل 5. تصور الوقت المستغرق للتدريب والأداء توليد البيانات التركيبية مليون نقطة بيانات مع نموذج مزود بوحدة معالجة الرسومات وبدونها. 

          يوضح الشكل 5 الوقت المستغرق لإنشاء بيانات تركيبية في إعدادين مختلفين. أولها (يشار إليها هنا بدون وحدة معالجة الرسومات)، كانت بمثابة اختبارات تشغيل على نظام باستخدام وحدة المعالجة المركزية Intel Xeon مع 16 مركزًا تعمل بسرعة 2.20 جيجاهرتز. تم إجراء الاختبارات التي تحمل علامة "تم تشغيلها باستخدام وحدة معالجة الرسومات" على نظام مزود بوحدة المعالجة المركزية AMD Ryzen 9 7945HX مع 16 مركزًا تعمل بسرعة 2.5 جيجا هرتز ووحدة معالجة الرسومات للكمبيوتر المحمول NVIDIA GeForce RTX 4070. كما هو ملحوظ في الشكل 2 والجدول 2 أدناه، يمكن ملاحظة أن Syntho أسرع بشكل ملحوظ في توليد البيانات الاصطناعية (في كلا السيناريوهين) وهو أمر بالغ الأهمية في سير العمل الديناميكي. 

          جدول يوضح الوقت المستغرق لإنشاء البيانات الاصطناعية لمليون نقطة بيانات مع كل نموذج مزود بوحدة معالجة الرسومات وبدونها

          الجدول 5. تمثيل جدولي للوقت المستغرق توليد البيانات التركيبية مليون نقطة بيانات مع كل طراز مزود بوحدة معالجة الرسومات وبدونها 

          ملاحظات ختامية وتوجهات مستقبلية 

          تؤكد النتائج على أهمية التقييم الشامل للجودة في اختيار الطريقة الصحيحة لتوليد البيانات الاصطناعية. يُظهر محرك Syntho، بنهجه القائم على الذكاء الاصطناعي، نقاط قوة جديرة بالملاحظة في مقاييس معينة، في حين تتألق الأدوات مفتوحة المصدر مثل SDV في تعدد استخداماتها والتحسينات التي يحركها المجتمع. 

          مع استمرار تطور مجال البيانات الاصطناعية، فإننا نشجعك على تطبيق هذه المقاييس في مشاريعك، واستكشاف تعقيداتها، ومشاركة تجاربك. ترقبوا المنشورات المستقبلية حيث سنتعمق أكثر في المقاييس الأخرى ونسلط الضوء على أمثلة واقعية لتطبيقاتها. 

          في نهاية المطاف، بالنسبة لأولئك الذين يتطلعون إلى اختبار الأمور على البيانات الاصطناعية، يمكن أن يكون البديل مفتوح المصدر المقدم خيارًا مبررًا نظرًا لإمكانية الوصول إليه؛ ومع ذلك، بالنسبة للمهنيين الذين يقومون بدمج هذه التكنولوجيا الحديثة في عملية التطوير الخاصة بهم، يجب اغتنام أي فرصة للتحسين وتجنب جميع العوائق. ولذلك فمن المهم اختيار أفضل خيار متاح. من خلال التحليلات المقدمة أعلاه، يصبح من الواضح إلى حد ما أن Syntho ومع ذلك محرك Syntho هو أداة قادرة جدًا للممارسين. 

          حول سينثو

          سينثو يوفر منصة ذكية لتوليد البيانات الاصطناعية، والاستفادة من نماذج البيانات الاصطناعية المتعددة وطرق الإنشاء، وتمكين المؤسسات من تحويل البيانات بذكاء إلى ميزة تنافسية. تحاكي بياناتنا الاصطناعية التي تم إنشاؤها بواسطة الذكاء الاصطناعي الأنماط الإحصائية للبيانات الأصلية، مما يضمن الدقة والخصوصية والسرعة، وفقًا لتقييم خبراء خارجيين مثل SAS. بفضل ميزات إلغاء الهوية الذكية والخرائط المتسقة، تتم حماية المعلومات الحساسة مع الحفاظ على التكامل المرجعي. تتيح منصتنا إنشاء بيانات الاختبار وإدارتها والتحكم فيها للبيئات غير الإنتاجية، وذلك باستخدام أساليب إنشاء البيانات الاصطناعية القائمة على القواعد للسيناريوهات المستهدفة. بالإضافة إلى ذلك، يمكن للمستخدمين إنشاء بيانات تركيبية برمجيًا والحصول على بيانات اختبار واقعية لتطوير سيناريوهات الاختبار والتطوير الشاملة بسهولة.  

          هل تريد معرفة المزيد من التطبيقات العملية للبيانات الاصطناعية؟ لا تتردد في الجدول الزمني التجريبي!

          عن المؤلفين

          متدرب هندسة البرمجيات

          روهam هو طالب بكالوريوس في جامعة دلفت للتكنولوجيا وهو متدرب في هندسة البرمجيات في سينثو 

          مهندس التعلم الآلي

          حصل ميهاي على درجة الدكتوراه من جامعة بريستول حول موضوع تطبيق التعلم المعزز الهرمي على الروبوتات ويشكل مهندس التعلم الآلي أt سينثو. 

          غطاء دليل سينثو

          احفظ دليل البيانات التركيبية الآن!