البيانات التركيبية التي تم إنشاؤها بواسطة الذكاء الاصطناعي ، والوصول السهل والسريع إلى البيانات عالية الجودة؟

أنشأ الذكاء الاصطناعي بيانات تركيبية في الممارسة العملية

يهدف Syntho ، وهو خبير في البيانات التركيبية المولدة بواسطة الذكاء الاصطناعي ، إلى التحول privacy by design في ميزة تنافسية مع البيانات التركيبية التي تم إنشاؤها بواسطة الذكاء الاصطناعي. إنهم يساعدون المؤسسات على بناء أساس بيانات قوي مع وصول سهل وسريع إلى البيانات عالية الجودة وقد فازوا مؤخرًا بجائزة Philips للابتكار.

ومع ذلك ، فإن إنشاء البيانات التركيبية باستخدام الذكاء الاصطناعي هو حل جديد نسبيًا يقدم عادةً الأسئلة المتداولة. للإجابة على هذه الأسئلة ، بدأت Syntho دراسة حالة مع SAS ، الشركة الرائدة في السوق في برامج التحليلات المتقدمة والذكاء الاصطناعي.

بالتعاون مع التحالف الهولندي للذكاء الاصطناعي (NL AIC) ، قاموا بالتحقيق في قيمة البيانات التركيبية من خلال مقارنة البيانات التركيبية التي تم إنشاؤها بواسطة الذكاء الاصطناعي والتي تم إنشاؤها بواسطة محرك Syntho مع البيانات الأصلية عبر تقييمات مختلفة حول جودة البيانات والصلاحية القانونية وسهولة الاستخدام.

هل إخفاء هوية البيانات ليس حلاً؟

تشترك تقنيات إخفاء الهوية التقليدية في أنها تتلاعب بالبيانات الأصلية من أجل إعاقة تعقب الأفراد. ومن الأمثلة التعميم ، والقمع ، والمسح ، والتسمية المستعارة ، وإخفاء البيانات ، وخلط الصفوف والأعمدة. يمكنك أن تجد أمثلة في الجدول أدناه.

إخفاء هوية البيانات

تقدم هذه التقنيات 3 تحديات رئيسية:

  1. تعمل بشكل مختلف حسب نوع البيانات وكل مجموعة بيانات ، مما يجعل قياسها صعبًا. علاوة على ذلك ، نظرًا لأنها تعمل بشكل مختلف ، فسيكون هناك دائمًا نقاش حول الأساليب التي يجب تطبيقها وما هي مجموعة التقنيات المطلوبة.
  2. هناك دائمًا علاقة رأس برأس مع البيانات الأصلية. هذا يعني أنه سيكون هناك دائمًا خطر على الخصوصية ، لا سيما بسبب جميع مجموعات البيانات المفتوحة والتقنيات المتاحة لربط مجموعات البيانات هذه.
  3. يتلاعبون بالبيانات وبالتالي يدمرون البيانات في العملية. يعد هذا أمرًا مدمرًا بشكل خاص لمهام الذكاء الاصطناعي حيث تكون "القدرة التنبؤية" ضرورية ، لأن البيانات ذات الجودة السيئة ستؤدي إلى رؤى سيئة من نموذج الذكاء الاصطناعي (ستؤدي عملية التخلص من القمامة إلى التخلص من البيانات).

يتم تقييم هذه النقاط أيضًا من خلال دراسة الحالة هذه.

مقدمة لدراسة الحالة

بالنسبة لدراسة الحالة ، كانت مجموعة البيانات المستهدفة عبارة عن مجموعة بيانات اتصالات مقدمة من SAS تحتوي على بيانات 56.600 عميل. تحتوي مجموعة البيانات على 128 عمودًا ، بما في ذلك عمود واحد يشير إلى ما إذا كان العميل قد ترك الشركة (أي "متخوض") أم لا. كان الهدف من دراسة الحالة هو استخدام البيانات التركيبية لتدريب بعض النماذج للتنبؤ بضغوط العملاء ولتقييم أداء تلك النماذج المدربة. نظرًا لأن التنبؤ بالتخبط هو مهمة تصنيف ، فقد اختارت SAS أربعة نماذج تصنيف شائعة لإجراء التنبؤات ، بما في ذلك:

  1. غابة عشوائية
  2. تعزيز التدرج
  3. الانحدار اللوجستي
  4. الشبكة العصبية

قبل إنشاء البيانات التركيبية ، قسمت SAS عشوائيًا مجموعة بيانات الاتصالات إلى مجموعة قطار (لتدريب النماذج) ومجموعة احتجاز (لتسجيل النماذج). يسمح وجود مجموعة منفصلة للتعليق لتسجيل الدرجات بإجراء تقييم غير متحيز لمدى جودة أداء نموذج التصنيف عند تطبيقه على البيانات الجديدة.

باستخدام مجموعة القطار كمدخلات ، استخدمت Syntho محرك Syntho الخاص بها لإنشاء مجموعة بيانات اصطناعية. لقياس الأداء ، أنشأت SAS أيضًا نسخة مُتلاعب بها من مجموعة القطار بعد تطبيق تقنيات إخفاء الهوية المختلفة للوصول إلى عتبة معينة (من k-anonimity). نتج عن الخطوات السابقة أربع مجموعات بيانات:

  1. مجموعة بيانات قطار (أي مجموعة البيانات الأصلية مطروحًا منها مجموعة بيانات الانتظار)
  2. مجموعة بيانات محتجزة (أي مجموعة فرعية من مجموعة البيانات الأصلية)
  3. مجموعة بيانات مجهولة المصدر (بناءً على مجموعة بيانات القطار)
  4. مجموعة بيانات تركيبية (بناءً على مجموعة بيانات القطار)

تم استخدام مجموعات البيانات 1 و 3 و 4 لتدريب كل نموذج تصنيف ، مما أدى إلى 12 (3 × 4) نموذجًا مدربًا. استخدمت SAS لاحقًا مجموعة البيانات المعلقة لقياس الدقة التي يتنبأ بها كل نموذج بتغير العميل. النتائج معروضة أدناه ، بدءًا من بعض الإحصاءات الأساسية.

تم إنشاء خط أنابيب التعلم الآلي في SAS

الشكل: خط أنابيب التعلم الآلي الذي تم إنشاؤه في SAS Visual Mining Data Mining and Machine Learning

الإحصائيات الأساسية عند مقارنة البيانات مجهولة المصدر بالبيانات الأصلية

تقنيات إخفاء الهوية تدمر حتى الأنماط الأساسية ومنطق العمل والعلاقات والإحصاءات (كما في المثال أدناه). وبالتالي فإن استخدام البيانات مجهولة المصدر للتحليلات الأساسية ينتج عنه نتائج غير موثوقة. في الواقع ، جعلت الجودة الرديئة للبيانات المجهولة الهوية من المستحيل تقريبًا استخدامها في مهام التحليلات المتقدمة (مثل نمذجة الذكاء الاصطناعي / التعلم الآلي ولوحة المعلومات).

مقارنة البيانات مجهولة المصدر بالبيانات الأصلية

الإحصائيات الأساسية عند مقارنة البيانات التركيبية بالبيانات الأصلية

يحافظ إنشاء البيانات الاصطناعية باستخدام الذكاء الاصطناعي على الأنماط الأساسية ومنطق العمل والعلاقات والإحصاءات (كما في المثال أدناه). وبالتالي فإن استخدام البيانات التركيبية للتحليلات الأساسية يؤدي إلى نتائج موثوقة. السؤال الرئيسي ، هل تحتفظ البيانات التركيبية بمهام التحليلات المتقدمة (مثل نمذجة الذكاء الاصطناعي / التعلم الآلي ولوحة القيادة)؟

تحليل البيانات التركيبية إلى البيانات الأصلية

البيانات التركيبية والتحليلات المتقدمة التي تم إنشاؤها بواسطة الذكاء الاصطناعي

لا تحمل البيانات التركيبية للأنماط الأساسية فقط (كما هو موضح في المخططات السابقة) ، بل إنها تلتقط أيضًا أنماطًا إحصائية عميقة "مخفية" مطلوبة لمهام التحليلات المتقدمة. تم توضيح الأخير في المخطط الشريطي أدناه ، مما يشير إلى أن دقة النماذج المدربة على البيانات الاصطناعية مقابل النماذج المدربة على البيانات الأصلية متشابهة. علاوة على ذلك ، مع وجود منطقة تحت المنحنى (AUC *) قريبة من 0.5 ، فإن أداء النماذج المدربة على البيانات المجهولة هو الأسوأ بكثير. التقرير الكامل مع جميع تقييمات التحليلات المتقدمة على البيانات التركيبية بالمقارنة مع البيانات الأصلية متاح عند الطلب.

* AUC: المنطقة الواقعة تحت المنحنى هي مقياس لدقة نماذج التحليلات المتقدمة ، مع الأخذ في الاعتبار الإيجابيات الحقيقية ، الإيجابية الخاطئة ، السلبيات الكاذبة والسلبيات الحقيقية. 0,5،1 يعني أن النموذج يتنبأ بشكل عشوائي وليس لديه قوة تنبؤية ويعني XNUMX أن النموذج دائمًا صحيح ولديه القدرة التنبؤية الكاملة.

بالإضافة إلى ذلك ، يمكن استخدام هذه البيانات التركيبية لفهم خصائص البيانات والمتغيرات الرئيسية اللازمة للتدريب الفعلي للنماذج. كانت المدخلات المحددة بواسطة الخوارزميات على البيانات التركيبية مقارنة بالبيانات الأصلية متشابهة جدًا. وبالتالي ، يمكن إجراء عملية النمذجة على هذا الإصدار التركيبي ، مما يقلل من مخاطر انتهاكات البيانات. ومع ذلك ، عند استنتاج السجلات الفردية (مثل عملاء الاتصالات) ، يوصى بإعادة التدريب على البيانات الأصلية من أجل التفسير أو زيادة القبول أو فقط بسبب التنظيم.                              

AUC حسب الخوارزمية مجمعة حسب الطريقة

AUC

الاستنتاجات:

  • تُظهر النماذج المدربة على البيانات التركيبية مقارنة بالنماذج المدربة على البيانات الأصلية أداءً مشابهًا للغاية
  • تُظهر النماذج المُدرَّبة على البيانات مجهولة المصدر باستخدام "تقنيات إخفاء الهوية التقليدية" أداءً ضعيفًا مقارنة بالنماذج المُدرَّبة على البيانات الأصلية أو البيانات التركيبية
  • يعد إنشاء البيانات التركيبية أمرًا سهلاً وسريعًا لأن التقنية تعمل بنفس الطريقة تمامًا لكل مجموعة بيانات ولكل نوع بيانات.

حالات استخدام البيانات التركيبية ذات القيمة المضافة

حالة الاستخدام 1: البيانات التركيبية لتطوير النموذج والتحليلات المتقدمة

يعد امتلاك أساس بيانات قوي مع وصول سهل وسريع إلى بيانات عالية الجودة وقابلة للاستخدام أمرًا ضروريًا لتطوير النماذج (مثل لوحات المعلومات [BI] والتحليلات المتقدمة [AI & ML]). ومع ذلك ، تعاني العديد من المؤسسات من أساس بيانات دون المستوى الأمثل مما يؤدي إلى 3 تحديات رئيسية:

  • يستغرق الوصول إلى البيانات وقتًا طويلاً بسبب لوائح (الخصوصية) أو العمليات الداخلية أو مستودعات البيانات
  • تعمل تقنيات إخفاء الهوية التقليدية على تدمير البيانات ، مما يجعل البيانات لم تعد مناسبة للتحليل والتحليلات المتقدمة (إدخال القمامة = إخراج البيانات من القمامة)
  • الحلول الحالية غير قابلة للتطوير لأنها تعمل بشكل مختلف لكل مجموعة بيانات ولكل نوع بيانات ولا يمكنها التعامل مع قواعد بيانات كبيرة متعددة الجداول

نهج البيانات التركيبية: تطوير نماذج ببيانات تركيبية جيدة كالحقيقة من أجل:

  • قلل من استخدام البيانات الأصلية دون إعاقة مطوريك
  • فتح البيانات الشخصية والوصول إلى المزيد من البيانات التي كانت مقيدة مسبقًا (على سبيل المثال بسبب الخصوصية)
  • وصول سهل وسريع للبيانات إلى البيانات ذات الصلة
  • حل قابل للتطوير يعمل بنفس الطريقة لكل مجموعة بيانات ونوع بيانات وقواعد بيانات ضخمة

يسمح ذلك للمؤسسة ببناء أساس قوي للبيانات مع وصول سهل وسريع إلى بيانات عالية الجودة وقابلة للاستخدام لإلغاء تأمين البيانات والاستفادة من فرص البيانات.

 

حالة الاستخدام 2: بيانات الاختبار التركيبية الذكية لاختبار البرامج وتطويرها وتسليمها

يعد الاختبار والتطوير باستخدام بيانات اختبار عالية الجودة أمرًا ضروريًا لتقديم أحدث الحلول البرمجية. يبدو استخدام بيانات الإنتاج الأصلية واضحًا ، لكن غير مسموح به بسبب لوائح (الخصوصية). لبديل Test Data Management (TDM) تقدم "legacy-by-design"في الحصول على بيانات الاختبار بشكل صحيح:

  • لا تعكس بيانات الإنتاج ولا يتم الاحتفاظ بمنطق العمل والتكامل المرجعي
  • العمل ببطء ويستغرق وقتا طويلا
  • العمل اليدوي مطلوب

نهج البيانات التركيبية: اختبار وتطوير باستخدام بيانات الاختبار الاصطناعية التي تم إنشاؤها بواسطة الذكاء الاصطناعي لتقديم حلول برمجية حديثة وذكية مع:

  • بيانات شبيهة بالإنتاج مع منطق أعمال محفوظ وسلامة مرجعية
  • توليد بيانات سهل وسريع باستخدام أحدث تقنيات الذكاء الاصطناعي
  • الخصوصية حسب التصميم
  • سهل وسريع و agile

يسمح هذا للمؤسسة بالاختبار والتطوير باستخدام بيانات الاختبار من المستوى التالي لتقديم أحدث الحلول البرمجية!

المزيد من المعلومات

مهتم؟ لمزيد من المعلومات حول البيانات التركيبية ، قم بزيارة موقع Syntho على الويب أو اتصل بـ Wim Kees Janssen. لمزيد من المعلومات حول SAS ، قم بزيارة www.sas.com أو اتصل بـ kees@syntho.ai.

في حالة الاستخدام هذه ، تعمل Syntho و SAS و NL AIC معًا لتحقيق النتائج المرجوة. Syntho هو خبير في البيانات التركيبية التي تم إنشاؤها بواسطة AI و SAS هي شركة رائدة في السوق في التحليلات وتقدم برامج لاستكشاف البيانات وتحليلها وتصورها.

* تنبؤات 2021 - استراتيجيات البيانات والتحليلات لإدارة الأعمال الرقمية وتوسيع نطاقها وتحويلها ، Gartner ، 2020.

غطاء دليل سينثو

احفظ دليل البيانات التركيبية الآن!