البيانات مجهولة المصدر مقابل البيانات الاصطناعية

إذا قمت بإخفاء هوية بياناتك قبل إجراء اختبار البيانات لتحليلات البيانات ، فهناك عدة عوامل تلعب دورًا:

  1. في جميع الحالات تقريبًا ، لا يزال من الممكن تتبع البيانات مجهولة المصدر إلى الأفراد بسبب صفوف محددة وفريدة من نوعها (مثل السجلات الطبية)
  2. كلما قمت بإخفاء هويتك أو تعميمها ، زادت البيانات التي تدمرها. هذا يقلل من جودة بياناتك ومن ثم رؤيتك
  3. يعمل إخفاء الهوية بشكل مختلف مع تنسيقات البيانات المختلفة. هذا يعني أنه غير قابل للتطوير ويمكن أن يستغرق وقتًا طويلاً

البيانات التركيبية تحل كل هذه العيوب وأكثر. شاهد الفيديو أدناه لمشاهدة أحد خبراء التحليلات من SAS (الشركة الرائدة في السوق العالمية في التحليلات) يشرح حول تقييمه للاختلاف في الجودة بين البيانات الأصلية والبيانات مجهولة المصدر والبيانات التركيبية التي تم إنشاؤها بواسطة Syntho.

تم التقاط هذا الفيديو من Syntho x SAS D [N] مقهى حول البيانات الاصطناعية التي يتم إنشاؤها بواسطة الذكاء الاصطناعي. ابحث عن الفيديو الكامل هنا.

أرسل Edwin van Unen مجموعة بيانات أصلية إلى Syntho وقمنا بتجميع مجموعة البيانات. لكن السؤال كان أيضًا: "ماذا سيحدث إذا قارنا البيانات التركيبية بالبيانات مجهولة المصدر؟" لأنك تفقد الكثير من المعلومات في بيانات مجهولة المصدر ، فهل سيحدث هذا أيضًا عند تركيب مجموعة بيانات؟ بدأنا بمجموعة بيانات من صناعة الاتصالات تضم 56.000 صفًا و 128 عمودًا من معلومات الشركة المتضاربة. تم تصنيع مجموعة البيانات هذه وإخفاء هويتها حتى يتمكن إدوين من مقارنة التوليف مع إخفاء الهوية. بعد ذلك ، بدأ Edwin النمذجة باستخدام SAS Viya. قام ببناء نموذجين على مجموعة البيانات الأصلية ، باستخدام تقنيات الانحدار الكلاسيكية وأشجار القرار ، ولكن أيضًا تقنيات أكثر تعقيدًا مثل الشبكات العصبية ، وتعزيز التدرج ، والغابات العشوائية - هذه الأنواع من التقنيات. استخدام خيارات SAS Viya القياسية عند بناء النماذج.

ثم حان الوقت للنظر في النتائج. كانت النتائج واعدة للغاية بالنسبة للبيانات التركيبية وليس لإخفاء الهوية. بالنسبة لخبراء التعلم غير الآلي في الجمهور ، فإننا ننظر إلى المنطقة الواقعة تحت منحنى ROC والتي تخبر شيئًا عن دقة النموذج. بمقارنة البيانات الأصلية بالبيانات مجهولة المصدر ، نرى أن نموذج البيانات الأصلي يحتوي على منطقة تحت منحنى ROC تبلغ 8 ، وهو أمر جيد جدًا ، ومع ذلك ، فإن البيانات المجهولة المصدر لها منطقة تحت منحنى ROC تبلغ 6. هذا يعني أننا نفقد الكثير من المعلومات مع النموذج المجهول الهوية لذلك تفقد الكثير من القدرة على التنبؤ.

ولكن بعد ذلك ، السؤال هو ماذا عن بيانات المواد التركيبية؟ هنا ، فعلنا الشيء نفسه تمامًا ولكن بدلاً من إخفاء هوية البيانات ، قام Syntho بتجميع البيانات. الآن ، نرى أن كلاً من البيانات الأصلية والبيانات التركيبية لها مساحة تحت منحنى ROC بقيمة 8 ، وهو مشابه جدًا. ليس بالضبط نفس الشيء بسبب التباين ، ولكنه متشابه جدًا. هذا يعني أن إمكانات البيانات التركيبية واعدة للغاية - إدوين سعيد جدًا بهذا الأمر.

مجموعة من الناس يبتسمون

البيانات مصطنعة، لكن فريقنا حقيقي!

الاتصال Syntho وسيتواصل معك أحد خبرائنا بسرعة الضوء لاستكشاف قيمة البيانات التركيبية!