داده های ناشناس در مقابل داده های مصنوعی

اگر قبل از انجام آزمایش داده‌های تجزیه و تحلیل داده‌ها، داده‌های خود را ناشناس کنید، چندین عامل در بازی وجود دارد:

تقریباً در همه موارد، داده‌های ناشناس را می‌توان به دلیل ردیف‌های خاص و منحصربه‌فرد (مانند سوابق پزشکی) به افراد ردیابی کرد.
هر چه بیشتر ناشناس یا تعمیم دهید، داده های بیشتری را از بین می برید. این باعث کاهش کیفیت داده ها و در نتیجه بینش شما می شود
ناشناس سازی برای فرمت های مختلف داده متفاوت عمل می کند. این بدان معنی است که مقیاس پذیر نیست و می تواند بسیار وقت گیر باشد

داده های مصنوعی تمام این کاستی ها و موارد دیگر را برطرف می کند. ویدئوی زیر را تماشا کنید تا ببینید یک متخصص تجزیه و تحلیل از SAS (پیشرو بازار جهانی در تجزیه و تحلیل) در مورد ارزیابی خود در مورد تفاوت کیفیت بین داده های اصلی، داده های ناشناس و داده های مصنوعی تولید شده توسط Syntho توضیح می دهد.

این ویدیو از کافه Syntho x SAS D[N]A درباره داده‌های مصنوعی تولید شده توسط هوش مصنوعی گرفته شده است. ویدیوی کامل را اینجا بیابید.

Edwin van Unen یک مجموعه داده اصلی را برای Syntho ارسال کرد و ما مجموعه داده را سنتز کردیم. اما سوال این بود: "اگر داده های مصنوعی را با داده های ناشناس مقایسه کنیم چه اتفاقی می افتد؟" از آنجایی که شما اطلاعات زیادی را در یک داده ناشناس از دست می دهید، آیا در هنگام ترکیب یک مجموعه داده نیز این اتفاق می افتد؟ ما با یک مجموعه داده از صنعت ارتباطات راه دور با 56.000 ردیف و 128 ستون از اطلاعات شرکت شروع کردیم. این مجموعه داده هم سنتز و هم ناشناس شد، بنابراین ادوین می‌توانست ترکیب‌سازی را با ناشناس‌سازی مقایسه کند. سپس، ادوین با استفاده از SAS Viya شروع به مدل سازی کرد. او با استفاده از تکنیک‌های رگرسیون کلاسیک و درخت‌های تصمیم‌گیری، و همچنین از تکنیک‌های پیچیده‌تر مانند شبکه‌های عصبی، تقویت گرادیان، جنگل تصادفی – این نوع تکنیک‌ها، چند مدل برگرداندن روی مجموعه داده اصلی ساخت. استفاده از گزینه های استاندارد SAS Viya هنگام ساخت مدل ها.

سپس، نوبت به بررسی نتایج رسید. نتایج برای داده‌های مصنوعی و نه برای ناشناس‌سازی بسیار امیدوارکننده بود. برای متخصصان غیر ماشینی در مخاطبان، ما به ناحیه زیر منحنی ROC نگاه می کنیم که چیزی در مورد دقت مدل می گوید. با مقایسه داده های اصلی با داده های ناشناس، می بینیم که مدل داده اصلی دارای مساحت زیر منحنی ROC 8 است که بسیار خوب است، با این حال، داده های ناشناس دارای مساحت زیر منحنی ROC 6 هستند. این بدان معناست که ما اطلاعات زیادی را با مدل ناشناس از دست می دهیم، بنابراین شما قدرت پیش بینی زیادی را از دست می دهید.

اما سوال اینجاست که در مورد داده های مصنوعی چطور؟ در اینجا، ما دقیقاً همین کار را انجام دادیم، اما به جای ناشناس کردن داده ها، Syntho داده ها را ترکیب کرد. اکنون، می بینیم که هم داده های اصلی و هم داده های مصنوعی دارای ناحیه ای زیر منحنی ROC 8 هستند که بسیار شبیه است. به دلیل تنوع دقیقاً یکسان نیست، اما بسیار شبیه است. این بدان معناست که پتانسیل داده های مصنوعی بسیار امیدوارکننده است - ادوین از این بابت بسیار خوشحال است.

داده ها مصنوعی هستند، اما تیم ما واقعی است!

با سینتو تماس بگیرید و یکی از کارشناسان ما با سرعت نور با شما تماس می گیرد تا ارزش داده های مصنوعی را کشف کند!

داده های مصنوعی چیست؟

گزارش تضمین کیفیت

ارزیابی خارجی توسط SAS

داده های مصنوعی سری زمانی

اسکنر PII

داده های مصنوعی مصنوعی

نقشه برداری منسجم

شناسایی و سنتز کردن

داده های مصنوعی مبتنی بر قانون

زیر مجموعه

استقرار و ادغام

اتصالات

ویژگی های توسعه یافته

داده های پشتیبانی شده

مستندات کاربر

نمایش نسخه ی نمایشی

قیمت گذاری

داده های مصنوعی به عنوان داده های آزمایش

داده های مصنوعی برای تجزیه و تحلیل

داده های مصنوعی برای به اشتراک گذاری داده ها

داده های مصنوعی برای نسخه ی نمایشی محصول

بهداشت و درمان

دارایی

سازمان های عمومی

مستندات کاربر

کاغذهای سفید و راهنماها

بلاگ

Webinars

مطالعات موردی

قیمت گذاری

درباره ما

فرصت های شغلی

داده های ناشناس در مقابل داده های مصنوعی

داده ها مصنوعی هستند، اما تیم ما واقعی است!

آنچه ما انجام می دهیم

شرکت

منابع

خبرنامه Syntho

منوی اصلی