اگر قبل از انجام آزمایش دادههای تجزیه و تحلیل دادهها، دادههای خود را ناشناس کنید، چندین عامل در بازی وجود دارد:
داده های مصنوعی تمام این کاستی ها و موارد دیگر را برطرف می کند. ویدئوی زیر را تماشا کنید تا ببینید یک متخصص تجزیه و تحلیل از SAS (پیشرو بازار جهانی در تجزیه و تحلیل) در مورد ارزیابی خود در مورد تفاوت کیفیت بین داده های اصلی، داده های ناشناس و داده های مصنوعی تولید شده توسط Syntho توضیح می دهد.
این ویدیو از کافه Syntho x SAS D[N]A درباره دادههای مصنوعی تولید شده توسط هوش مصنوعی گرفته شده است. ویدیوی کامل را اینجا بیابید.
Edwin van Unen یک مجموعه داده اصلی را برای Syntho ارسال کرد و ما مجموعه داده را سنتز کردیم. اما سوال این بود: "اگر داده های مصنوعی را با داده های ناشناس مقایسه کنیم چه اتفاقی می افتد؟" از آنجایی که شما اطلاعات زیادی را در یک داده ناشناس از دست می دهید، آیا در هنگام ترکیب یک مجموعه داده نیز این اتفاق می افتد؟ ما با یک مجموعه داده از صنعت ارتباطات راه دور با 56.000 ردیف و 128 ستون از اطلاعات شرکت شروع کردیم. این مجموعه داده هم سنتز و هم ناشناس شد، بنابراین ادوین میتوانست ترکیبسازی را با ناشناسسازی مقایسه کند. سپس، ادوین با استفاده از SAS Viya شروع به مدل سازی کرد. او با استفاده از تکنیکهای رگرسیون کلاسیک و درختهای تصمیمگیری، و همچنین از تکنیکهای پیچیدهتر مانند شبکههای عصبی، تقویت گرادیان، جنگل تصادفی – این نوع تکنیکها، چند مدل برگرداندن روی مجموعه داده اصلی ساخت. استفاده از گزینه های استاندارد SAS Viya هنگام ساخت مدل ها.
سپس، نوبت به بررسی نتایج رسید. نتایج برای دادههای مصنوعی و نه برای ناشناسسازی بسیار امیدوارکننده بود. برای متخصصان غیر ماشینی در مخاطبان، ما به ناحیه زیر منحنی ROC نگاه می کنیم که چیزی در مورد دقت مدل می گوید. با مقایسه داده های اصلی با داده های ناشناس، می بینیم که مدل داده اصلی دارای مساحت زیر منحنی ROC 8 است که بسیار خوب است، با این حال، داده های ناشناس دارای مساحت زیر منحنی ROC 6 هستند. این بدان معناست که ما اطلاعات زیادی را با مدل ناشناس از دست می دهیم، بنابراین شما قدرت پیش بینی زیادی را از دست می دهید.
اما سوال اینجاست که در مورد داده های مصنوعی چطور؟ در اینجا، ما دقیقاً همین کار را انجام دادیم، اما به جای ناشناس کردن داده ها، Syntho داده ها را ترکیب کرد. اکنون، می بینیم که هم داده های اصلی و هم داده های مصنوعی دارای ناحیه ای زیر منحنی ROC 8 هستند که بسیار شبیه است. به دلیل تنوع دقیقاً یکسان نیست، اما بسیار شبیه است. این بدان معناست که پتانسیل داده های مصنوعی بسیار امیدوارکننده است - ادوین از این بابت بسیار خوشحال است.
با سینتو تماس بگیرید و یکی از کارشناسان ما با سرعت نور با شما تماس می گیرد تا ارزش داده های مصنوعی را کشف کند!