داده های ناشناس در مقابل داده های مصنوعی

اگر قبل از انجام آزمایش داده‌های تجزیه و تحلیل داده‌ها، داده‌های خود را ناشناس کنید، چندین عامل در بازی وجود دارد:

  1. تقریباً در همه موارد، داده‌های ناشناس را می‌توان به دلیل ردیف‌های خاص و منحصربه‌فرد (مانند سوابق پزشکی) به افراد ردیابی کرد.
  2. هر چه بیشتر ناشناس یا تعمیم دهید، داده های بیشتری را از بین می برید. این باعث کاهش کیفیت داده ها و در نتیجه بینش شما می شود
  3. ناشناس سازی برای فرمت های مختلف داده متفاوت عمل می کند. این بدان معنی است که مقیاس پذیر نیست و می تواند بسیار وقت گیر باشد

داده های مصنوعی تمام این کاستی ها و موارد دیگر را برطرف می کند. ویدئوی زیر را تماشا کنید تا ببینید یک متخصص تجزیه و تحلیل از SAS (پیشرو بازار جهانی در تجزیه و تحلیل) در مورد ارزیابی خود در مورد تفاوت کیفیت بین داده های اصلی، داده های ناشناس و داده های مصنوعی تولید شده توسط Syntho توضیح می دهد.

این ویدیو از کافه Syntho x SAS D[N]A درباره داده‌های مصنوعی تولید شده توسط هوش مصنوعی گرفته شده است. ویدیوی کامل را اینجا بیابید.

Edwin van Unen یک مجموعه داده اصلی را برای Syntho ارسال کرد و ما مجموعه داده را سنتز کردیم. اما سوال این بود: "اگر داده های مصنوعی را با داده های ناشناس مقایسه کنیم چه اتفاقی می افتد؟" از آنجایی که شما اطلاعات زیادی را در یک داده ناشناس از دست می دهید، آیا در هنگام ترکیب یک مجموعه داده نیز این اتفاق می افتد؟ ما با یک مجموعه داده از صنعت ارتباطات راه دور با 56.000 ردیف و 128 ستون از اطلاعات شرکت شروع کردیم. این مجموعه داده هم سنتز و هم ناشناس شد، بنابراین ادوین می‌توانست ترکیب‌سازی را با ناشناس‌سازی مقایسه کند. سپس، ادوین با استفاده از SAS Viya شروع به مدل سازی کرد. او با استفاده از تکنیک‌های رگرسیون کلاسیک و درخت‌های تصمیم‌گیری، و همچنین از تکنیک‌های پیچیده‌تر مانند شبکه‌های عصبی، تقویت گرادیان، جنگل تصادفی – این نوع تکنیک‌ها، چند مدل برگرداندن روی مجموعه داده اصلی ساخت. استفاده از گزینه های استاندارد SAS Viya هنگام ساخت مدل ها.

سپس، نوبت به بررسی نتایج رسید. نتایج برای داده‌های مصنوعی و نه برای ناشناس‌سازی بسیار امیدوارکننده بود. برای متخصصان غیر ماشینی در مخاطبان، ما به ناحیه زیر منحنی ROC نگاه می کنیم که چیزی در مورد دقت مدل می گوید. با مقایسه داده های اصلی با داده های ناشناس، می بینیم که مدل داده اصلی دارای مساحت زیر منحنی ROC 8 است که بسیار خوب است، با این حال، داده های ناشناس دارای مساحت زیر منحنی ROC 6 هستند. این بدان معناست که ما اطلاعات زیادی را با مدل ناشناس از دست می دهیم، بنابراین شما قدرت پیش بینی زیادی را از دست می دهید.

اما سوال اینجاست که در مورد داده های مصنوعی چطور؟ در اینجا، ما دقیقاً همین کار را انجام دادیم، اما به جای ناشناس کردن داده ها، Syntho داده ها را ترکیب کرد. اکنون، می بینیم که هم داده های اصلی و هم داده های مصنوعی دارای ناحیه ای زیر منحنی ROC 8 هستند که بسیار شبیه است. به دلیل تنوع دقیقاً یکسان نیست، اما بسیار شبیه است. این بدان معناست که پتانسیل داده های مصنوعی بسیار امیدوارکننده است - ادوین از این بابت بسیار خوشحال است.

گروهی از مردم که لبخند می زنند

داده ها مصنوعی هستند، اما تیم ما واقعی است!

با سینتو تماس بگیرید و یکی از کارشناسان ما با سرعت نور با شما تماس می گیرد تا ارزش داده های مصنوعی را کشف کند!