ارزیابی کاربرد و شباهت در مولدهای داده مصنوعی: یک فرو رفتن عمیق فنی و تجزیه و تحلیل مقایسه ای

تاریخ انتشار:
فوریه 27، 2024

معرفی

در عصر دیجیتال امروز، آگاهی از حریم خصوصی داده ها به طور قابل توجهی افزایش یافته است. کاربران به طور فزاینده ای داده های خود را به عنوان یک اثر انگشت دیجیتال منحصر به فرد می شناسند که در صورت نقض داده ها، حریم خصوصی آنها را به خطر می اندازد. این نگرانی با مقرراتی مانند GDPR تشدید می‌شود که به کاربران اجازه می‌دهد درخواست حذف داده‌های خود را داشته باشند. در حالی که بسیار مورد نیاز است، این قانون می تواند برای شرکت ها بسیار پرهزینه باشد زیرا دسترسی به داده ها به حداقل می رسد. محدودیت‌هایی که غالباً غلبه بر آن‌ها زمان‌بر و زمان‌بر است. 

فهرست مندرجات

مولدهای داده مصنوعی چیست؟

داده های مصنوعی را وارد کنید، راه حلی برای این معماست. مولدهای داده مصنوعی مجموعه داده هایی را ایجاد می کنند که از داده های واقعی کاربر تقلید می کنند و در عین حال ناشناس بودن و محرمانه بودن را حفظ می کنند. این رویکرد در سراسر صنایع، از مراقبت های بهداشتی گرفته تا امور مالی، که در آن حریم خصوصی در اولویت است، در حال افزایش است.  

این پست برای متخصصان و علاقه مندان به داده طراحی شده است و بر ارزیابی مولدهای داده مصنوعی تمرکز دارد. ما به معیارهای کلیدی می پردازیم و تجزیه و تحلیل مقایسه ای بین Syntho's Engine و جایگزین های منبع باز آن انجام می دهیم و بینش هایی را در مورد چگونگی ارزیابی موثر کیفیت راه حل تولید داده های مصنوعی ارائه می دهیم. علاوه بر این، ما همچنین هزینه زمانی هر یک از این مدل ها را ارزیابی خواهیم کرد تا بینش بیشتری در مورد عملکرد مدل ها ارائه دهیم. 

چگونه روش تولید داده مصنوعی مناسب را انتخاب کنیم؟

در چشم‌انداز متنوع تولید داده‌های مصنوعی، روش‌های فراوانی وجود دارد که هر کدام با قابلیت‌های منحصربه‌فرد خود برای جلب توجه رقابت می‌کنند. انتخاب مناسب ترین روش برای یک کاربرد خاص مستلزم درک کامل ویژگی های عملکرد هر گزینه است. این امر مستلزم ارزیابی جامع مولدهای مختلف داده مصنوعی بر اساس مجموعه ای از معیارهای به خوبی تعریف شده برای تصمیم گیری آگاهانه است. 

آنچه در ادامه می‌آید، یک تحلیل مقایسه‌ای دقیق از موتور Syntho در کنار یک چارچوب منبع باز شناخته شده، مخزن داده مصنوعی (SDV) است. در این تحلیل، ما از بسیاری از معیارهای رایج مانند وفاداری آماری، دقت پیش‌بینی و رابطه بین متغیری استفاده کردیم. 

معیارهای ارزیابی داده های مصنوعی

قبل از معرفی هر معیار خاصی، باید اذعان کنیم که ایدئولوژی‌های متعددی در مورد ارزیابی داده‌های ترکیبی وجود دارد که هر یک بینشی نسبت به جنبه خاصی از داده‌ها می‌دهد. با در نظر گرفتن این موضوع، سه دسته زیر به عنوان مهم و جامع برجسته می شوند. این معیارها بینش هایی را در مورد جنبه های مختلف کیفیت داده ها ارائه می دهند. این دسته بندی ها عبارتند از: 

      1. معیارهای وفاداری آماری: بررسی ویژگی های آماری اولیه داده ها، مانند میانگین ها و واریانس ها، برای اطمینان از همسویی داده های مصنوعی با مشخصات آماری مجموعه داده اصلی. 

        1. دقت پیش بینی: بررسی عملکرد مدل تولید داده های مصنوعی، آموزش داده شده با داده های اصلی، و ارزیابی بر روی داده های مصنوعی (Train Real – Test Synthetic، TRTS) و بالعکس (Train Synthetic – Test Real، TSTR) 

          1. روابط بین متغیری: این دسته ترکیبی شامل: 

            • همبستگی ویژگی: ما ارزیابی می کنیم که چگونه داده های مصنوعی روابط بین متغیرها را با استفاده از ضرایب همبستگی حفظ می کنند. یک معیار شناخته شده مانند خطای میانگین مربعات تمایل (PMSE) از این نوع خواهد بود. 

            • اطلاعات متقابل: ما وابستگی های متقابل بین متغیرها را اندازه گیری می کنیم تا عمق این روابط را فراتر از همبستگی ها درک کنیم. 

          تجزیه و تحلیل مقایسه ای: Syntho Engine در مقابل جایگزین های منبع باز

          تجزیه و تحلیل مقایسه‌ای با استفاده از یک چارچوب ارزیابی استاندارد و تکنیک‌های تست یکسان در همه مدل‌ها، از جمله موتورهای Syntho و مدل‌های SDV انجام شد. با ترکیب مجموعه‌های داده از منابع یکسان و قرار دادن آن‌ها در آزمایش‌های آماری مشابه و ارزیابی‌های مدل یادگیری ماشین، از مقایسه منصفانه و بی‌طرفانه اطمینان حاصل می‌کنیم. بخش زیر به جزئیات عملکرد هر تولید کننده داده مصنوعی در محدوده معیارهای ارائه شده در بالا می‌پردازد.  

           

          در مورد مجموعه داده مورد استفاده برای ارزیابی، ما از آن استفاده کردیم مجموعه داده های سرشماری بزرگسالان UCI که یک مجموعه داده شناخته شده در جامعه یادگیری ماشینی است. ما داده ها را قبل از تمام آموزش ها تمیز کردیم و سپس مجموعه داده را به دو مجموعه (یک مجموعه آموزشی و یک مجموعه نگهدارنده برای آزمایش) تقسیم کردیم. ما از مجموعه آموزشی برای تولید 1 میلیون نقطه داده جدید با هر یک از مدل‌ها استفاده کردیم و معیارهای مختلفی را روی این مجموعه داده‌های تولید شده ارزیابی کردیم. برای ارزیابی‌های بیشتر یادگیری ماشین، از مجموعه نگه‌داری برای ارزیابی معیارهایی مانند موارد مربوط به TSTR و TRTS استفاده کردیم.  

           

          هر ژنراتور با پارامترهای پیش فرض اجرا شد. از آنجایی که برخی از مدل‌ها، مانند Syntho، می‌توانند خارج از جعبه روی هر داده جدولی کار کنند، هیچ تنظیم دقیقی انجام نشد. جستجوی فراپارامترهای مناسب برای هر مدل زمان قابل توجهی را می طلبد و جدول 2 قبلاً تفاوت زمانی زیادی را بین مدل Syntho و مدل های آزمایش شده نشان می دهد. 

           

          قابل ذکر است که برخلاف بقیه مدل‌ها در SDV، سینتی‌سایزر کوپولای گاوسی بر اساس روش‌های آماری است. در مقابل، بقیه مبتنی بر شبکه‌های عصبی مانند مدل‌های شبکه‌های متخاصم مولد (GAN) و رمزگذارهای خودکار متغیر هستند. به همین دلیل است که کوپولای گاوسی را می توان به عنوان یک خط پایه برای همه مدل های مورد بحث در نظر گرفت. 

          نتایج

          کیفیت داده

          شکل 1. تجسم نتایج کیفیت پایه برای همه مدل ها

          پایبندی هایی که قبلاً به روندها و بازنمایی در داده ها پرداخته شد را می توان در شکل 1 و جدول 1 یافت. در اینجا، هر یک از معیارهای مورد استفاده را می توان به صورت زیر تفسیر کرد:

          • امتیاز کیفیت کلی: ارزیابی کلی کیفیت داده های مصنوعی، ترکیبی از جنبه های مختلف مانند شباهت آماری و ویژگی های داده ها. 
          • شکل‌های ستونی: ارزیابی می‌کند که آیا داده‌های مصنوعی همان شکل توزیع را با داده‌های واقعی برای هر ستون حفظ می‌کنند. 
          • گرایش های جفت ستونی: رابطه یا همبستگی بین جفت ستون ها را در داده های مصنوعی در مقایسه با داده های واقعی ارزیابی می کند. 
          •  

          به طور کلی، می توان متوجه شد که Syntho به نمرات بسیار بالایی در سراسر صفحه دست می یابد. برای شروع، وقتی به کیفیت کلی داده ها نگاه می کنیم (ارزیابی شده با کتابخانه معیارهای SDV)، Syntho می تواند به نتیجه ای بالاتر از 99٪ (با پایبندی شکل ستون 99.92٪ و پایبندی به شکل جفت ستون 99.31٪) دست یابد. این در حالی است که SDV حداکثر 90.84% ​​را به دست می‌آورد (با Gaussian Copula که دارای پایبندی شکل ستونی 93.82% و پایبندی به شکل جفت ستون 87.86%) است. 

          نمایش جدولی از نمرات کیفیت هر مجموعه داده تولید شده در هر مدل

          جدول 1. نمایش جدولی از نمرات کیفیت هر مجموعه داده تولید شده در هر مدل 

          پوشش داده ها

          ماژول گزارش تشخیص SDV توجه ما را جلب می کند که داده های تولید شده توسط SDV (در همه موارد) بیش از 10٪ از محدوده های عددی را از دست داده اند. در مورد رمزگذار خودکار متغیر مبتنی بر سه‌گانه (TVAE)، همان مقدار داده‌های طبقه‌بندی نیز در مقایسه با مجموعه داده اصلی وجود ندارد. هیچ هشداری با نتایج به دست آمده با استفاده از Syntho ایجاد نشد.  

          تجسم معیارهای میانگین عملکرد ستونی برای همه مدل ها
           
           

          شکل 2. تجسم معیارهای میانگین عملکرد ستونی برای همه مدل ها 

          در تجزیه و تحلیل مقایسه ای، نمودار شکل 2 نشان می دهد که آرشیوهای SDV در پوشش مقوله با برخی از مدل هایشان (به عنوان مثال با GaussianCopula، CopulaGAN و Conditional Tabular GAN - CTGAN) نتایج اندکی بهتر نشان می دهند. با این وجود، مهم است که تأکید کنیم که قابلیت اطمینان داده‌های Syntho از مدل‌های SDV پیشی می‌گیرد، زیرا اختلاف در پوشش در بین دسته‌ها و محدوده‌ها حداقل است و تنها 1.1 درصد واریانس را نشان می‌دهد. در مقابل، مدل‌های SDV تنوع قابل‌توجهی را نشان می‌دهند که از 14.6٪ تا 29.2٪ متغیر است. 

           

          معیارهای ارائه شده در اینجا را می توان به صورت زیر تفسیر کرد: 

          • پوشش دسته: حضور همه دسته ها را در داده های مصنوعی در مقایسه با داده های واقعی اندازه گیری می کند.
          • پوشش محدوده: ارزیابی می کند که محدوده مقادیر در داده های مصنوعی چقدر با داده های واقعی مطابقت دارد. 
          یک نمایش جدولی از میانگین پوشش یک نوع مشخصه معین در هر مدل

          جدول 2. نمایش جدولی از میانگین پوشش یک نوع مشخصه معین در هر مدل 

          سودمندی

          با رفتن به مبحث سودمندی داده های مصنوعی، موضوع مدل های آموزشی بر روی داده ها مرتبط می شود. برای داشتن یک مقایسه متعادل و منصفانه بین همه فریم ورک‌ها، طبقه‌بندی‌کننده تقویت گرادیان پیش‌فرض را از کتابخانه SciKit Learn انتخاب کرده‌ایم، زیرا به‌عنوان مدلی با عملکرد خوب با تنظیمات خارج از جعبه پذیرفته شده است.  

           

          دو مدل مختلف آموزش داده شده اند، یکی بر روی داده های مصنوعی (برای TSTR) و دیگری بر روی داده های اصلی (برای TRTS). مدل آموزش‌دیده بر روی داده‌های مصنوعی با استفاده از مجموعه آزمون نگهدارنده (که در طول تولید داده‌های مصنوعی استفاده نشد) ارزیابی می‌شود و مدل آموزش‌دیده بر روی داده‌های اصلی بر روی مجموعه داده مصنوعی آزمایش می‌شود.  

          تجسم نمرات منطقه زیر منحنی (AUC) در هر روش در هر مدل

          شکل 3. تجسم امتیازات ناحیه زیر منحنی (AUC) در هر روش در هر مدل 

           نتایج نشان‌دهنده برتری تولید داده‌های مصنوعی توسط موتور Syntho در مقایسه با روش‌های دیگر است، زیرا تفاوتی بین نتایج به‌دست‌آمده از روش‌های مختلف وجود ندارد (اشاره به شباهت زیاد بین داده‌های مصنوعی و واقعی). همچنین، خط نقطه قرمز موجود در نمودار، نتیجه‌ای است که با ارزیابی عملکرد پایه یک آزمون Train Real, Test Real (TRTR) به‌دست می‌آید تا یک خط پایه برای معیارهای مشاهده‌شده ارائه شود. این خط مقدار 0.92 را نشان می‌دهد، که امتیاز ناحیه زیر منحنی (AUC امتیاز) است که توسط مدل آموزش داده شده بر روی داده‌های واقعی و آزمایش شده بر روی داده‌های واقعی به دست می‌آید. 

          نمایش جدولی از نمرات AUC به دست آمده توسط TRTS و TSTR به ترتیب در هر مدل.

          جدول 3. نمایش جدولی از نمرات AUC به دست آمده توسط TRTS و TSTR به ترتیب در هر مدل. 

          مقایسه زمانی عاقلانه

          به طور طبیعی، در نظر گرفتن زمان صرف شده برای تولید این نتایج بسیار مهم است. تجسم زیر دقیقاً این را نشان می دهد.

          تجسم زمان صرف شده برای آموزش و انجام تولید داده مصنوعی از یک میلیون نقطه داده با یک مدل با و بدون GPU.

          شکل 5. تجسم زمان صرف شده برای تمرین و اجرا تولید داده های مصنوعی یک میلیون نقطه داده با یک مدل با و بدون GPU. 

          شکل 5 زمان صرف شده برای تولید داده های مصنوعی را در دو تنظیمات مختلف نشان می دهد. اولین مورد (که در اینجا بدون GPU نامیده می‌شود)، آزمایش‌هایی بود که روی سیستمی با پردازنده Intel Xeon با 16 هسته با فرکانس 2.20 گیگاهرتز اجرا می‌شد. آزمایش‌هایی که با عنوان «اجرا شده با GPU» مشخص شده‌اند، روی سیستمی با پردازنده AMD Ryzen 9 7945HX با 16 هسته با فرکانس 2.5 گیگاهرتز و پردازنده گرافیکی لپ‌تاپ NVIDIA GeForce RTX 4070 انجام شد. همانطور که در شکل 2 و جدول 2 زیر قابل توجه است، می توان مشاهده کرد که Syntho به طور قابل توجهی در تولید داده های مصنوعی (در هر دو سناریو) سریعتر است که در یک گردش کار پویا بسیار مهم است. 

          جدولی که زمان تولید داده مصنوعی 1 میلیون نقطه داده با هر مدل با و بدون GPU را نشان می دهد.

          جدول 5. نمایش جدولی از زمان صرف شده به تولید داده های مصنوعی یک میلیون نقطه داده با هر مدل با و بدون GPU 

          اظهارات پایانی و جهت گیری های آینده 

          یافته‌ها بر اهمیت ارزیابی کیفیت کامل در انتخاب روش تولید داده‌های مصنوعی مناسب تأکید می‌کنند. Syntho's Engine، با رویکرد مبتنی بر هوش مصنوعی، نقاط قوت قابل توجهی را در معیارهای خاص نشان می‌دهد، در حالی که ابزارهای منبع باز مانند SDV در تطبیق‌پذیری و پیشرفت‌های مبتنی بر جامعه می‌درخشند. 

          همانطور که حوزه داده های مصنوعی همچنان در حال تکامل است، ما شما را تشویق می کنیم که این معیارها را در پروژه های خود اعمال کنید، پیچیدگی های آنها را بررسی کنید و تجربیات خود را به اشتراک بگذارید. منتظر پست های بعدی باشید که در آن به سایر معیارها عمیق تر خواهیم پرداخت و نمونه های واقعی کاربرد آنها را برجسته خواهیم کرد. 

          در پایان روز، برای کسانی که به دنبال آزمایش آب بر روی داده های مصنوعی هستند، جایگزین منبع باز ارائه شده می تواند با توجه به قابلیت دسترسی، یک انتخاب قابل توجیه باشد. با این حال، برای متخصصانی که این فناوری مدرن را در فرآیند توسعه خود وارد می‌کنند، باید از هر فرصتی برای بهبود استفاده کرد و از همه موانع اجتناب کرد. بنابراین مهم است که بهترین گزینه موجود را انتخاب کنید. با تجزیه و تحلیل های ارائه شده در بالا کاملاً آشکار می شود که Syntho و با آن Syntho Engine ابزار بسیار توانمندی برای پزشکان است. 

          درباره سینتو

          سینتو یک پلت فرم تولید داده مصنوعی هوشمند را فراهم می کند، از چندین فرم داده مصنوعی و روش های تولید استفاده می کند، و سازمان ها را قادر می سازد تا داده ها را هوشمندانه به یک مزیت رقابتی تبدیل کنند. داده‌های مصنوعی تولید شده توسط هوش مصنوعی ما الگوهای آماری داده‌های اصلی را تقلید می‌کند و از دقت، حریم خصوصی و سرعت اطمینان می‌دهد، همانطور که توسط کارشناسان خارجی مانند SAS ارزیابی می‌شود. با ویژگی‌های شناسایی هوشمند و نقشه‌برداری مداوم، اطلاعات حساس با حفظ یکپارچگی ارجاعی محافظت می‌شوند. پلتفرم ما ایجاد، مدیریت و کنترل داده‌های آزمایشی را برای محیط‌های غیرتولیدی، با استفاده از روش‌های تولید داده مصنوعی مبتنی بر قوانین برای سناریوهای هدفمند، امکان‌پذیر می‌سازد. علاوه بر این، کاربران می‌توانند داده‌های مصنوعی را به صورت برنامه‌نویسی تولید کنند و داده‌های آزمایشی واقعی را به دست آورند تا به راحتی سناریوهای آزمایش و توسعه جامع را توسعه دهند.  

          آیا می خواهید کاربردهای عملی بیشتری از داده های مصنوعی بیاموزید؟ در صورت تمایل به برنامه نمایشی برنامه ریزی!

          درباره نویسندگان

          کارآموز مهندسی نرم افزار

          روهam دانشجوی لیسانس در دانشگاه صنعتی دلفت و کارآموز مهندسی نرم افزار در سینتو 

          مهندس مکانیک

          میهای دکترای خود را از دانشگاه دریافت کرد دانشگاه بریستول با موضوع یادگیری تقویتی سلسله مراتبی کاربردی در رباتیک و یک مهندس یادگیری ماشین الفt سینتو. 

          پوشش راهنمای syntho

          اکنون راهنمای داده های مصنوعی خود را ذخیره کنید!