Evaluasi Utilitas lan Kemiripan ing Generator Data Sintetis: Penyelaman Teknis lan Analisis Komparatif

Diterbitake:
Februari 27, 2024

Pambuka

Ing jaman digital saiki, kesadaran privasi data saya tambah akeh. Pangguna tambah akeh ngerteni data kasebut minangka sidik jari digital sing unik, nyebabake risiko privasi yen ana pelanggaran data. Keprigelan iki luwih digedhekake dening peraturan kaya GDPR, sing ngidini pangguna njaluk pambusakan data. Nalika akeh sing dibutuhake, undang-undang iki bisa larang banget kanggo perusahaan amarga akses menyang data diminimalisir; watesan sing asring wektu- lan sumber daya-akeh kanggo ngatasi. 

Bab lan Paragraf

Apa generator data sintetik?

Ketik data sintetik, solusi kanggo teka-teki iki. Generator data sintetis nggawe set data sing niru data pangguna nyata nalika njaga anonimitas lan rahasia. Pendekatan iki entuk daya tarik ing kabeh industri, saka perawatan kesehatan nganti keuangan, sing paling penting privasi.  

Kiriman iki dirancang kanggo para profesional lan penggemar data, fokus ing evaluasi generator data sintetik. Kita bakal nyelidiki metrik utama lan nganakake analisis komparatif antarane Syntho's Engine lan alternatif open-source, menehi wawasan babagan cara efektif netepake kualitas solusi saka generasi data sintetik. Salajengipun, kita uga bakal ngevaluasi biaya wektu saben model kasebut kanggo menehi wawasan luwih lengkap babagan cara kerja model kasebut. 

Kepiye cara milih cara nggawe data sintetik sing bener?

Ing macem-macem lanskap generasi data sintetik, ana akeh cara sing kasedhiya, saben vying kanggo manungsa waé kanthi kemampuan unik. Milih cara sing paling cocok kanggo aplikasi tartamtu mbutuhake pangerten lengkap babagan karakteristik kinerja saben pilihan. Iki mbutuhake evaluasi lengkap saka macem-macem generator data sintetik adhedhasar sakumpulan metrik sing wis ditemtokake kanthi apik kanggo nggawe keputusan sing tepat. 

Ing ngisor iki ana analisis komparatif sing ketat saka Syntho Engine bebarengan karo kerangka open-source sing kondhang, Synthetic Data Vault (SDV). Ing analisis iki, kita nggunakake akeh metrik sing umum digunakake kayata kasetyan statistik, akurasi prediktif lan hubungan antar-variabel. 

Metrik Evaluasi Data Sintetis

Sadurunge ngenalake metrik tartamtu, kita kudu ngakoni manawa ana akeh ideologi babagan ngevaluasi data Sintetis, sing saben-saben menehi wawasan babagan aspek data tartamtu. Kanthi atine, telung kategori ing ngisor iki dadi penting lan lengkap. Metrik kasebut nyedhiyakake wawasan babagan macem-macem aspek kualitas data. Kategori kasebut yaiku: 

      1. Metrik Fidelity Statistik: Nliti fitur statistik dhasar data, kayata sarana lan variasi, kanggo mesthekake data sintetik selaras karo profil statistik dataset asli. 

        1. Akurasi prediksi: Nliti kinerja model generasi data sintetik, dilatih nganggo data asli, lan dievaluasi ing data sintetik (Train Real - Test Synthetic, TRTS) lan kosok balene (Train Synthetic - Test Real, TSTR) 

          1. Hubungan Antar Variabel: Kategori gabungan iki kalebu: 

            • Korelasi Fitur: Kita netepake carane data sintetik njaga hubungan antarane variabel nggunakake koefisien korelasi. Metrik sing kondhang kaya Propensity Mean Squared Error (PMSE) bakal dadi jinis iki. 

            • Informasi mutual: Kita ngukur katergantungan bebarengan antarane variabel kanggo mangerteni ambane hubungan kasebut ngluwihi korélasi. 

          Analisis Komparatif: Syntho Engine vs. Alternatif Open-Source

          Analisis komparatif ditindakake kanthi nggunakake kerangka evaluasi standar lan teknik pengujian sing padha ing kabeh model, kalebu Syntho Engine lan model SDV. Kanthi sintesis dataset saka sumber sing padha lan tundhuk tes statistik lan evaluasi model pembelajaran mesin sing padha, kita njamin perbandingan sing adil lan ora bias. Bagean sing nderek rincian kinerja saben generator data sintetik ing sawetara metrik sing ditampilake ing ndhuwur.  

           

          Minangka kanggo dataset sing digunakake kanggo evaluasi, kita nggunakake Dataset Sensus Dewasa UCI yaiku dataset sing kondhang ing komunitas pembelajaran mesin. Kita ngresiki data sadurunge kabeh latihan lan banjur pamisah dataset dadi rong set (latihan lan set holdout kanggo testing). Kita nggunakake set latihan kanggo ngasilake 1 yuta titik data anyar karo saben model lan ngevaluasi macem-macem metrik ing set data sing digawe iki. Kanggo evaluasi machine learning luwih, kita nggunakake set holdout kanggo ngevaluasi metrik kayata sing ana gandhengane karo TSTR lan TRTS.  

           

          Saben generator wis mbukak karo paramèter gawan. Amarga sawetara model, kaya Syntho, bisa digunakake ing data tabular apa wae, ora ana tuning sing apik. Nggoleki hyperparameters sing tepat kanggo saben model bakal mbutuhake wektu sing akeh, lan Tabel 2 wis nuduhake prabédan wektu gedhe antarane model Syntho lan sing diuji. 

           

          Wigati dimangerteni manawa minangka lawan saka model liyane ing SDV, Gaussian Copula Synthesizer adhedhasar metode statistik. Ing kontras, liyane adhedhasar jaringan saraf kayata model Generative Adversarial Networks (GAN) lan auto-enkoder variasi. Mulane Gaussian Copula bisa dideleng minangka garis dasar kanggo kabeh model sing dibahas. 

          results

          Kualitas Data

          Gambar 1. Visualisasi asil kualitas dhasar kanggo kabeh model

          Ketaatan sing wis dibahas sadurunge kanggo tren lan perwakilan ing data bisa ditemokake ing Gambar 1 lan Tabel 1. Ing kene, saben metrik sing digunakake bisa diinterpretasikake kaya ing ngisor iki:

          • Skor Kualitas Sakabèhé: Assessment sakabèhé saka kualitas data sintetik, nggabungake macem-macem aspek kayata persamaan statistik lan karakteristik data. 
          • Bentuk Kolom: Nemtokake manawa data sintetik njaga wangun distribusi sing padha karo data nyata kanggo saben kolom. 
          • Tren Pasangan Column: Ngevaluasi hubungan utawa korélasi antarane pasangan kolom ing data sintetik dibandhingake karo data nyata. 
          •  

          Sakabèhé, bisa dingerteni manawa Syntho entuk skor sing dhuwur banget ing papan kasebut. Kanggo miwiti, nalika ndeleng kualitas data sakabèhé (dievaluasi karo perpustakaan metrik SDV) Syntho bisa entuk asil munggah 99% (kanthi ketaatan wangun kolom 99.92% lan ketaatan wangun pasangan kolom 99.31%). Iki nalika SDV entuk asil maksimal 90.84% (kanthi Gaussian Copula, duwe ketaatan bentuk kolom 93.82% lan ketaatan bentuk pasangan kolom 87.86%). 

          Perwakilan tabel saka skor kualitas saben dataset sing digawe saben model

          Tabel 1. Representasi tabel saka skor kualitas saben dataset sing digawe saben model 

          Cakupan data

          Modul Laporan Diagnosis SDV menehi perhatian marang kita yen data sing digawe SDV (ing kabeh kasus) ilang luwih saka 10% saka kisaran numerik; Ing kasus Triplet-Based Variational Autoencoder (TVAE), jumlah data kategoris sing padha uga ilang yen dibandhingake karo set data asli. Ora ana bebaya sing digawe kanthi asil sing ditindakake kanthi nggunakake Syntho.  

          visualisasi metrik kinerja rata-rata kolom kanggo kabeh model
           
           

          Gambar 2. visualisasi rata-rata metrik kinerja kolom-wicaksana kanggo kabeh model 

          Ing analisis komparatif, plot Gambar 2 nggambarake manawa arsip SDV ngasilake luwih apik ing jangkoan kategori karo sawetara modele (yaiku GaussianCopula, CopulaGAN, lan Conditional Tabular GAN - CTGAN). Nanging, penting kanggo nyorot manawa linuwih data Syntho ngluwihi model SDV, amarga bedane jangkoan antarane kategori lan kisaran minimal, mung nuduhake variasi 1.1%. Ing kontras, model SDV nduduhake variasi sing akeh, mulai saka 14.6% nganti 29.2%. 

           

          Metrik sing dituduhake ing kene, bisa diinterpretasikake kaya ing ngisor iki: 

          • Cakupan Kategori: Ngukur anané kabeh kategori ing data sintetik dibandhingake karo data nyata.
          • Jangkoan Jangkoan: Ngevaluasi sepira jumlah nilai ing data sintetik cocog karo data nyata. 
          Perwakilan tabel saka jangkoan rata-rata saka jinis atribut tartamtu saben model

          Tabel 2. Representasi tabel saka jangkoan rata-rata saka jinis atribut tartamtu saben model 

          Utility

          Ngalih menyang topik sarana data sintetik, prakara model latihan ing data dadi relevan. Kanggo duwe comparison imbang lan adil antarane kabeh frameworks kita wis milih standar Gradient Boosting Classifier saka perpustakaan SciKit Sinau, ndeleng iku cukup ditampa minangka model uga-performing karo setelan out-of-the-box.  

           

          Rong model beda dilatih, siji ing data sintetik (kanggo TSTR) lan siji ing data asli (kanggo TRTS). Model sing dilatih ing data sintetik dievaluasi kanthi nggunakake set test holdout (sing ora digunakake sajrone nggawe data sintetik) lan model sing dilatih ing data asli diuji ing dataset sintetik.  

          visualisasi skor Area Under the Curve (AUC) saben cara saben model

          Gambar 3. Visualisasi skor Area Under the Curve (AUC) saben metode saben model 

           Asil sing digambarake ing ndhuwur nuduhake keunggulan ngasilake data Sintetis dening mesin Syntho dibandhingake karo metode liyane, amarga ora ana bedane asil sing dipikolehi kanthi cara sing beda-beda (nuduhake persamaan sing dhuwur ing antarane data sintetik lan nyata). Uga, garis titik abang sing ana ing plot yaiku asil sing dipikolehi kanthi ngevaluasi kinerja dhasar saka tes Train Real, Test Real (TRTR) kanggo nyedhiyakake garis dasar kanggo metrik sing diamati. Baris iki nggambarake nilai 0.92, yaiku skor Area Under the Curve (skor AUC) sing diraih dening model sing dilatih ing data nyata lan diuji ing data nyata. 

          Perwakilan tabel saka skor AUC sing digayuh dening TRTS lan TSTR saben model.

          Tabel 3. Perwakilan tabel saka skor AUC sing diraih dening TRTS lan TSTR saben model. 

          Perbandingan wektu

          Mesthi wae, penting kanggo nimbang wektu sing ditindakake kanggo ngasilake asil kasebut. Visualisasi ing ngisor iki mung nggambarake iki.

          visualisasi wektu sing ditindakake kanggo nglatih lan nindakake data sintetik saka siji yuta titik data kanthi model nganggo lan tanpa GPU.

          Gambar 5. Visualisasi wektu sing ditindakake kanggo nglatih lan nindakake nggawe data sintetik saka siji yuta datapoints karo model karo lan tanpa GPU. 

          Gambar 5 nggambarake wektu sing dijupuk kanggo ngasilake data sintetik ing rong setelan sing beda. Pisanan kang (ing kene diarani Tanpa GPU), padha test mbukak ing sistem karo Intel Xeon CPU karo 16 intine mlaku ing 2.20 GHz. Tes sing ditandhani minangka "mlaku karo GPU" ana ing sistem kanthi CPU AMD Ryzen 9 7945HX kanthi intine 16 sing mlaku ing 2.5GHz lan GPU Laptop NVIDIA GeForce RTX 4070. Minangka katon ing Figure 2 lan ing Tabel 2 ngisor, bisa diamati sing Syntho Ngartekno luwih cepet ing ngasilaken data sintetik (ing loro skenario) kang kritis ing alur kerja dinamis. 

          Tabel sing nggambarake wektu sing ditindakake kanggo ngasilake data sintetik 1 yuta titik data kanthi saben model nganggo lan tanpa GPU.

          Tabel 5. A perwakilan Tabel saka wektu dijupuk kanggo nggawe data sintetik saka siji yuta titik data karo saben model karo lan tanpa GPU 

          Panutup lan Arah Masa Depan 

          Panemuan kasebut negesake pentinge evaluasi kualitas sing lengkap kanggo milih metode ngasilake data sintetik sing tepat. Syntho's Engine, kanthi pendekatan sing didorong AI, nuduhake kekuwatan sing penting ing metrik tartamtu, dene alat sumber terbuka kaya SDV nyorot ing versatility lan dandan sing didorong komunitas. 

          Minangka lapangan data sintetik terus berkembang, disaranake sampeyan nggunakake metrik kasebut ing proyek sampeyan, njelajah seluk-beluke, lan nuduhake pengalaman sampeyan. Tetep dirungokake kanggo kiriman mbesuk ing ngendi kita bakal nyilem luwih jero menyang metrik liyane lan nyorot conto aplikasi sing nyata. 

          Ing pungkasan dina, kanggo wong-wong sing pengin nyoba banyu ing data sintetik, alternatif open-source sing diwenehi bisa dadi pilihan sing bisa ditrapake kanthi aksesibilitas; Nanging, kanggo profesional sing nggabungake teknologi modern iki ing proses pangembangane, kabeh kesempatan kanggo perbaikan kudu ditindakake lan kabeh alangan kudu dihindari. Mulane penting kanggo milih pilihan sing paling apik sing kasedhiya. Kanthi analisa sing diwenehake ing ndhuwur, katon yen Syntho lan Mesin Syntho minangka alat sing bisa digunakake kanggo praktisi. 

          Babagan Syntho

          Sintho nyedhiyakake platform generasi data sintetik sing cerdas, nggunakake macem-macem formulir data sintetik lan metode generasi, nguatake organisasi supaya bisa ngowahi data kanthi cerdas dadi kompetitif. Data sintetik sing digawe AI kita niru pola statistik data asli, njamin akurasi, privasi, lan kacepetan, kaya sing ditaksir dening pakar eksternal kaya SAS. Kanthi fitur de-identifikasi sing cerdas lan pemetaan sing konsisten, informasi sensitif dilindhungi nalika njaga integritas referensial. Platform kita ngidini nggawe, ngatur, lan ngontrol data tes kanggo lingkungan non-produksi, nggunakake metode generasi data sintetik adhedhasar aturan kanggo skenario sing ditarget. Kajaba iku, pangguna bisa ngasilake data sintetik kanthi program lan entuk data tes sing nyata kanggo ngembangake skenario tes lan pangembangan lengkap kanthi gampang.  

          Apa sampeyan pengin sinau aplikasi data sintetik sing luwih praktis? Bebas bae kanggo jadwal demo!

          Babagan panulis

          Magang Teknik Perangkat Lunak

          roham minangka mahasiswa sarjana ing Universitas Teknologi Delft lan minangka Intern Teknik Perangkat Lunak ing Sintho 

          Machine Learning Engineer

          Mihai entuk gelar PhD saka Universitas Bristol babagan topik Pembelajaran Penguatan Hierarki sing ditrapake ing Robotika lan minangka Teknisi Pembelajaran Mesin at Sintho. 

          tutup panuntun syntho

          Simpen pandhuan data sintetik saiki!