Data sintétik anu dihasilkeun ku Syntho ditaksir, disahkeun sareng disatujuan tina sudut pandang éksternal sareng obyektif ku para ahli data SAS.
Sanaos Syntho reueus nawiskeun para pangguna laporan jaminan kualitas canggih, kami ogé ngartos pentingna gaduh évaluasi éksternal sareng obyektif data sintétik urang ti pamimpin industri. Éta sababna urang kolaborasi sareng SAS, pamimpin analitik, pikeun meunteun data sintétik urang.
SAS ngalaksanakeun rupa-rupa évaluasi anu lengkep ngeunaan akurasi data, panyalindungan privasi, sareng usability data sintétik anu dihasilkeun ku AI Syntho dibandingkeun sareng data asli. Salaku kacindekan, SAS ditaksir sareng disatujuan data sintétik Syntho salaku akurat, aman, sareng tiasa dianggo dibandingkeun sareng data asli.
Kami nganggo data telekomunikasi anu dianggo pikeun prediksi "churn" salaku data target. Tujuan tina evaluasi nya éta ngagunakeun data sintétik pikeun ngalatih rupa-rupa modél prediksi churn sareng pikeun meunteun kinerja unggal modél. Kusabab prediksi churn mangrupikeun tugas klasifikasi, SAS milih modél klasifikasi populér pikeun ngadamel prediksi, kalebet:
Sateuacan ngahasilkeun data sintétik, SAS sacara acak ngabagi set data telekomunikasi kana set karéta (pikeun ngalatih modél) sareng set holdout (pikeun nyetak modél). Ngabogaan set holdout misah pikeun nyetak ngamungkinkeun hiji assessment unbiased kumaha ogé model klasifikasi bisa ngalakukeun lamun dilarapkeun ka data anyar.
Nganggo set karéta salaku input, Syntho nganggo Mesin Syntho na pikeun ngahasilkeun set data sintétik. Pikeun benchmarking, SAS ogé nyiptakeun versi anonim tina set karéta saatos nerapkeun sababaraha téknik anonim pikeun ngahontal ambang anu tangtu (tina k-anonim). Léngkah-léngkah baheula ngahasilkeun opat set data:
Datasets 1, 3 jeung 4 dipaké pikeun ngalatih unggal modél klasifikasi, hasilna 12 (3 x 4) model dilatih. SAS satuluyna ngagunakeun dataset holdout pikeun ngukur katepatan unggal model dina prediksi churn customer.
SAS ngalaksanakeun rupa-rupa évaluasi anu lengkep ngeunaan akurasi data, panyalindungan privasi, sareng usability data sintétik anu dihasilkeun ku AI Syntho dibandingkeun sareng data asli. Salaku kacindekan, SAS ditaksir sareng disatujuan data sintétik Syntho salaku akurat, aman, sareng tiasa dianggo dibandingkeun sareng data asli.
Data sintétik ti Syntho henteu ngan ukur pikeun pola dasar, tapi ogé ngarebut pola statistik 'disumputkeun' jero anu diperlukeun pikeun tugas analitik canggih. Anu terakhir ditingalikeun dina bagan bar, nunjukkeun yén akurasi modél anu dilatih dina data sintétik versus modél anu dilatih dina data asli sami. Ku kituna, data sintétik bisa dipaké pikeun latihan sabenerna model. Input sareng variabel pentingna dipilih ku algoritma dina data sintétik dibandingkeun sareng data asli sami pisan. Ku kituna, dicindekkeun yén prosés modeling bisa dipigawé dina data sintétik, salaku alternatif pikeun ngagunakeun data sensitip nyata.
Téhnik anonimisasi klasik gaduh umum yén aranjeunna ngamanipulasi data asli pikeun ngahalangan ngalacak deui individu. Aranjeunna ngamanipulasi data sahingga ngancurkeun data dina prosés. Beuki anjeun anonim, langkung saé data anjeun dijagi, tapi ogé langkung seueur data anjeun ancur. Ieu hususna dahsyat keur AI jeung tugas modeling dimana "kakuatan prediktif" penting, sabab data kualitas goréng bakal ngahasilkeun wawasan goréng tina model AI. SAS nunjukkeun ieu, kalayan aréa handapeun kurva (AUC *) ngadeukeutan 0.5, nunjukkeun yén modél anu dilatih dina data anonim ngalaksanakeun paling parah.
Korélasi sareng hubungan antara variabel sacara akurat disimpen dina data sintétis.
The Area Under the Curve (AUC), métrik pikeun ngukur kinerja modél, tetep konsisten.
Saterusna, variabel pentingna, nu nunjukkeun kakuatan prediksi variabel dina model, tetep gembleng nalika ngabandingkeun data sintétik jeung dataset aslina.
Dumasar pangamatan ieu ku SAS sareng nganggo SAS Viya, urang tiasa yakin yén data sintétik anu dihasilkeun ku Syntho Engine memang sajajar sareng data nyata dina hal kualitas. Ieu validates pamakéan data sintétik pikeun ngembangkeun model, paving jalan pikeun analytics canggih jeung data sintétik.