Evaluasi éksternal data sintétik kami ku para ahli data SAS

Data sintétik urang téh ditaksir jeung disatujuan ku para ahli data tina Sas

Perkenalan kana evaluasi éksternal data sintétik kami ku para ahli data SAS

Naon anu urang lakukeun?

Data sintétik anu dihasilkeun ku Syntho ditaksir, disahkeun sareng disatujuan tina sudut pandang éksternal sareng obyektif ku para ahli data SAS.

Naha data sintétik urang dievaluasi sacara éksternal ku para ahli data SAS?

Sanaos Syntho reueus nawiskeun para pangguna laporan jaminan kualitas canggih, kami ogé ngartos pentingna gaduh évaluasi éksternal sareng obyektif data sintétik urang ti pamimpin industri. Éta sababna urang kolaborasi sareng SAS, pamimpin analitik, pikeun meunteun data sintétik urang.

SAS ngalaksanakeun rupa-rupa évaluasi anu lengkep ngeunaan akurasi data, panyalindungan privasi, sareng usability data sintétik anu dihasilkeun ku AI Syntho dibandingkeun sareng data asli. Salaku kacindekan, SAS ditaksir sareng disatujuan data sintétik Syntho salaku akurat, aman, sareng tiasa dianggo dibandingkeun sareng data asli.

Naon anu dilakukeun ku SAS salami penilaian ieu?

Kami nganggo data telekomunikasi anu dianggo pikeun prediksi "churn" salaku data target. Tujuan tina evaluasi nya éta ngagunakeun data sintétik pikeun ngalatih rupa-rupa modél prediksi churn sareng pikeun meunteun kinerja unggal modél. Kusabab prediksi churn mangrupikeun tugas klasifikasi, SAS milih modél klasifikasi populér pikeun ngadamel prediksi, kalebet:

  1. Leuweung acak
  2. Ngaronjatkeun gradién
  3. Regresi logistik
  4. jaringan neural

Sateuacan ngahasilkeun data sintétik, SAS sacara acak ngabagi set data telekomunikasi kana set karéta (pikeun ngalatih modél) sareng set holdout (pikeun nyetak modél). Ngabogaan set holdout misah pikeun nyetak ngamungkinkeun hiji assessment unbiased kumaha ogé model klasifikasi bisa ngalakukeun lamun dilarapkeun ka data anyar.

Nganggo set karéta salaku input, Syntho nganggo Mesin Syntho na pikeun ngahasilkeun set data sintétik. Pikeun benchmarking, SAS ogé nyiptakeun versi anonim tina set karéta saatos nerapkeun sababaraha téknik anonim pikeun ngahontal ambang anu tangtu (tina k-anonim). Léngkah-léngkah baheula ngahasilkeun opat set data:

  1. Dataset karéta (nyaéta set data asli dikurangan set data tahan)
  2. Setét data tahan (nyaéta sawaréh tina set data asli)
  3. Dataset anonim (data anonim tina set data karéta, set data asli dikurangan set data anu ditahan)
  4. Dataset sintétik (data disintésis tina set data karéta, set data asli dikurangan set data tahan)

Datasets 1, 3 jeung 4 dipaké pikeun ngalatih unggal modél klasifikasi, hasilna 12 (3 x 4) model dilatih. SAS satuluyna ngagunakeun dataset holdout pikeun ngukur katepatan unggal model dina prediksi churn customer.

SAS ngalaksanakeun rupa-rupa évaluasi anu lengkep ngeunaan akurasi data, panyalindungan privasi, sareng usability data sintétik anu dihasilkeun ku AI Syntho dibandingkeun sareng data asli. Salaku kacindekan, SAS ditaksir sareng disatujuan data sintétik Syntho salaku akurat, aman, sareng tiasa dianggo dibandingkeun sareng data asli.

Ulah anjeun mibanda patalékan?

Ngobrol jeung salah sahiji ahli urang

Hasil awal penilaian data ku SAS

Model anu dilatih dina skor data sintétik sami pisan dibandingkeun sareng model anu dilatih dina data asli

Data sintétik ti Syntho henteu ngan ukur pikeun pola dasar, tapi ogé ngarebut pola statistik 'disumputkeun' jero anu diperlukeun pikeun tugas analitik canggih. Anu terakhir ditingalikeun dina bagan bar, nunjukkeun yén akurasi modél anu dilatih dina data sintétik versus modél anu dilatih dina data asli sami. Ku kituna, data sintétik bisa dipaké pikeun latihan sabenerna model. Input sareng variabel pentingna dipilih ku algoritma dina data sintétik dibandingkeun sareng data asli sami pisan. Ku kituna, dicindekkeun yén prosés modeling bisa dipigawé dina data sintétik, salaku alternatif pikeun ngagunakeun data sensitip nyata.

Naha modél anu dilatih dina skor data anu anonim langkung parah?

Téhnik anonimisasi klasik gaduh umum yén aranjeunna ngamanipulasi data asli pikeun ngahalangan ngalacak deui individu. Aranjeunna ngamanipulasi data sahingga ngancurkeun data dina prosés. Beuki anjeun anonim, langkung saé data anjeun dijagi, tapi ogé langkung seueur data anjeun ancur. Ieu hususna dahsyat keur AI jeung tugas modeling dimana "kakuatan prediktif" penting, sabab data kualitas goréng bakal ngahasilkeun wawasan goréng tina model AI. SAS nunjukkeun ieu, kalayan aréa handapeun kurva (AUC *) ngadeukeutan 0.5, nunjukkeun yén modél anu dilatih dina data anonim ngalaksanakeun paling parah.

Hasil tambahan tina assessments data sintétik ku SAS

Hasil tambahan tina assessments data sintétik ku SAS

Korélasi sareng hubungan antara variabel sacara akurat disimpen dina data sintétis.

The Area Under the Curve (AUC), métrik pikeun ngukur kinerja modél, tetep konsisten.

Saterusna, variabel pentingna, nu nunjukkeun kakuatan prediksi variabel dina model, tetep gembleng nalika ngabandingkeun data sintétik jeung dataset aslina.

Dumasar pangamatan ieu ku SAS sareng nganggo SAS Viya, urang tiasa yakin yén data sintétik anu dihasilkeun ku Syntho Engine memang sajajar sareng data nyata dina hal kualitas. Ieu validates pamakéan data sintétik pikeun ngembangkeun model, paving jalan pikeun analytics canggih jeung data sintétik.

Kacindekan ku para ahli data SAS

logo Sas

Data sintétik urang téh disatujuan ku para ahli data SAS

Artikel rujukan

panutup pituduh syntho

Simpen pituduh data sintétik anjeun ayeuna!