Evaluasi eksternal atas data sintetik kami oleh pakar data SAS

Data sintetis kami adalah dinilai dan disetujui oleh para ahli data SAS

Pengantar evaluasi eksternal data sintetik kami oleh pakar data SAS

Apa yang telah kita lakukan?

Data sintetis yang dihasilkan oleh Syntho dinilai, divalidasi, dan disetujui dari sudut pandang eksternal dan objektif oleh pakar data SAS.

Mengapa data sintetis kami dievaluasi secara eksternal oleh pakar data SAS?

Meskipun Syntho dengan bangga menawarkan laporan jaminan kualitas tingkat lanjut kepada penggunanya, kami juga memahami pentingnya evaluasi eksternal dan obyektif terhadap data sintetis kami dari para pemimpin industri. Itu sebabnya kami berkolaborasi dengan SAS, pemimpin dalam analitik, untuk menilai data sintetis kami.

SAS melakukan berbagai evaluasi menyeluruh terhadap akurasi data, perlindungan privasi, dan kegunaan data sintetis yang dihasilkan AI Syntho dibandingkan dengan data asli. Sebagai kesimpulan, SAS menilai dan menyetujui data sintetik Syntho sebagai data yang akurat, aman, dan dapat digunakan dibandingkan dengan data asli.

Apa yang dilakukan SAS selama penilaian ini?

Kami menggunakan data telekomunikasi yang digunakan untuk prediksi “churn” sebagai data target. Tujuan evaluasi ini adalah menggunakan data sintetik untuk melatih berbagai model prediksi churn dan menilai performa setiap model. Karena prediksi churn adalah tugas klasifikasi, SAS memilih model klasifikasi populer untuk membuat prediksi, termasuk:

  1. Hutan acak
  2. Meningkatkan gradien
  3. Regresi logistik
  4. Jaringan syaraf

Sebelum menghasilkan data sintetik, SAS secara acak membagi dataset telekomunikasi menjadi satu set kereta (untuk melatih model) dan satu set penahan (untuk menilai model). Memiliki ketidaksepakatan yang terpisah untuk penilaian memungkinkan penilaian yang tidak bias tentang seberapa baik model klasifikasi dapat dilakukan ketika diterapkan pada data baru.

Menggunakan kumpulan kereta sebagai masukan, Syntho menggunakan Mesin Syntho untuk menghasilkan kumpulan data sintetis. Untuk benchmarking, SAS juga membuat versi rangkaian kereta yang dianonimkan setelah menerapkan berbagai teknik anonimisasi untuk mencapai ambang batas tertentu (k-anonimitas). Langkah-langkah sebelumnya menghasilkan empat kumpulan data:

  1. Kumpulan data kereta (yaitu kumpulan data asli dikurangi kumpulan data ketidaksepakatan)
  2. Dataset ketidaksepakatan (yaitu subset dari dataset asli)
  3. Kumpulan data yang dianonimkan (data yang dianonimkan dari kumpulan data kereta, kumpulan data asli dikurangi kumpulan data ketidaksepakatan)
  4. Kumpulan data sintetis (data hasil sintesis dari kumpulan data kereta, kumpulan data asli dikurangi kumpulan data ketidaksepakatan)

Kumpulan data 1, 3 dan 4 digunakan untuk melatih setiap model klasifikasi, menghasilkan 12 (3 x 4) model terlatih. SAS selanjutnya menggunakan kumpulan data ketidaksepakatan untuk mengukur keakuratan setiap model dalam prediksi churn pelanggan.

SAS melakukan berbagai evaluasi menyeluruh terhadap akurasi data, perlindungan privasi, dan kegunaan data sintetis yang dihasilkan AI Syntho dibandingkan dengan data asli. Sebagai kesimpulan, SAS menilai dan menyetujui data sintetik Syntho sebagai data yang akurat, aman, dan dapat digunakan dibandingkan dengan data asli.

Anda punya pertanyaan?

Bicaralah dengan salah satu pakar kami

Hasil awal penilaian data oleh SAS

Model yang dilatih menggunakan data sintetis memiliki skor yang sangat mirip dibandingkan dengan model yang dilatih menggunakan data asli

Data sintetis dari Syntho tidak hanya menampung pola dasar, tetapi juga menangkap pola statistik 'tersembunyi' mendalam yang diperlukan untuk tugas analisis tingkat lanjut. Hal terakhir ini ditunjukkan dalam diagram batang, yang menunjukkan bahwa keakuratan model yang dilatih menggunakan data sintetis versus model yang dilatih menggunakan data asli adalah serupa. Oleh karena itu, data sintetis dapat digunakan untuk pelatihan model yang sebenarnya. Input dan kepentingan variabel yang dipilih oleh algoritma pada data sintetik dibandingkan dengan data asli sangat mirip. Oleh karena itu, disimpulkan bahwa proses pemodelan dapat dilakukan pada data sintetik, sebagai alternatif penggunaan data sensitif yang nyata.

Mengapa model yang dilatih menggunakan data anonim mendapat skor lebih buruk?

Teknik anonimisasi klasik memiliki kesamaan yaitu memanipulasi data asli untuk menghalangi penelusuran kembali individu. Mereka memanipulasi data dan dengan demikian menghancurkan data dalam prosesnya. Semakin sering Anda menganonimkan, semakin baik data Anda terlindungi, namun juga semakin banyak data Anda yang dimusnahkan. Hal ini sangat merugikan bagi tugas-tugas AI dan pemodelan yang memerlukan “kekuatan prediktif”, karena kualitas data yang buruk akan menghasilkan wawasan yang buruk dari model AI. SAS mendemonstrasikan hal ini, dengan area di bawah kurva (AUC*) mendekati 0.5, yang menunjukkan bahwa model yang dilatih pada data anonim memiliki performa paling buruk.

Hasil tambahan penilaian data sintetik oleh SAS

Hasil tambahan penilaian data sintetik oleh SAS

Korelasi dan hubungan antar variabel disimpan secara akurat dalam data sintetik.

Area Di Bawah Kurva (AUC), metrik untuk mengukur performa model, tetap konsisten.

Selain itu, kepentingan variabel, yang menunjukkan kekuatan prediksi variabel dalam model, tetap utuh saat membandingkan data sintetik dengan kumpulan data asli.

Berdasarkan pengamatan SAS dan penggunaan SAS Viya, kami dapat dengan yakin menyimpulkan bahwa data sintetis yang dihasilkan oleh Syntho Engine memang setara dengan data nyata dalam hal kualitas. Hal ini memvalidasi penggunaan data sintetis untuk pengembangan model, membuka jalan bagi analisis tingkat lanjut dengan data sintetis.

Kesimpulan para ahli data SAS

Logo Sas

Data sintetis kami adalah disetujui oleh para ahli data SAS

Artikel referensi

sampul panduan syntho

Simpan panduan data sintetis Anda sekarang!