Data Sintetis yang dihasilkan AI, akses mudah dan cepat ke data berkualitas tinggi?

AI menghasilkan data sintetis dalam praktik

Syntho, seorang ahli dalam data sintetis yang dihasilkan AI, bertujuan untuk mengubah privacy by design menjadi keunggulan kompetitif dengan data sintetis yang dihasilkan AI. Mereka membantu organisasi membangun fondasi data yang kuat dengan akses mudah dan cepat ke data berkualitas tinggi dan baru-baru ini memenangkan Philips Innovation Award.

Namun, pembuatan data sintetik dengan AI adalah solusi yang relatif baru yang biasanya memunculkan pertanyaan yang sering diajukan. Untuk menjawabnya, Syntho memulai studi kasus bersama dengan SAS, pemimpin pasar dalam perangkat lunak Analisis Lanjutan dan AI.

Bekerja sama dengan Dutch AI Coalition (NL AIC), mereka menyelidiki nilai data sintetis dengan membandingkan data sintetis yang dihasilkan AI yang dihasilkan oleh Syntho Engine dengan data asli melalui berbagai penilaian kualitas data, validitas hukum, dan kegunaan.

Apakah anonimisasi data bukan solusi?

Teknik anonimisasi klasik memiliki kesamaan bahwa mereka memanipulasi data asli untuk menghalangi penelusuran kembali individu. Contohnya adalah generalisasi, penekanan, penghapusan, nama samaran, penyembunyian data, dan pengacakan baris & kolom. Anda dapat menemukan contoh dalam tabel di bawah ini.

anonimisasi data

Teknik-teknik tersebut memperkenalkan 3 tantangan utama:

  1. Mereka bekerja secara berbeda per tipe data dan per set data, sehingga sulit untuk diskalakan. Selain itu, karena cara kerjanya berbeda, akan selalu ada perdebatan tentang metode mana yang harus diterapkan dan kombinasi teknik apa yang dibutuhkan.
  2. Selalu ada hubungan satu-ke-satu dengan data asli. Ini berarti bahwa akan selalu ada risiko privasi, terutama karena semua kumpulan data terbuka dan teknik yang tersedia untuk menautkan kumpulan data tersebut.
  3. Mereka memanipulasi data dan dengan demikian menghancurkan data dalam prosesnya. Ini sangat menghancurkan untuk tugas AI di mana "kekuatan prediktif" sangat penting, karena data berkualitas buruk akan menghasilkan wawasan yang buruk dari model AI (Sampah-masuk akan menghasilkan sampah-keluar).

Poin-poin ini juga dinilai melalui studi kasus ini.

Pengantar studi kasus

Untuk studi kasus, dataset target adalah dataset telekomunikasi yang disediakan oleh SAS yang berisi data 56.600 pelanggan. Dataset berisi 128 kolom, termasuk satu kolom yang menunjukkan apakah pelanggan telah meninggalkan perusahaan (yaitu 'bergejolak') atau tidak. Tujuan dari studi kasus adalah menggunakan data sintetik untuk melatih beberapa model untuk memprediksi churn pelanggan dan untuk mengevaluasi kinerja model yang dilatih tersebut. Karena prediksi churn adalah tugas klasifikasi, SAS memilih empat model klasifikasi populer untuk membuat prediksi, termasuk:

  1. Hutan acak
  2. Meningkatkan gradien
  3. Regresi logistik
  4. Jaringan syaraf

Sebelum menghasilkan data sintetik, SAS secara acak membagi dataset telekomunikasi menjadi satu set kereta (untuk melatih model) dan satu set penahan (untuk menilai model). Memiliki ketidaksepakatan yang terpisah untuk penilaian memungkinkan penilaian yang tidak bias tentang seberapa baik kinerja model klasifikasi ketika diterapkan pada data baru.

Menggunakan set kereta sebagai input, Syntho menggunakan Syntho Engine untuk menghasilkan set data sintetis. Untuk benchmarking, SAS juga membuat versi yang dimanipulasi dari rangkaian kereta setelah menerapkan berbagai teknik anonimisasi untuk mencapai ambang tertentu (dari k-anonimity). Langkah-langkah sebelumnya menghasilkan empat set data:

  1. Kumpulan data kereta (yaitu kumpulan data asli dikurangi kumpulan data ketidaksepakatan)
  2. Dataset ketidaksepakatan (yaitu subset dari dataset asli)
  3. Kumpulan data anonim (berdasarkan kumpulan data kereta)
  4. Set data sintetis (berdasarkan dataset kereta)

Dataset 1, 3 dan 4 digunakan untuk melatih setiap model klasifikasi, menghasilkan 12 (3 x 4) model terlatih. SAS kemudian menggunakan kumpulan data ketidaksepakatan untuk mengukur akurasi yang digunakan setiap model untuk memprediksi churn pelanggan. Hasilnya disajikan di bawah ini, dimulai dengan beberapa statistik dasar.

Pipeline Pembelajaran Mesin yang dihasilkan di SAS

Gambar: Pipeline Machine Learning yang dihasilkan di SAS Visual Data Mining dan Machine Learning

Statistik dasar saat membandingkan data anonim dengan data asli

Teknik anonimisasi bahkan menghancurkan pola dasar, logika bisnis, hubungan, dan statistik (seperti pada contoh di bawah). Menggunakan data anonim untuk analisis dasar menghasilkan hasil yang tidak dapat diandalkan. Faktanya, kualitas data anonim yang buruk membuatnya hampir tidak mungkin digunakan untuk tugas analitik tingkat lanjut (mis. pemodelan dan dasbor AI/ML).

membandingkan data anonim dengan data asli

Statistik dasar saat membandingkan data sintetis dengan data asli

Pembuatan data sintetis dengan AI mempertahankan pola dasar, logika bisnis, hubungan, dan statistik (seperti dalam contoh di bawah). Dengan demikian, menggunakan data sintetis untuk analisis dasar menghasilkan hasil yang andal. Pertanyaan kunci, apakah data sintetik dapat digunakan untuk tugas analitik tingkat lanjut (mis. pemodelan dan dasbor AI/ML)?

membandingkan data sintetis dengan data asli

Data sintetis yang dihasilkan AI dan analitik tingkat lanjut

Data sintetis tidak hanya berlaku untuk pola dasar (seperti yang ditunjukkan pada plot sebelumnya), tetapi juga menangkap pola statistik 'tersembunyi' yang diperlukan untuk tugas analitik tingkat lanjut. Yang terakhir ditunjukkan dalam diagram batang di bawah ini, yang menunjukkan bahwa keakuratan model yang dilatih pada data sintetis versus model yang dilatih pada data asli serupa. Selain itu, dengan area di bawah kurva (AUC*) mendekati 0.5, model yang dilatih pada data anonim memiliki performa yang paling buruk. Laporan lengkap dengan semua penilaian analitik lanjutan pada data sintetis dibandingkan dengan data asli tersedia berdasarkan permintaan.

*AUC: area di bawah kurva adalah ukuran keakuratan model analitik tingkat lanjut, dengan mempertimbangkan nilai positif sejati, positif palsu, negatif palsu, dan negatif sejati. 0,5 berarti suatu model memprediksi secara acak dan tidak memiliki daya prediksi dan 1 berarti model selalu benar dan memiliki daya prediksi penuh.

Selain itu, data sintetis ini dapat digunakan untuk memahami karakteristik data dan variabel utama yang diperlukan untuk pelatihan model yang sebenarnya. Input yang dipilih oleh algoritme pada data sintetis dibandingkan dengan data asli sangat mirip. Oleh karena itu, proses pemodelan dapat dilakukan pada versi sintetis ini, yang mengurangi risiko pelanggaran data. Namun, ketika menyimpulkan catatan individu (misalnya pelanggan telekomunikasi) pelatihan ulang pada data asli direkomendasikan untuk penjelasan, peningkatan penerimaan atau hanya karena peraturan.                              

AUC berdasarkan Algoritma yang dikelompokkan berdasarkan Metode

AUC

Kesimpulan:

  • Model yang dilatih pada data sintetis dibandingkan dengan model yang dilatih pada data asli menunjukkan kinerja yang sangat mirip
  • Model yang dilatih pada data anonim dengan 'teknik anonimisasi klasik' menunjukkan kinerja yang lebih rendah dibandingkan dengan model yang dilatih pada data asli atau data sintetis
  • Pembuatan data sintetik mudah dan cepat karena tekniknya bekerja persis sama per kumpulan data dan per tipe data.

Kasus penggunaan data sintetis bernilai tambah

Kasus penggunaan 1: Data sintetis untuk pengembangan model dan analitik lanjutan

Memiliki fondasi data yang kuat dengan akses yang mudah dan cepat ke data berkualitas tinggi yang dapat digunakan sangat penting untuk mengembangkan model (misalnya dasbor [BI] dan analitik lanjutan [AI & ML]). Namun, banyak organisasi menderita dari fondasi data yang kurang optimal yang mengakibatkan 3 tantangan utama:

  • Mendapatkan akses ke data membutuhkan waktu lama karena peraturan (privasi), proses internal, atau silo data
  • Teknik anonimisasi klasik menghancurkan data, membuat data tidak lagi sesuai untuk analisis dan analisis lanjutan (garbage in = trash out)
  • Solusi yang ada tidak dapat diskalakan karena bekerja secara berbeda per kumpulan data dan per tipe data dan tidak dapat menangani database multi-tabel yang besar

Pendekatan data sintetik: kembangkan model dengan data sintetik sebaik mungkin untuk:

  • Minimalkan penggunaan data asli, tanpa menghalangi pengembang Anda
  • Buka kunci data pribadi dan dapatkan akses ke lebih banyak data yang sebelumnya dibatasi (misalnya karena privasi)
  • Akses data yang mudah dan cepat ke data yang relevan
  • Solusi terukur yang bekerja sama untuk setiap kumpulan data, tipe data, dan untuk basis data besar

Hal ini memungkinkan organisasi membangun fondasi data yang kuat dengan akses mudah dan cepat ke data berkualitas tinggi yang dapat digunakan untuk membuka kunci data dan memanfaatkan peluang data.

 

Kasus penggunaan 2: data pengujian sintetis cerdas untuk pengujian, pengembangan, dan pengiriman perangkat lunak

Pengujian dan pengembangan dengan data pengujian berkualitas tinggi sangat penting untuk memberikan solusi perangkat lunak yang canggih. Menggunakan data produksi asli tampak jelas, tetapi tidak diperbolehkan karena peraturan (privasi). Alternatif Test Data Management (TDM) alat memperkenalkan “legacy-by-design” dalam mendapatkan data uji dengan benar:

  • Jangan mencerminkan data produksi dan logika bisnis serta integritas referensial tidak dipertahankan
  • Bekerja lambat dan memakan waktu
  • Pekerjaan manual diperlukan

Pendekatan data sintetis: Uji dan kembangkan dengan data uji sintetis yang dihasilkan AI untuk menghadirkan solusi perangkat lunak canggih yang cerdas dengan:

  • Data seperti produksi dengan logika bisnis yang terpelihara dan integritas referensial
  • Pembuatan data yang mudah dan cepat dengan AI yang canggih
  • Privasi-oleh-desain
  • Mudah, cepat dan agile

Hal ini memungkinkan organisasi untuk menguji dan mengembangkan dengan data pengujian tingkat berikutnya untuk memberikan solusi perangkat lunak canggih!

Informasi lebih lanjut

Tertarik? Untuk informasi lebih lanjut tentang data sintetis, kunjungi situs web Syntho atau hubungi Wim Kees Janssen. Untuk informasi lebih lanjut tentang SAS, kunjungi www.sas.com atau hubungi kees@syntho.ai.

Dalam kasus penggunaan ini, Syntho, SAS dan NL AIC bekerja sama untuk mencapai hasil yang diinginkan. Syntho adalah pakar dalam data sintetis yang dihasilkan AI dan SAS adalah pemimpin pasar dalam analitik dan menawarkan perangkat lunak untuk menjelajahi, menganalisis, dan memvisualisasikan data.

* Memprediksi 2021 – Strategi Data dan Analisis untuk Mengatur, Menskalakan, dan Mengubah Bisnis Digital, Gartner, 2020.

sampul panduan syntho

Simpan panduan data sintetis Anda sekarang!