Data Sintétik anu dibangkitkeun AI, aksés gampang sareng gancang kana data kualitas luhur?

AI ngahasilkeun data sintétik dina prakna

Syntho, ahli dina data sintétik AI-generate, boga tujuan pikeun ngahurungkeun privacy by design jadi kaunggulan kalapa kalawan data sintétik dihasilkeun AI. Aranjeunna ngabantosan organisasi pikeun ngawangun yayasan data anu kuat kalayan aksés anu gampang sareng gancang kana data kualitas luhur sareng nembe nampi Penghargaan Inovasi Philips.

Nanging, generasi data sintétik sareng AI mangrupikeun solusi anu kawilang énggal anu biasana ngenalkeun patarosan anu sering ditaroskeun. Pikeun ngajawab ieu, Syntho ngamimitian studi kasus sareng SAS, pamimpin pasar dina Advanced Analytics sareng parangkat lunak AI.

Migawé bareng kalayan Koalisi AI Walanda (NL AIC), aranjeunna nalungtik nilai data sintétik ku ngabandingkeun data sintétik AI dihasilkeun dihasilkeun ku Syntho Engine jeung data aslina ngaliwatan rupa assessments on kualitas data, validitas légal jeung usability.

Naha anonimisasi data sanés mangrupikeun solusi?

Téhnik anonimisasi klasik gaduh umum yén aranjeunna ngamanipulasi data asli pikeun ngahalangan ngalacak deui individu. Contona nyaéta generalisasi, suprési, wiping, pseudonymization, masking data, jeung shuffling baris & kolom. Anjeun tiasa mendakan conto dina tabel di handap ieu.

anonymization data

Téhnik éta ngenalkeun 3 tantangan konci:

  1. Éta tiasa dianggo béda-béda per jinis data sareng per set data, ngajantenkeun aranjeunna hésé skala. Salaku tambahan, sabab tiasa dianggo béda-béda, bakal aya perdebatan ngeunaan metode mana anu dianggo sareng kombinasi téknik anu diperyogikeun.
  2. Sok aya hubungan hiji-ka-hiji sareng data asli. Ieu ngandung harti yén bakal salawasna aya résiko privasi, utamana alatan sakabeh datasets kabuka sarta téhnik sadia pikeun numbu datasets maranéhanana.
  3. Aranjeunna ngamanipulasi data sahingga ngancurkeun data dina prosés. Ieu hususna dahsyat pikeun tugas AI dimana "kakuatan prediktif" penting, sabab data kualitas goréng bakal ngahasilkeun wawasan goréng tina model AI (Sampah-in bakal ngahasilkeun sampah-kaluar).

Poin ieu ogé ditaksir ngaliwatan studi kasus ieu.

Hiji bubuka pikeun studi kasus

Pikeun studi kasus, set data targét nyaéta set data telekomunikasi anu disayogikeun ku SAS anu ngandung data 56.600 konsumén. Dataset ngandung 128 kolom, kalebet hiji kolom anu nunjukkeun naha palanggan parantos ninggalkeun perusahaan (nyaéta 'churned') atanapi henteu. Tujuan tina studi kasus nya éta ngagunakeun data sintétik pikeun ngalatih sababaraha model pikeun ngaduga churn customer sarta evaluate kinerja maranéhanana model dilatih. Kusabab prediksi churn mangrupikeun tugas klasifikasi, SAS milih opat modél klasifikasi populér pikeun ngadamel prediksi, kalebet:

  1. Leuweung acak
  2. Ngaronjatkeun gradién
  3. Regresi logistik
  4. jaringan neural

Sateuacan ngahasilkeun data sintétik, SAS sacara acak ngabagi set data telekomunikasi kana set karéta (pikeun ngalatih modél) sareng set holdout (pikeun nyetak modél). Ngabogaan set holdout misah pikeun nyetak ngamungkinkeun hiji assessment unbiased kumaha ogé model klasifikasi bisa nedunan lamun dilarapkeun ka data anyar.

Nganggo set karéta salaku input, Syntho nganggo Mesin Syntho na pikeun ngahasilkeun set data sintétik. Pikeun benchmarking, SAS ogé nyiptakeun versi manipulasi tina set karéta saatos nerapkeun sababaraha téknik anonim pikeun ngahontal ambang anu tangtu (tina k-anonimity). Léngkah-léngkah baheula ngahasilkeun opat set data:

  1. Dataset karéta (nyaéta set data asli dikurangan set data tahan)
  2. Setét data tahan (nyaéta sawaréh tina set data asli)
  3. Dataset anonim (dumasar kana set data karéta)
  4. Dataset sintétik (dumasar kana set data karéta)

Datasets 1, 3 jeung 4 dipaké pikeun ngalatih unggal modél klasifikasi, hasilna 12 (3 x 4) model dilatih. SAS satuluyna ngagunakeun dataset holdout pikeun ngukur katepatan unggal model ngaramalkeun churn customer. Hasilna dibere handap, dimimitian ku sababaraha statistik dasar.

Pipa Machine Learning dihasilkeun dina SAS

Gambar: Pipa Machine Learning dihasilkeun dina SAS Visual Data Mining jeung Machine Learning

Statistik dasar nalika ngabandingkeun data anonim sareng data asli

Téhnik anonymization ngancurkeun malah pola dasar, logika bisnis, hubungan jeung statistik (sakumaha dina conto di handap). Ngagunakeun data anonim pikeun analytics dasar sahingga ngahasilkeun hasil teu bisa dipercaya. Kanyataanna, kualitas goréng tina data anonim ngajadikeun eta ampir teu mungkin keur dipake pikeun tugas analytics canggih (misalna modeling AI / ML jeung dashboarding).

ngabandingkeun data anonim jeung data aslina

Statistik dasar nalika ngabandingkeun data sintétik sareng data asli

Generasi data sintétik sareng AI ngajaga pola dasar, logika bisnis, hubungan sareng statistik (sapertos dina conto di handap). Ngagunakeun data sintétik pikeun analytics dasar sahingga ngahasilkeun hasil dipercaya. Patarosan konci, naha data sintétik nahan pikeun tugas analytics canggih (misalna modeling AI / ML jeung dashboarding)?

ngabandingkeun data sintétik kana data asli

Data sintétik anu dibangkitkeun AI sareng analitik canggih

Data sintétik henteu ngan ukur pikeun pola dasar (sapertos anu dipidangkeun dina plot baheula), éta ogé ngarebut pola statistik 'disumputkeun' anu dipikabutuh pikeun tugas analitik canggih. Anu terakhir ditingalikeun dina bagan bar di handap, nunjukkeun yén akurasi modél anu dilatih dina data sintétik versus modél anu dilatih dina data asli sami. Saterusna, kalawan aréa handapeun kurva (AUC *) deukeut ka 0.5, model dilatih dina data anonim ngalaksanakeun jauh awon. Laporan lengkep sareng sadaya penilaian analytics canggih dina data sintétik dibandingkeun sareng data asli sayogi upami dipénta.

*AUC: wewengkon handapeun kurva mangrupakeun ukuran pikeun akurasi model analytics canggih, nyokot akun positif bener, positif palsu, négatip palsu jeung négatip leres. 0,5 hartina modél a ngaramalkeun sacara acak sarta teu mibanda kakuatan prediksi jeung 1 hartina modél salawasna bener jeung boga kakuatan prediksi pinuh.

Salaku tambahan, data sintétik ieu tiasa dianggo pikeun ngartos karakteristik data sareng variabel utama anu dipikabutuh pikeun latihan modél anu sabenerna. Input anu dipilih ku algoritma dina data sintétik dibandingkeun sareng data asli sami pisan. Lantaran kitu, prosés modél tiasa dilakukeun dina versi sintétik ieu, anu ngirangan résiko pelanggaran data. Sanajan kitu, nalika inferencing rékaman individu (misalna customer telco) palatihan balik dina data aslina dianjurkeun pikeun explainability, ngaronjat ditampa atawa ngan kusabab pangaturan.                              

AUC ku Algoritma dikelompokkeun ku Métode

AUC

conclusions:

  • Model anu dilatih dina data sintétik dibandingkeun sareng model anu dilatih dina data asli nunjukkeun kinerja anu sami
  • Model dilatih dina data anonim kalawan 'téhnik anonimisasi klasik' némbongkeun kinerja inferior dibandingkeun model dilatih dina data aslina atawa data sintétik.
  • Generasi data sintétik gampang sareng gancang sabab téknikna jalanna persis sami per set data sareng per jinis data.

Nilai-nambahkeun kasus pamakéan data sintétik

Anggo kasus 1: Data sintétik pikeun pamekaran modél sareng analitik canggih

Ngabogaan dasar data anu kuat kalayan aksés anu gampang sareng gancang pikeun tiasa dianggo, data kualitas luhur penting pikeun ngembangkeun modél (misalna dasbor [BI] sareng analitik canggih [AI & ML]). Nanging, seueur organisasi kakurangan tina dasar data suboptimal anu nyababkeun 3 tantangan konci:

  • Kengingkeun aksés kana data butuh umur kusabab peraturan (privasi), prosés internal atanapi silo data
  • Téhnik anonimisasi klasik ngancurkeun data, ngajantenkeun data henteu cocog deui pikeun analisa sareng analitik canggih (sampah asup = sampah kaluar)
  • Solusi anu aya henteu tiasa diskalakeun sabab tiasa dianggo béda-béda per set data sareng per jinis data sareng henteu tiasa ngadamel database multi-méja ageung.

Pendekatan data sintétik: ngamekarkeun modél nganggo data sintétik anu saé pikeun:

  • Ngaleutikan panggunaan data aslina, tanpa ngahambat pamekar anjeun
  • Muka konci data pribadi sareng gaduh aksés kana langkung seueur data anu samemehna dibatesan (contona kusabab privasi)
  • Aksés data gampang tur gancang kana data relevan
  • Solusi anu tiasa diukur anu sami pikeun unggal susunan data, datatype sareng pikeun basis data masif

Hal ieu ngamungkinkeun organisasi ngawangun yayasan data anu kuat kalayan aksés anu gampang sareng gancang ka data anu tiasa dianggo, kualitas luhur pikeun muka konci data sareng ngungkit kasempetan data.

 

Pamakéan kasus 2: data tés sintétik pinter pikeun nguji software, ngembangkeun sarta pangiriman

Nguji sareng pamekaran nganggo data uji kualitas luhur penting pikeun nganteurkeun solusi parangkat lunak canggih. Ngagunakeun data produksi aslina sigana atra, tapi teu diwenangkeun alatan (privasi) peraturan. Alternatipna Test Data Management (TDM) alat ngenalkeun "legacy-by-design"dina kéngingkeun data tés anu leres:

  • Ulah ngagambarkeun data produksi jeung logika bisnis jeung integritas rujukan teu dilestarikan
  • Gawéna lalaunan sareng nyéépkeun waktos
  • Karya manual diperlukeun

Pendekatan data sintétik: Uji sareng ngamekarkeun sareng data tés sintétik anu dibangkitkeun AI pikeun nganteurkeun solusi parangkat lunak canggih sareng pinter kalayan:

  • Data sapertos produksi kalayan logika bisnis anu dilestarikan sareng integritas referensial
  • Generasi data gampang sareng gancang kalayan state-of-the art AI
  • Privasi-demi-desain
  • Gampang, gancang jeung agile

Hal ieu ngamungkinkeun organisasi pikeun nguji sareng ngembangkeun sareng data tés tingkat salajengna pikeun nganteurkeun solusi parangkat lunak canggih!

inpo nu leuwih lengkep

kabetot? Kanggo inpo nu langkung lengkep ihwal data sintétik, mangga buka ramatloka Syntho atanapi ngahubungan Wim Kees Janssen. Kanggo inpo nu langkung lengkep ihwal SAS, mangga buka www.sas.com atanapi ngahubungan kees@syntho.ai.

Dina hal pamakéan ieu, Syntho, SAS jeung NL AIC gawé bareng pikeun ngahontal hasil nu dimaksud. Syntho mangrupikeun ahli dina data sintétik anu dibangkitkeun AI sareng SAS mangrupikeun pamimpin pasar dina analytics sareng nawiskeun parangkat lunak pikeun ngajalajah, nganalisa sareng visualisasi data.

* Prediksi 2021 - Strategi Data sareng Analitik pikeun Maréntah, Skala sareng Transformasi Usaha Digital, Gartner, 2020.

panutup pituduh syntho

Simpen pituduh data sintétik anjeun ayeuna!