Naon ari data sintétik?

Data sintétik kursus kacilakaan

 

 

perkenalan

Naon ari data sintétik?

Jawabanana kawilang basajan. Padahal data asli dikumpulkeun dina sakabéh interaksi anjeun jeung jalma nyata (misalna klien, pasien, karyawan jsb) jeung ngaliwatan sagala prosés internal anjeun, data sintétik dihasilkeun ku algoritma komputer. Algoritma komputer ieu ngahasilkeun titik data lengkep anyar sareng jieunan.

Ngarengsekeun tantangan privasi data

Data anu dihasilkeun sacara sintétik diwangun ku titik data lengkep anyar sareng artifisial anu henteu aya hubungan hiji-hiji sareng data asli. Lantaran kitu, euweuh titik data sintétik bisa disusud deui atawa rekayasa balik kana data aslina. Hasilna, data sintétik dibebaskeun tina peraturan privasi, sapertos GDPR sareng janten solusi pikeun ngajawab sareng ngatasi tantangan privasi data.

Augment jeung simulate

Aspék generatif tina generasi data sintétik ngamungkinkeun pikeun ngagedekeun jeung simulate data lengkep anyar. Ieu fungsi salaku solusi lamun anjeun teu boga cukup data (data scarcity), hoyong up-sampel ujung-kasus atawa lamun anjeun teu boga data acan.

Di dieu, fokus Syntho nyaéta data terstruktur (data anu diformat dina tabel anu ngandung jajar sareng kolom, sapertos anu anjeun tingali dina lembar Excel), tapi urang salawasna resep ngagambarkeun konsép data sintétik ngalangkungan gambar, sabab éta langkung pikaresepeun.

Jinis data sintétik

Tilu jinis data sintétik aya dina payung data sintétik. Éta 3 jinis data sintétik nyaéta: data dummy, data sintétik dumasar aturan sareng data sintétik anu dihasilkeun ku kecerdasan buatan (AI). Urang sakedap ngajelaskeun naon 3 tipena béda data sintétik.

Data dummy / data bohongan

Data dummy nyaéta data anu dihasilkeun sacara acak (contona ku generator data bohongan).

Akibatna, ciri, hubungan jeung pola statistik nu aya dina data aslina teu dilestarikan, direbut jeung dihasilkeun dina data dummy dihasilkeun. Lantaran kitu, perwakilan data dummy / data bohongan minimal dibandingkeun sareng data asli.

  • Iraha ngagunakeunana: pikeun ngagentos identifier langsung (PII) atanapi nalika anjeun teu gaduh data (acan) sareng henteu hoyong nyéépkeun waktos sareng énergi pikeun netepkeun aturan.

Data sintétik dihasilkeun dumasar aturan

Data sintétik dumasar aturan nyaéta data sintétik anu dihasilkeun ku sakumpulan aturan anu tos ditetepkeun. Conto aturan anu tos ditetepkeun nyaéta anjeun hoyong gaduh data sintétik kalayan nilai minimum, nilai maksimal atanapi nilai rata-rata. Sakur ciri, hubungan sareng pola statistik, anu anjeun hoyong réproduksi dina data sintétik dumasar aturan, kedah ditetepkeun sateuacanna.

Akibatna, kualitas data bakal sae sareng set aturan anu tos ditetepkeun. Ieu nyababkeun tangtangan nalika kualitas data anu luhur mangrupikeun hakekat. Kahiji, hiji bisa nangtukeun ngan hiji set kawates aturan pikeun direbut dina data sintétik. Salaku tambahan, nyetel sababaraha aturan biasana bakal nyababkeun aturan anu tumpang tindih sareng bertentangan. Leuwih ti éta, anjeun moal pernah pinuh nutupan sagala aturan relevan. Saterusna, meureun aya aturan relevan nu malah anjeun teu sadar. Sarta pamustunganana (jeung teu poho), ieu bakal mawa anjeun loba waktu jeung énergi hasilna solusi non-efisien.

  • Iraha nganggo éta: nalika anjeun teu gaduh data (acan)

Data sintétik dihasilkeun ku kecerdasan jieunan (AI)

Sakumaha anu anjeun ngarepkeun tina nami, data sintétik anu dihasilkeun ku kecerdasan jieunan (AI) nyaéta data sintétik anu dihasilkeun ku algoritma kecerdasan buatan (AI). Modél AI dilatih dina data asli pikeun neuleuman sagala ciri, hubungan sareng pola statistik. Saterusna, algoritma AI ieu bisa ngahasilkeun datapoints lengkep anyar jeung model eta titik data anyar dina cara nu reproduces ciri, hubungan jeung pola statistik tina susunan data aslina. Ieu anu urang sebut kembar data sintétik.

Model AI meniru data asli pikeun ngahasilkeun kembar data sintétik anu tiasa dianggo upami éta data asli. Ieu muka konci sagala rupa kasus pamakéan dimana AI dihasilkeun data sintétik bisa dipaké salaku alternatif pikeun ngagunakeun data aslina (sénsitip), kayaning pamakéan AI dihasilkeun data sintétik salaku data test, data demo atawa analytics.

A visualisasi kumaha data sintétik dijieun

Dibandingkeun sareng data sintétik dumasar aturan: tinimbang anjeun diajar sareng netepkeun aturan anu relevan, algoritma AI ngalakukeun ieu sacara otomatis pikeun anjeun. Di dieu, henteu ngan ciri, hubungan sareng pola statistik anu anjeun terang bakal katutupan, ogé ciri, hubungan sareng pola statistik anu anjeun henteu sadar bakal katutupan.

  • Iraha nganggo éta: nalika anjeun gaduh (sababaraha) data salaku input pikeun ditiru atanapi dianggo salaku titik awal pikeun ngahasilkeun data pinter sareng fitur ngagedekeun

Jenis data sintétik naon anu dianggo?

Gumantung kana kasus pamakean anjeun, kombinasi data dummy / data bohongan, data sintétik dumasar aturan atanapi data sintétik anu dihasilkeun ku kecerdasan jieunan (AI) disarankeun. Tinjauan ieu masihan anjeun indikasi munggaran ngeunaan jinis data sintétik anu bakal dianggo. Kusabab Syntho ngadukung sadayana, mangga ngahubungi para ahli kami pikeun nyelapkeun kasus panggunaan anjeun sareng kami.

Bagan ieu nunjukkeun sababaraha jinis data sintétik

panutup pituduh syntho

Simpen pituduh data sintétik anjeun ayeuna!