Kanthi anonimisasi klasik, kita tegese kabeh metodologi ing endi ana sing ngapusi utawa distorsi set data asli kanggo ngalangi nelusuri individu.
Tuladha umum anonimisasi klasik sing ditemokake ing praktik yaiku generalisasi, penekanan / usap, jeneng samaran lan shuffling baris lan kolom.
Iki teknik kasebut nganggo conto sing cocog.
technique | Data asli | Data sing dimanipulasi |
Generalisasi | 27 taun | Ing antarane umur 25 nganti 30 taun |
Suppression / Ngusap | info@syntho.ai | xxx@xxxxxx.xx |
Jeneng samaran | Amsterdam | hVFD6td3jdHHj78ghdgrewui6 |
Ngacak baris lan kolom | Selaras | Diacak-acak |
Manipulasi set data kanthi teknik anonim klasik ngasilake 2 tombol:
Kita nduduhake 2 kekurangan utama, utilitas data lan perlindungan privasi. Kita nindakake kanthi ilustrasi ing ngisor iki kanthi supresi lan generalisasi sing ditrapake.
Cathetan: kita nggunakake gambar kanggo ilustrasi. Prinsip sing padha kanggo data sing wis kabentuk.
Iki ngenalake perdagangan antara utilitas data lan perlindungan privasi, ing endi teknik anonimisasi klasik mesthi nawakake kombinasi suboptimal kalorone.
Ora. Iki salah paham lan ora nyebabake data anonim. Apa sampeyan isih ngetrapake iki minangka cara kanggo anonimake set data? Banjur blog iki kudu diwaca kanggo sampeyan.
Syntho nggawe piranti lunak kanggo ngasilake data anyar sing anyar. Informasi kanggo ngenali individu nyata ora ana ing set data sintetik. Amarga data sintetis ngemot data data buatan sing digawe dening piranti lunak, data pribadi ora ana saiki sing nyebabake kahanan tanpa risiko privasi.
Bentenipun utama ing Syntho: kita nggunakake pembelajaran mesin. Akibate, solusi kita ngasilake struktur lan sifat saka kumpulan data asli ing kumpulan data sintetik sing ngasilake maksimal panggunaan data. Miturut sampeyan, sampeyan bakal bisa entuk asil sing padha nalika nganalisa data sintetik tinimbang nggunakake data asli.
Studi kasus iki nuduhake sorotan saka laporan kualitas sing ngemot macem-macem statistik saka data sintetik sing digawe liwat Mesin Syntho sing dibandhingake karo data asli.
Kesimpulane, data sintetik minangka solusi sing disenengi kanggo ngatasi perdagangan sub-optimal ing antarane utilitas data lan perlindungan privasi, sing ditawakake kabeh teknik anonim klasik.
Kesimpulane, saka perspektif data-utilitas lan proteksi privasi, sampeyan kudu milih data sintetik nalika nggunakake kasus.
Nilai kanggo analisis | Resiko privasi | |
Data sintetik | High | Ana |
Data nyata (pribadi) | High | High |
Data sing dimanipulasi (liwat 'anonimisasi' klasik) | Sedheng | Sedheng-Dhuwur |
Data sintetik dening Syntho ngisi kesenjangan ing endi teknik anonimisasi klasik gagal kanthi maksimal kanggo kalorone sarana data lan nglindhungi privasi.