Dengan anonimisasi klasik, kami menyiratkan semua metodologi di mana seseorang memanipulasi atau memutarbelitkan kumpulan data asal untuk menghalang pengesanan individu.
Contoh khas anonimisasi klasik yang kita lihat dalam praktiknya adalah generalisasi, penindasan / penghapusan, pseudonymization dan perombakan baris dan lajur.
Dengan ini teknik-teknik dengan contoh yang sesuai.
Teknik | Data asal | Data yang dimanipulasi |
Generalisasi | Berusia tahun 27 | Berumur antara 25 hingga 30 tahun |
Penindasan / Penghapusan | info@syntho.ai | xxx@xxxxxx.xx |
Nama samaran | Amsterdam | hVFD6td3jdHHj78ghdgrewui6 |
Perombakan baris dan lajur | Sejajar | Tergesa-gesa |
Memanipulasi set data dengan teknik anonimasi klasik menghasilkan 2 kelemahan utama:
Kami menunjukkan 2 kelemahan utama, utiliti data dan perlindungan privasi. Kami melakukannya dengan gambaran berikut dengan penekanan dan generalisasi yang berlaku.
Catatan: kami menggunakan gambar untuk tujuan ilustrasi. Prinsip yang sama berlaku untuk set data berstruktur.
Ini memperkenalkan pertukaran antara utiliti data dan perlindungan privasi, di mana teknik anonimasi klasik selalu menawarkan kombinasi suboptimum dari keduanya.
Tidak. Ini adalah salah tanggapan besar dan tidak menghasilkan data tanpa nama. Adakah anda masih menggunakan kaedah ini untuk menganonimkan set data anda? Maka blog ini mesti dibaca untuk anda.
Syntho mengembangkan perisian untuk menghasilkan set data baru data rekod baru. Maklumat untuk mengenal pasti individu sebenar tidak terdapat dalam set data sintetik. Oleh kerana data sintetik mengandungi catatan data buatan yang dihasilkan oleh perisian, data peribadi tidak ada sehingga mengakibatkan situasi tanpa risiko privasi.
Perbezaan utama di Syntho: kami menerapkan pembelajaran mesin. Oleh itu, penyelesaian kami menghasilkan semula struktur dan sifat set data asal dalam set data sintetik yang menghasilkan utiliti data yang dimaksimumkan. Dengan demikian, anda akan dapat memperoleh hasil yang sama ketika menganalisis data sintetik dibandingkan dengan menggunakan data asli.
Kajian kes ini menunjukkan sorotan dari laporan kualiti kami yang mengandungi pelbagai statistik dari data sintetik yang dihasilkan melalui Syntho Engine kami berbanding dengan data asal.
Kesimpulannya, data sintetik adalah penyelesaian yang disukai untuk mengatasi pertukaran sub-optimum tipikal antara utiliti data dan perlindungan privasi, yang semua teknik anonimasi klasik menawarkan kepada anda.
Kesimpulannya, dari perspektif utiliti data dan perlindungan privasi, seseorang harus selalu memilih data sintetik apabila kes penggunaan anda memungkinkan.
Nilai untuk analisis | Risiko privasi | |
Data sintetik | Tinggi | Tiada |
Data sebenar (peribadi) | Tinggi | Tinggi |
Data yang dimanipulasi (melalui 'anonymization' klasik) | Rendah Sederhana | Sederhana Tinggi |
Data sintetik oleh Syntho mengisi jurang di mana teknik anonimasi klasik gagal dengan memaksimumkan kedua-duanya utiliti data and perlindungan privasi.