Mengapa anonimisasi klasik (dan nama samaran) tidak menghasilkan data tanpa nama

Apa itu anonim klasik?

Dengan anonimisasi klasik, kami menyiratkan semua metodologi di mana seseorang memanipulasi atau memutarbelitkan kumpulan data asal untuk menghalang pengesanan individu.

Contoh khas anonimisasi klasik yang kita lihat dalam praktiknya adalah generalisasi, penindasan / penghapusan, pseudonymization dan perombakan baris dan lajur.

Dengan ini teknik-teknik dengan contoh yang sesuai.

Teknik Data asal Data yang dimanipulasi
Generalisasi Berusia tahun 27 Berumur antara 25 hingga 30 tahun
Penindasan / Penghapusan info@syntho.ai xxx@xxxxxx.xx
Nama samaran Amsterdam hVFD6td3jdHHj78ghdgrewui6
Perombakan baris dan lajur Sejajar Tergesa-gesa

Apakah kelemahan penyebutan klasik?

Memanipulasi set data dengan teknik anonimasi klasik menghasilkan 2 kelemahan utama:

  1. Memesongkan set data mengakibatkan penurunan kualiti data (iaitu utiliti data). Ini memperkenalkan prinsip sampah-sampah sampah klasik.
  2. Risiko privasi akan dikurangkan, tetapi akan sentiasa hadir. Ia tetap dan dimanipulasi versi set data asal dengan hubungan 1-1.

Kami menunjukkan 2 kelemahan utama, utiliti data dan perlindungan privasi. Kami melakukannya dengan gambaran berikut dengan penekanan dan generalisasi yang berlaku.

Catatan: kami menggunakan gambar untuk tujuan ilustrasi. Prinsip yang sama berlaku untuk set data berstruktur.

Ganti nama klasik gagal
  • Kiri: sedikit penerapan anonimisasi klasik menghasilkan gambaran yang representatif. Walau bagaimanapun, individu itu dapat dikenali dengan mudah dan risiko privasi adalah penting.

 

  • Kanan: penggunaan anonimisasi klasik yang teruk menghasilkan perlindungan privasi yang kuat. Walau bagaimanapun, ilustrasi menjadi tidak berguna.

Teknik anonimasi klasik menawarkan kombinasi suboptimum antara utiliti data dan perlindungan privasi.

Ini memperkenalkan pertukaran antara utiliti data dan perlindungan privasi, di mana teknik anonimasi klasik selalu menawarkan kombinasi suboptimum dari keduanya. 

keluk utiliti anonimasi klasik

Adakah penghapusan semua pengecam langsung (seperti nama) dari set data adalah penyelesaian?

Tidak. Ini adalah salah tanggapan besar dan tidak menghasilkan data tanpa nama. Adakah anda masih menggunakan kaedah ini untuk menganonimkan set data anda? Maka blog ini mesti dibaca untuk anda.

Bagaimana Data Sintetik berbeza?

Syntho mengembangkan perisian untuk menghasilkan set data baru data rekod baru. Maklumat untuk mengenal pasti individu sebenar tidak terdapat dalam set data sintetik. Oleh kerana data sintetik mengandungi catatan data buatan yang dihasilkan oleh perisian, data peribadi tidak ada sehingga mengakibatkan situasi tanpa risiko privasi.

Perbezaan utama di Syntho: kami menerapkan pembelajaran mesin. Oleh itu, penyelesaian kami menghasilkan semula struktur dan sifat set data asal dalam set data sintetik yang menghasilkan utiliti data yang dimaksimumkan. Dengan demikian, anda akan dapat memperoleh hasil yang sama ketika menganalisis data sintetik dibandingkan dengan menggunakan data asli.

Kajian kes ini menunjukkan sorotan dari laporan kualiti kami yang mengandungi pelbagai statistik dari data sintetik yang dihasilkan melalui Syntho Engine kami berbanding dengan data asal.

Kesimpulannya, data sintetik adalah penyelesaian yang disukai untuk mengatasi pertukaran sub-optimum tipikal antara utiliti data dan perlindungan privasi, yang semua teknik anonimasi klasik menawarkan kepada anda.

keluk utiliti anonimasi klasik

Jadi, mengapa menggunakan data sebenar (sensitif) apabila anda dapat menggunakan data sintetik?

Kesimpulannya, dari perspektif utiliti data dan perlindungan privasi, seseorang harus selalu memilih data sintetik apabila kes penggunaan anda memungkinkan.

 Nilai untuk analisisRisiko privasi
Data sintetikTinggiTiada
Data sebenar (peribadi)TinggiTinggi
Data yang dimanipulasi (melalui 'anonymization' klasik)Rendah SederhanaSederhana Tinggi
idea

Data sintetik oleh Syntho mengisi jurang di mana teknik anonimasi klasik gagal dengan memaksimumkan kedua-duanya utiliti data and perlindungan privasi.

Berminat?

Terokai nilai tambah Data Sintetik dengan kami