Mengapa anonimisasi klasik (dan nama samaran) tidak menghasilkan data tanpa nama

Blog ini merangkumi topik berikut:

Apa itu anonim klasik?
Apakah kelemahan penyebutan klasik?
Mengapa teknik anonimasi klasik menawarkan kombinasi suboptimal antara utiliti data dan perlindungan privasi ?.
Bagaimana Data Sintetik berbeza?
Mengapa masih menggunakan data peribadi jika anda boleh menggunakan data sintetik?

Apa itu anonim klasik?

Dengan anonimisasi klasik, kami menyiratkan semua metodologi di mana seseorang memanipulasi atau memutarbelitkan kumpulan data asal untuk menghalang pengesanan individu.

Contoh khas anonimisasi klasik yang kita lihat dalam praktiknya adalah generalisasi, penindasan / penghapusan, pseudonymization dan perombakan baris dan lajur.

Dengan ini teknik-teknik dengan contoh yang sesuai.

Teknik	Data asal	Data yang dimanipulasi
Generalisasi	Berusia tahun 27	Berumur antara 25 hingga 30 tahun
Penindasan / Penghapusan	info@syntho.ai	xxx@xxxxxx.xx
Nama samaran	Amsterdam	hVFD6td3jdHHj78ghdgrewui6
Perombakan baris dan lajur	Sejajar	Tergesa-gesa

Apakah kelemahan penyebutan klasik?

Memanipulasi set data dengan teknik anonimasi klasik menghasilkan 2 kelemahan utama:

Memesongkan set data mengakibatkan penurunan kualiti data (iaitu utiliti data). Ini memperkenalkan prinsip sampah-sampah sampah klasik.
Risiko privasi akan dikurangkan, tetapi akan sentiasa hadir. Ia tetap dan dimanipulasi versi set data asal dengan hubungan 1-1.

Kami menunjukkan 2 kelemahan utama, utiliti data dan perlindungan privasi. Kami melakukannya dengan gambaran berikut dengan penekanan dan generalisasi yang berlaku.

Catatan: kami menggunakan gambar untuk tujuan ilustrasi. Prinsip yang sama berlaku untuk set data berstruktur.

Kiri: sedikit penerapan anonimisasi klasik menghasilkan gambaran yang representatif. Walau bagaimanapun, individu itu dapat dikenali dengan mudah dan risiko privasi adalah penting.

Kanan: penggunaan anonimisasi klasik yang teruk menghasilkan perlindungan privasi yang kuat. Walau bagaimanapun, ilustrasi menjadi tidak berguna.

Teknik anonimasi klasik menawarkan kombinasi suboptimum antara utiliti data dan perlindungan privasi.

Ini memperkenalkan pertukaran antara utiliti data dan perlindungan privasi, di mana teknik anonimasi klasik selalu menawarkan kombinasi suboptimum dari keduanya.

Adakah penghapusan semua pengecam langsung (seperti nama) dari set data adalah penyelesaian?

Tidak. Ini adalah salah tanggapan besar dan tidak menghasilkan data tanpa nama. Adakah anda masih menggunakan kaedah ini untuk menganonimkan set data anda? Maka blog ini mesti dibaca untuk anda.

Bagaimana Data Sintetik berbeza?

Syntho mengembangkan perisian untuk menghasilkan set data baru data rekod baru. Maklumat untuk mengenal pasti individu sebenar tidak terdapat dalam set data sintetik. Oleh kerana data sintetik mengandungi catatan data buatan yang dihasilkan oleh perisian, data peribadi tidak ada sehingga mengakibatkan situasi tanpa risiko privasi.

Perbezaan utama di Syntho: kami menerapkan pembelajaran mesin. Oleh itu, penyelesaian kami menghasilkan semula struktur dan sifat set data asal dalam set data sintetik yang menghasilkan utiliti data yang dimaksimumkan. Dengan demikian, anda akan dapat memperoleh hasil yang sama ketika menganalisis data sintetik dibandingkan dengan menggunakan data asli.

Kajian kes ini menunjukkan sorotan dari laporan kualiti kami yang mengandungi pelbagai statistik dari data sintetik yang dihasilkan melalui Syntho Engine kami berbanding dengan data asal.

Kesimpulannya, data sintetik adalah penyelesaian yang disukai untuk mengatasi pertukaran sub-optimum tipikal antara utiliti data dan perlindungan privasi, yang semua teknik anonimasi klasik menawarkan kepada anda.

Jadi, mengapa menggunakan data sebenar (sensitif) apabila anda dapat menggunakan data sintetik?

Kesimpulannya, dari perspektif utiliti data dan perlindungan privasi, seseorang harus selalu memilih data sintetik apabila kes penggunaan anda memungkinkan.

	Nilai untuk analisis	Risiko privasi
Data sintetik	Tinggi	Tiada
Data sebenar (peribadi)	Tinggi	Tinggi
Data yang dimanipulasi (melalui 'anonymization' klasik)	Rendah Sederhana	Sederhana Tinggi

Data sintetik oleh Syntho mengisi jurang di mana teknik anonimasi klasik gagal dengan memaksimumkan kedua-duanya utiliti data and perlindungan privasi.

Berminat?

Terokai nilai tambah Data Sintetik dengan kami

BUKU DEMO

Apa itu data sintetik?

Laporan jaminan kualiti

Penilaian luaran oleh SAS

Data sintetik siri masa

Pengimbas PII

Data Olok-olok Sintetik

Pemetaan yang konsisten

Nyahpengenalpastian dan sintesis

Data Sintetik berasaskan peraturan

Subset

Penyebaran dan penyepaduan

Penyambung

Ciri lanjutan

Data yang disokong

Dokumentasi pengguna

Jadualkan demo

Harga

Data sintetik sebagai data ujian

Data sintetik untuk analisis

Data sintetik untuk perkongsian data

Data sintetik untuk demo produk

Healthcare

Kewangan

Organisasi Awam

Dokumentasi pengguna

Kertas Putih dan Panduan

Blog

Webinars

Kajian kes