Bakit ang klasikong anonymization (at pseudonymization) ay hindi nagreresulta sa hindi nagpapakilalang data

Saklaw ng blog na ito ang mga sumusunod na paksa:

Ano ang klasikong anonymization?
Ano ang mga disadvantages ng klasikong anonymization?
Bakit nag-aalok ang mga klasikong diskarte sa anonymization ng isang suboptimal na kumbinasyon sa pagitan ng data-utlity at proteksyon sa privacy ?.
Paano naiiba ang Synthetic Data?
Bakit ka pa rin gumagamit ng personal na data kung maaari kang gumamit ng data ng synthetic?

Ano ang klasikong anonymization?

Sa klasikong anonymization, ipinapahiwatig namin ang lahat ng mga pamamaraan na kung saan ang isang manipulahin o distort ng isang orihinal na dataset upang hadlangan ang pagsunod sa mga indibidwal.

Karaniwang mga halimbawa ng klasikong anonymization na nakikita namin sa pagsasanay ay ang paglalahat, pagsugpo / pagpunas, pseudonymization at row at haligi ng shuffling.

Sa pamamagitan nito ang mga diskarteng iyon na may kaukulang mga halimbawa.

Pamamaraan	Orihinal na data	Manipuladong data
Kalahatan	27 taon gulang	Sa pagitan ng 25 at 30 taong gulang
Pagpigil / Pagpahid	info@syntho.ai	xxx@xxxxxx.xx
Pseudonymization	Amsterdam	hVFD6td3jdHHj78ghdgrewui6
Pag-shuffling ng row at haligi	Nakahanay	Binasa

Ano ang mga disadvantages ng klasikong anonymization?

Ang pagmamanipula ng isang dataset na may mga klasikong diskarte sa pagpapakilala ay nagreresulta sa 2 mga kawalan ng key:

Ang pagdidistansya ng isang resulta ng dataset ay nabawasan ang kalidad ng data (ie paggamit ng data). Ipinakikilala nito ang klasikong alituntunin sa pagtapon ng basura.
Panganib sa privacy mababawasan, ngunit ay laging naroroon. Manatili ito at manipulahin ang bersyon ng orihinal na dataset na may 1-1 na ugnayan.

Ipinapakita namin ang 2 pangunahing mga kawalan, paggamit ng data at proteksyon sa privacy. Ginagawa namin iyon sa sumusunod na ilustrasyon na may inilapat na pagpigil at paglalahat.

Tandaan: gumagamit kami ng mga imahe para sa nakalalarawang layunin. Ang parehong prinsipyo ay humahawak para sa mga nakabalangkas na mga dataset.

Kaliwa: maliit na aplikasyon ng klasikong anonymization nagresulta sa isang kinatawan ng paglalarawan. Gayunpaman, ang indibidwal ay madaling makilala at ang panganib sa privacy ay makabuluhan.

Kanan: ang matinding aplikasyon ng klasikong anonymization ay nagreresulta sa malakas na proteksyon sa privacy. Gayunpaman, ang ilustrasyon ay naging walang silbi.

Nag-aalok ang mga diskarteng klasikong anonymization ng isang suboptimal na kumbinasyon sa pagitan ng data-utility at proteksyon sa privacy.

Ipinakikilala nito ang trade-off sa pagitan ng utility ng data at proteksyon sa privacy, kung saan palaging nag-aalok ang mga diskarteng klasikong hindi nagpapakilala ng isang suboptimal na kumbinasyon ng pareho.

Ang pag-aalis ba ng lahat ng mga direktang identifier (tulad ng mga pangalan) mula sa dataset ay isang solusyon?

Hindi. Ito ay isang malaking maling kuru-kuro at hindi nagreresulta sa hindi nagpapakilalang data. Inilapat mo pa rin ba ito bilang paraan upang ma-anonymize ang iyong dataset? Pagkatapos ang blog na ito ay dapat basahin para sa iyo.

Paano naiiba ang Synthetic Data?

Bumubuo ang Syntho ng software upang makabuo ng isang ganap na bagong dataset ng mga sariwang tala ng data. Ang impormasyon upang makilala ang totoong mga indibidwal ay simpleng wala sa isang synthetic na dataset. Dahil ang data ng gawa ng tao ay naglalaman ng mga artipisyal na tala ng data na nilikha ng software, ang personal na data ay wala lamang na nagreresulta sa isang sitwasyon na walang mga panganib sa privacy.

Ang pangunahing pagkakaiba sa Syntho: inilalapat namin ang pag-aaral ng makina. Dahil dito, ginagampanan ng aming solusyon ang istraktura at mga pag-aari ng orihinal na dataset sa sintetikong dataset na nagreresulta sa na-maximize na paggamit ng data. Alinsunod dito, makakakuha ka ng parehong mga resulta kapag pinag-aaralan ang data ng gawa ng tao kumpara sa paggamit ng orihinal na data.

Ang case study na ito nagpapakita ng mga highlight mula sa aming ulat sa kalidad na naglalaman ng iba't ibang mga istatistika mula sa gawa ng tao na data na nabuo sa pamamagitan ng aming Syntho Engine kumpara sa orihinal na data.

Sa konklusyon, ang synthetic data ay ang ginustong solusyon upang mapagtagumpayan ang tipikal na sub-optimal na trade-off sa pagitan ng data-utility at proteksyon sa privacy, na inaalok sa iyo ng lahat ng mga klasikong diskarte sa anonymization.

Kaya, bakit gumagamit ng totoong (sensitibo) na data kung maaari kang gumamit ng data na gawa ng tao?

Sa konklusyon, mula sa isang data-utility at pananaw sa proteksyon sa privacy, dapat palaging pumili ang isang tao para sa synthetic data kapag pinapayagan ito ng iyong use-case.

	Halaga para sa pagtatasa	Panganib sa privacy
Data ng sintetiko	Mataas	Wala
Real (personal) na data	Mataas	Mataas
Na-manipulate na data (sa pamamagitan ng klasikong 'anonymization')	Mababang-Katamtaman	Katamtaman-Mataas

Ang data ng gawa ng tao sa pamamagitan ng Syntho ay pumupuno sa mga puwang kung saan ang mga diskarteng klasikong hindi nagpapakilala ay nahulog sa pamamagitan ng pag-maximize ng pareho data-utility at proteksyon sa privacy.

Interesado?

I-explore ang idinagdag na halaga ng Synthetic Data sa amin

BOOK DEMO

Ano ang synthetic data?

Ulat sa pagtitiyak ng kalidad

Panlabas na pagsusuri ng SAS

Sintetikong data ng serye ng oras

PII Scanner

Synthetic Mock Data

Pare-parehong pagmamapa

De-identification at synthetization

Batay sa panuntunang Synthetic Data

Subsetting

Deployment at integration

Connectors

Pinalawak na mga tampok

Sinusuportahang data

Dokumentasyon ng gumagamit

Mag-iskedyul ng isang demo

pagpepresyo

Synthetic data bilang data ng pagsubok

Sintetikong data para sa analytics

Sintetikong data para sa pagbabahagi ng data

Sintetikong data para sa mga demo ng produkto

Healthcare

Pananalapi

Mga Pampublikong Organisasyon

Dokumentasyon ng gumagamit

Mga Whitepaper at Gabay

Blog

Webinar

Pag-aaral ng Kaso