Bakit ang klasikong anonymization (at pseudonymization) ay hindi nagreresulta sa hindi nagpapakilalang data

Ano ang klasikong anonymization?

Sa klasikong anonymization, ipinapahiwatig namin ang lahat ng mga pamamaraan na kung saan ang isang manipulahin o distort ng isang orihinal na dataset upang hadlangan ang pagsunod sa mga indibidwal.

Karaniwang mga halimbawa ng klasikong anonymization na nakikita namin sa pagsasanay ay ang paglalahat, pagsugpo / pagpunas, pseudonymization at row at haligi ng shuffling.

Sa pamamagitan nito ang mga diskarteng iyon na may kaukulang mga halimbawa.

Pamamaraan Orihinal na data Manipuladong data
Kalahatan 27 taon gulang Sa pagitan ng 25 at 30 taong gulang
Pagpigil / Pagpahid info@syntho.ai xxx@xxxxxx.xx
Pseudonymization Amsterdam hVFD6td3jdHHj78ghdgrewui6
Pag-shuffling ng row at haligi Nakahanay Binasa

Ano ang mga disadvantages ng klasikong anonymization?

Ang pagmamanipula ng isang dataset na may mga klasikong diskarte sa pagpapakilala ay nagreresulta sa 2 mga kawalan ng key:

  1. Ang pagdidistansya ng isang resulta ng dataset ay nabawasan ang kalidad ng data (ie paggamit ng data). Ipinakikilala nito ang klasikong alituntunin sa pagtapon ng basura.
  2. Panganib sa privacy mababawasan, ngunit ay laging naroroon. Manatili ito at manipulahin ang bersyon ng orihinal na dataset na may 1-1 na ugnayan.

Ipinapakita namin ang 2 pangunahing mga kawalan, paggamit ng data at proteksyon sa privacy. Ginagawa namin iyon sa sumusunod na ilustrasyon na may inilapat na pagpigil at paglalahat.

Tandaan: gumagamit kami ng mga imahe para sa nakalalarawang layunin. Ang parehong prinsipyo ay humahawak para sa mga nakabalangkas na mga dataset.

Nabigo ang klasikong anonymization
  • Kaliwa: maliit na aplikasyon ng klasikong anonymization nagresulta sa isang kinatawan ng paglalarawan. Gayunpaman, ang indibidwal ay madaling makilala at ang panganib sa privacy ay makabuluhan.

 

  • Kanan: ang matinding aplikasyon ng klasikong anonymization ay nagreresulta sa malakas na proteksyon sa privacy. Gayunpaman, ang ilustrasyon ay naging walang silbi.

Nag-aalok ang mga diskarteng klasikong anonymization ng isang suboptimal na kumbinasyon sa pagitan ng data-utility at proteksyon sa privacy.

Ipinakikilala nito ang trade-off sa pagitan ng utility ng data at proteksyon sa privacy, kung saan palaging nag-aalok ang mga diskarteng klasikong hindi nagpapakilala ng isang suboptimal na kumbinasyon ng pareho. 

classic na anonymization utility curve

Ang pag-aalis ba ng lahat ng mga direktang identifier (tulad ng mga pangalan) mula sa dataset ay isang solusyon?

Hindi. Ito ay isang malaking maling kuru-kuro at hindi nagreresulta sa hindi nagpapakilalang data. Inilapat mo pa rin ba ito bilang paraan upang ma-anonymize ang iyong dataset? Pagkatapos ang blog na ito ay dapat basahin para sa iyo.

Paano naiiba ang Synthetic Data?

Bumubuo ang Syntho ng software upang makabuo ng isang ganap na bagong dataset ng mga sariwang tala ng data. Ang impormasyon upang makilala ang totoong mga indibidwal ay simpleng wala sa isang synthetic na dataset. Dahil ang data ng gawa ng tao ay naglalaman ng mga artipisyal na tala ng data na nilikha ng software, ang personal na data ay wala lamang na nagreresulta sa isang sitwasyon na walang mga panganib sa privacy.

Ang pangunahing pagkakaiba sa Syntho: inilalapat namin ang pag-aaral ng makina. Dahil dito, ginagampanan ng aming solusyon ang istraktura at mga pag-aari ng orihinal na dataset sa sintetikong dataset na nagreresulta sa na-maximize na paggamit ng data. Alinsunod dito, makakakuha ka ng parehong mga resulta kapag pinag-aaralan ang data ng gawa ng tao kumpara sa paggamit ng orihinal na data.

Ang case study na ito nagpapakita ng mga highlight mula sa aming ulat sa kalidad na naglalaman ng iba't ibang mga istatistika mula sa gawa ng tao na data na nabuo sa pamamagitan ng aming Syntho Engine kumpara sa orihinal na data.

Sa konklusyon, ang synthetic data ay ang ginustong solusyon upang mapagtagumpayan ang tipikal na sub-optimal na trade-off sa pagitan ng data-utility at proteksyon sa privacy, na inaalok sa iyo ng lahat ng mga klasikong diskarte sa anonymization.

classic na anonymization utility curve

Kaya, bakit gumagamit ng totoong (sensitibo) na data kung maaari kang gumamit ng data na gawa ng tao?

Sa konklusyon, mula sa isang data-utility at pananaw sa proteksyon sa privacy, dapat palaging pumili ang isang tao para sa synthetic data kapag pinapayagan ito ng iyong use-case.

 Halaga para sa pagtatasaPanganib sa privacy
Data ng sintetikoMataasWala
Real (personal) na dataMataasMataas
Na-manipulate na data (sa pamamagitan ng klasikong 'anonymization')Mababang-KatamtamanKatamtaman-Mataas
idea

Ang data ng gawa ng tao sa pamamagitan ng Syntho ay pumupuno sa mga puwang kung saan ang mga diskarteng klasikong hindi nagpapakilala ay nahulog sa pamamagitan ng pag-maximize ng pareho data-utility at proteksyon sa privacy.

Interesado?

I-explore ang idinagdag na halaga ng Synthetic Data sa amin