Ngano nga ang klasikong anonymization (ug pseudonymization) dili moresulta sa dili nagpaila nga datos

Unsa ang klasiko nga pagpaila sa ngalan?

Uban sa klasiko nga pagpaila sa ngalan, gipakita namon ang tanan nga mga pamaagi diin ang usa nagmaniobra o nagtuis sa usa ka orihinal nga dataset aron makababag sa pagsubay sa mga indibidwal.

Kasagaran nga mga pananglitan sa klasiko nga pagpaila sa ngalan nga nakita sa praktis mao ang paglahat, pagsumpo / pagpahid, pseudonymization ug pagbag-o sa laray ug haligi.

Niini ang mga pamaagi nga adunay katugbang nga mga pananglitan.

Ang teknik Orihinal nga datos Gipaandar ang datos
Pag-analisar 27 anyos Tali sa 25 ug 30 ang edad
Pagpugong / Pagpahid info@syntho.ai xxx@xxxxxx.xx
Pseudonymization Amsterdam hVFD6td3jdHHj78ghdgrewui6
Pag-shuffling sa laray ug haligi Nakahanay Gi-shuffle

Unsa man ang mga dili kapuslan sa klasiko nga pagpaila sa ngalan?

Ang pagmaniobra sa usa ka dataset nga adunay klasiko nga mga pamaagi sa pagpaila sa ngalan nga nagresulta sa 2 nga mga kakulangan nga mga yawi:

  1. Ang pagbalhin sa usa ka set sa mga resulta sa pagkunhod sa kalidad sa datos (ie paggamit sa datos). Gipaila niini ang klasiko nga prinsipyo sa basura-sa basura.
  2. Peligro sa privacy maminusan, apan kanunay naa. Nagpabilin kini ug gimaniobra nga bersyon sa orihinal nga dataset nga adunay 1-1 nga mga relasyon.

Gipakita namon ang 2 nga hinungdan nga mga kakulangan, paggamit sa datos ug proteksyon sa privacy. Gihimo namon kana sa mosunud nga ilustrasyon nga adunay gigamit nga pagpugong ug pag-isa sa kadaghanan.

Hinumdomi: naggamit kami mga imahen alang sa masambingayon nga katuyoan. Ang parehas nga prinsipyo nga gihuptan alang sa mga gitukod nga mga dataset.

Napakyas ang klasikal nga pagpaila sa ngalan
  • Sa wala: gamay nga aplikasyon sa klasiko nga anonymization nga sangputanan sa usa ka representante nga ilustrasyon. Bisan pa, ang indibidwal dali mailhan ug hinungdan ang peligro sa privacy.

 

  • Tuo: grabe nga aplikasyon sa klasiko nga pagpaila sa ngalan nga nagresulta sa kusug nga proteksyon sa privacy. Bisan pa, ang ilustrasyon nahimong wala’y pulos.

Ang mga teknik sa klasiko nga pagpaila sa ngalan mao ang nagtanyag us aka suboptimal nga kombinasyon tali sa paggamit sa datos ug proteksyon sa privacy.

Gipaila niini ang trade-off taliwala sa paggamit sa datos ug pagpanalipod sa privacy, diin ang mga klasiko nga pamaagi sa pagpaila sa dili pagpaila sa ngalan kanunay nga nagtanyag us aka suboptimal nga kombinasyon sa pareho. 

classic anonymization utility curve

Ang pagkuha ba sa tanan nga direkta nga nagpaila (sama sa mga ngalan) gikan sa dataset usa ka solusyon?

Dili. Kini usa ka dako nga sayup nga pagsabut ug wala magresulta sa dili nagpaila nga datos. Ig-apply mo pa ba kini ingon usa ka paagi aron ma-anonymize ang imong dataset? Unya kini nga blog kinahanglan basahon alang kanimo.

Giunsa lahi ang Synthetic Data?

Naghimo ang Syntho og software aron makahimo usa ka bag-ong datos sa mga lab-as nga rekord sa datos. Ang kasayuran aron mahibal-an ang tinuud nga mga indibidwal wala sa usa ka sintetikong dataset. Tungod kay ang sintetikong datos adunay sulud nga mga rekord sa artipisyal nga datos nga gimugna sa software, ang personal nga datos sa yano wala karon nga nagresulta sa usa ka sitwasyon nga wala’y mga peligro sa privacy.

Ang hinungdanon nga kalainan sa Syntho: gigamit namon ang pagkahibalo sa makina. Tungod niini, gihimo sa among solusyon ang istraktura ug mga kabtangan sa orihinal nga dataset sa sintetikong dataset nga nagresulta sa gipadako nga paggamit sa datos. Ingon niini, mahimo ka makakuha sa parehas nga mga sangputanan kung analisahon ang sintetikong datos kung itandi sa paggamit sa orihinal nga datos.

Kini nga pagtuon sa kaso nagpakita sa mga highlight gikan sa among kalidad nga ulat nga adunay sulud nga lainlaing mga estadistika gikan sa sintetikong datos nga gihimo pinaagi sa among Syntho Engine kumpara sa orihinal nga datos.

Sa konklusyon, ang sintetikong datos mao ang gipalabi nga solusyon aron mabuntog ang tipikal nga sub-optimal nga trade-off taliwala sa paggamit sa datos ug proteksyon sa privacy, nga gitanyag kanimo sa tanan nga klasiko nga mga pamaagi sa pagpaila sa ngalan.

classic anonymization utility curve

Mao nga, ngano nga mogamit tinuud (sensitibo) nga datos kung mahimo nimo gamiton ang sintetikong datos?

Sa konklusyon, gikan sa us aka data-utility ug panan-aw sa proteksyon sa privacy, kinahanglan kanunay nga pilion ang usa nga sintetikong datos kung gitugot kini sa imong use-case.

 Bililhon alang sa pagtukiPeligro sa privacy
Data sa sintetikoHataasWalay
Tinuod (personal) nga datosHataasHataas
Gipaandar ang datos (pinaagi sa klasiko nga 'anonymization')Ubos nga mediumMedium-Taas
ideya

Ang sintetikong datos ni Syntho nagpuno sa mga kal-angan diin ang mga teknik sa klasiko nga pagpaila sa ngalan wala magkulang pinaagi sa pag-maximize sa pareho paggamit sa datos ug pagpanalipod sa privacy.

Interesado?

Pag-usisa ang dugang nga kantidad sa Synthetic Data uban kanamo