Sa klasikong anonymization, ipinapahiwatig namin ang lahat ng mga pamamaraan na kung saan ang isang manipulahin o distort ng isang orihinal na dataset upang hadlangan ang pagsunod sa mga indibidwal.
Karaniwang mga halimbawa ng klasikong anonymization na nakikita namin sa pagsasanay ay ang paglalahat, pagsugpo / pagpunas, pseudonymization at row at haligi ng shuffling.
Sa pamamagitan nito ang mga diskarteng iyon na may kaukulang mga halimbawa.
Pamamaraan | Orihinal na data | Manipuladong data |
Kalahatan | 27 taon gulang | Sa pagitan ng 25 at 30 taong gulang |
Pagpigil / Pagpahid | info@syntho.ai | xxx@xxxxxx.xx |
Pseudonymization | Amsterdam | hVFD6td3jdHHj78ghdgrewui6 |
Pag-shuffling ng row at haligi | Nakahanay | Binasa |
Ang pagmamanipula ng isang dataset na may mga klasikong diskarte sa pagpapakilala ay nagreresulta sa 2 mga kawalan ng key:
Ipinapakita namin ang 2 pangunahing mga kawalan, paggamit ng data at proteksyon sa privacy. Ginagawa namin iyon sa sumusunod na ilustrasyon na may inilapat na pagpigil at paglalahat.
Tandaan: gumagamit kami ng mga imahe para sa nakalalarawang layunin. Ang parehong prinsipyo ay humahawak para sa mga nakabalangkas na mga dataset.
Ipinakikilala nito ang trade-off sa pagitan ng utility ng data at proteksyon sa privacy, kung saan palaging nag-aalok ang mga diskarteng klasikong hindi nagpapakilala ng isang suboptimal na kumbinasyon ng pareho.
Hindi. Ito ay isang malaking maling kuru-kuro at hindi nagreresulta sa hindi nagpapakilalang data. Inilapat mo pa rin ba ito bilang paraan upang ma-anonymize ang iyong dataset? Pagkatapos ang blog na ito ay dapat basahin para sa iyo.
Bumubuo ang Syntho ng software upang makabuo ng isang ganap na bagong dataset ng mga sariwang tala ng data. Ang impormasyon upang makilala ang totoong mga indibidwal ay simpleng wala sa isang synthetic na dataset. Dahil ang data ng gawa ng tao ay naglalaman ng mga artipisyal na tala ng data na nilikha ng software, ang personal na data ay wala lamang na nagreresulta sa isang sitwasyon na walang mga panganib sa privacy.
Ang pangunahing pagkakaiba sa Syntho: inilalapat namin ang pag-aaral ng makina. Dahil dito, ginagampanan ng aming solusyon ang istraktura at mga pag-aari ng orihinal na dataset sa sintetikong dataset na nagreresulta sa na-maximize na paggamit ng data. Alinsunod dito, makakakuha ka ng parehong mga resulta kapag pinag-aaralan ang data ng gawa ng tao kumpara sa paggamit ng orihinal na data.
Ang case study na ito nagpapakita ng mga highlight mula sa aming ulat sa kalidad na naglalaman ng iba't ibang mga istatistika mula sa gawa ng tao na data na nabuo sa pamamagitan ng aming Syntho Engine kumpara sa orihinal na data.
Sa konklusyon, ang synthetic data ay ang ginustong solusyon upang mapagtagumpayan ang tipikal na sub-optimal na trade-off sa pagitan ng data-utility at proteksyon sa privacy, na inaalok sa iyo ng lahat ng mga klasikong diskarte sa anonymization.
Sa konklusyon, mula sa isang data-utility at pananaw sa proteksyon sa privacy, dapat palaging pumili ang isang tao para sa synthetic data kapag pinapayagan ito ng iyong use-case.
Halaga para sa pagtatasa | Panganib sa privacy | |
Data ng sintetiko | Mataas | Wala |
Real (personal) na data | Mataas | Mataas |
Na-manipulate na data (sa pamamagitan ng klasikong 'anonymization') | Mababang-Katamtaman | Katamtaman-Mataas |
Ang data ng gawa ng tao sa pamamagitan ng Syntho ay pumupuno sa mga puwang kung saan ang mga diskarteng klasikong hindi nagpapakilala ay nahulog sa pamamagitan ng pag-maximize ng pareho data-utility at proteksyon sa privacy.