Med klassisk anonymisering antyder vi alle metoder, hvor man manipulerer eller forvrænger et originalt datasæt for at forhindre sporing af enkeltpersoner.
Typiske eksempler på klassisk anonymisering, som vi ser i praksis, er generalisering, undertrykkelse / aftørring, pseudonymisering og række og kolonne -blanding.
Herved disse teknikker med tilsvarende eksempler.
Teknik | Oprindelige data | Manipulerede data |
Generalisering | 27 år gammel | Mellem 25 og 30 år gammel |
Undertrykkelse / aftørring | info@syntho.ai | xxxx@xxxxxx.xx |
Pseudonymisering | Amsterdam | hVFD6td3jdHHj78ghdgrewui6 |
Række og søjle blandes | Alliancefri | Blandet |
Manipulering af et datasæt med klassiske anonymiseringsteknikker resulterer i 2 nøgle ulemper:
Vi demonstrerer disse to vigtige ulemper, dataværktøj og beskyttelse af fortrolige oplysninger. Vi gør det med følgende illustration med anvendt undertrykkelse og generalisering.
Bemærk: vi bruger billeder til illustrative formål. Det samme princip gælder for strukturerede datasæt.
Dette introducerer afvejningen mellem dataværktøj og beskyttelse af fortrolige oplysninger, hvor klassiske anonymiseringsteknikker altid tilbyder en suboptimal kombination af begge.
Nej. Dette er en stor misforståelse og resulterer ikke i anonyme data. Anvender du stadig dette som en måde at anonymisere dit datasæt? Så er denne blog et must -read for dig.
Syntho udvikler software til at generere et helt nyt datasæt med friske dataregistre. Information til identifikation af virkelige individer findes simpelthen ikke i et syntetisk datasæt. Da syntetiske data indeholder kunstige dataregistreringer genereret af software, er personlige data simpelthen ikke til stede, hvilket resulterer i en situation uden fortrolige risici.
Den vigtigste forskel hos Syntho: vi anvender maskinlæring. Derfor reproducerer vores løsning strukturen og egenskaberne for det originale datasæt i det syntetiske datasæt, hvilket resulterer i maksimeret data-nytteværdi. Derfor vil du være i stand til at opnå de samme resultater, når du analyserer de syntetiske data i forhold til at bruge de originale data.
Dette casestudie demonstrerer højdepunkter fra vores kvalitetsrapport, der indeholder forskellige statistikker fra syntetiske data genereret gennem vores Syntho Engine i forhold til de originale data.
Afslutningsvis er syntetiske data den foretrukne løsning til at overvinde den typiske suboptimale afvejning mellem data-utility og beskyttelse af fortrolige oplysninger, som alle klassiske anonymiseringsteknikker tilbyder dig.
Afslutningsvis bør man fra et dataværktøj og et privatlivsbeskyttelsesperspektiv altid vælge syntetiske data, når din use-case tillader det.
Værdi til analyse | Privatlivsrisiko | |
Syntetiske data | Høj | Ingen |
Ægte (personlige) data | Høj | Høj |
Manipulerede data (gennem klassisk 'anonymisering') | Low-Medium | Medium-Høj |
Syntetiske data fra Syntho fylder hullerne, hvor klassiske anonymiseringsteknikker mangler ved at maksimere begge dele data-hjælpeprogram , privatlivsbeskyttelse.