Med klassisk anonymisering innebär vi alla metoder där man manipulerar eller snedvrider en originaldataset för att hindra spårning av individer.
Typiska exempel på klassisk anonymisering som vi ser i praktiken är generalisering, undertryckning / torkning, pseudonymisering och rad- och kolumnblandning.
Härmed dessa tekniker med motsvarande exempel.
Teknik | Originaldata | Manipulerade data |
Generalisering | 27 år gammal | Mellan 25 och 30 år |
Undertryckning / torkning | info@syntho.ai | xxxx@xxxxxx.xx |
Pseudonymisering | amsterdam | hVFD6td3jdHHj78ghdgrewui6 |
Rad och kolumn blandning | Justerat | Blandat |
Att manipulera en datauppsättning med klassiska anonymiseringstekniker resulterar i två viktiga nackdelar:
Vi visar dessa två viktiga nackdelar, dataverktyg och integritetsskydd. Vi gör det med följande illustration med tillämpad undertryckning och generalisering.
Obs: vi använder bilder för illustrativa ändamål. Samma princip gäller för strukturerade datamängder.
Detta introducerar avvägningen mellan dataverktyg och integritetsskydd, där klassiska anonymiseringstekniker alltid erbjuder en suboptimal kombination av båda.
Nej. Detta är en stor missuppfattning och leder inte till anonym data. Tillämpar du fortfarande detta som ett sätt att anonymisera din datamängd? Då är den här bloggen ett måste för dig.
Syntho utvecklar programvara för att generera en helt ny dataset med färska dataposter. Information för att identifiera verkliga individer finns helt enkelt inte i en syntetisk datamängd. Eftersom syntetiska data innehåller artificiella dataregister som genereras av programvara finns personuppgifter helt enkelt inte, vilket resulterar i en situation utan några integritetsrisker.
Den viktigaste skillnaden på Syntho: vi tillämpar maskininlärning. Följaktligen reproducerar vår lösning strukturen och egenskaperna hos den ursprungliga datamängden i den syntetiska datamängden vilket resulterar i maximerad dataverktyg. Följaktligen kommer du att kunna få samma resultat när du analyserar de syntetiska uppgifterna jämfört med att använda originaldata.
Denna fallstudie visar höjdpunkter från vår kvalitetsrapport som innehåller olika statistik från syntetiska data som genereras genom vår Syntho Engine i jämförelse med originaldata.
Sammanfattningsvis är syntetiska data den föredragna lösningen för att övervinna den typiska suboptimala avvägningen mellan dataverktyg och integritetsskydd, som alla klassiska anonymiseringstekniker erbjuder dig.
Sammanfattningsvis bör man alltid välja syntetiska data när det gäller användnings- och integritetsskyddsperspektiv när ditt användningsfall tillåter det.
Värde för analys | Sekretessrisk | |
Syntetiska data | Hög | Ingen |
Verkliga (personliga) uppgifter | Hög | Hög |
Manipulerad data (genom klassisk 'anonymisering') | Låg-Medium | Medelhög |
Syntetiska data från Syntho fyller luckorna där klassiska anonymiseringstekniker blir korta genom att maximera båda dataverktyg och Privat skydd.