Bekijk alle berichten

Wat is de-identificatie van data en waarom heb ik dit nodig?

Auteur van het artikel
Sjahin Huseyngulu Klantenservice-ingenieur en datawetenschapper
Inhoudsopgave

Gegevens zijn nodig voor testen, onderzoek en algoritmetraining. Privacyregelgeving en databeveiligingsprotocollen betekenen echter dat bedrijven deze niet zomaar op hun verzamelde data kunnen uitvoeren. Bedrijven riskeren hoge financiële verliezen en reputatieschade als dergelijke data lekken. Dit is waar geanonimiseerde data in het spel komen.

Door data te de-identificeren, verwijdert u directe en indirecte identificatoren uit de datasets, waardoor het onmogelijk wordt om de informatie terug te leiden naar individuen. Handmatige de-identificatie is echter tijdrovend en foutgevoelig. Bedrijven kunnen automatiseringstools gebruiken, maar niet alle bieden dezelfde mate van privacy. Erger nog, bepaalde technieken verminderen de bruikbaarheid van data, waardoor deze minder geschikt is voor het doel.

In ons artikel bespreken we de populairste technieken voor data-de-identificatie en leggen we uit hoe u de kwaliteit van de datasets kunt behouden. Maar laten we eerst beginnen met de definitie van de ge-de-identificeerde data.

Syntho-gids

Uw gids voor het genereren van synthetische data

Wat is de-identificatie van data?

Gegevensanonimisering betekent het verwijderen, maskeren of vervangen van gevoelige persoonlijk identificeerbare informatie (PII) uit data. Met dit proces kunnen bedrijven voldoen aan de privacyregelgeving wanneer zij dat doen gebruik data voor testen, analyses, onderzoek, enzovoort.

PII kan gevoelige data direct en indirect onthullen via identificatiedata. Directe identificatiedata verwijzen naar een individu en kunnen het volgende omvatten:

  • Volledige namen
  • Unieke identificatienummers (Social Security-nummer, certificaat, licentienummer, enz.)
  • Paspoortscans
  • Locatie data 
  • Biometrische identificatiedata (vingerafdruk, stemmonster, gezichtsherkenning, enz.)
  • Lidmaatschapskaarten van vakbonden
  • Beveiligde gezondheidsinformatie (medische dossiers, behandelgeschiedenis, etc.)

Indirecte identificatiedata kan worden gebruikt om een ​​individu te identificeren wanneer gecombineerd met andere informatie. Voorbeelden van deze data zijn: 

  • Geboortedatum
  • Postcode
  • Contactdata (e-mailadres, telefoon- of faxnummer, web-URL, enz.) 
  • IP adressen
  • Voertuig informatie
  • Gender identiteit
  • Educatieve informatie
  • Productserienummers
  • Transactie Geschiedenis
  • Werkgelegenheidsdata
  • Privécommunicatie (correspondentie)

Omgaan met identifiers is een behoorlijke uitdaging, gezien de hoeveelheid informatie die organisaties dagelijks verzamelen.

Gevoelige informatie wordt in alle sectoren gevonden

Bedrijven in alle sectoren indirecte informatie verzamelen die iemands identiteit kan onthullen en daarmee de privacywetten kan overtreden. Hier zijn een paar voorbeelden:

  • Financieringsmaatschappijen winkelaccount-ID's, creditcardnummers en bestedingspatronen van klanten.
  • Zorgverleners informatie verzamelen over gezondheidsproblemen, behandelingen en verzekeringsdata.
  • Marketeers werken met informatie over aankoopgeschiedenis en een schat aan demografische informatie.
  • Fabrikanten registreer werknemersdata, leveranciersinformatie, productie-output en onderhoudslogboeken.
  • Logistieke en transportbedrijven bewaar de afleveradressen van klanten, betalingsdata en chauffeursdata.

Naarmate het volume aan PII-data toeneemt, nemen ook de risico's die gepaard gaan met niet-naleving toe. Daarom investeren veel bedrijven steeds meer in de-identificatietools.

Bekijk ons ​​webinar over Testdatamanagement

Waarom zou u data de-identificeren?

voordelen van het anonimiseren van data Syntho

Dankzij de de-identificatie van data kunnen bedrijven data van hoge kwaliteit vrijelijk gebruiken, delen en verkopen. Laten we alle voordelen op een rij zetten: 

  • Naleving van de wetgeving inzake dataprivacy: Regelgeving inzake dataprivacy bepaalt de regels voor het verzamelen, opslaan, delen en beheren van PII. De-identificatie van data en anonimisering zijn noodzakelijk om te voldoen aan de strikte regelgeving inzake dataprivacy. Deze regelgeving, zoals de AVG in de EU en de CCPA in Californië, legt zware straffen op voor niet-naleving. Door ervoor te zorgen dat uw data worden geanonimiseerd, kunt u hoge boetes vermijden en uw activiteiten voortzetten zonder juridische onderbrekingen. Bovendien gaat het bij naleving van de regelgeving niet alleen om het vermijden van boetes, maar ook om het bevorderen van een cultuur van respect voor de privacy van gebruikers, wat de reputatie van uw bedrijf kan verbeteren.
  • Lagere nalevingskosten: Met geautomatiseerde de-identificatiesoftware kunt u gestandaardiseerde technieken consistent toepassen op uw datasets. Dit verlaagt verder de kosten van de naleving van de privacywetgeving en het risico op financiële boetes voor overtredingen van de regelgeving. Geautomatiseerde oplossingen minimaliseren de behoefte aan uitgebreid handmatig toezicht en arbeid, waardoor de operationele kosten worden verlaagd. Gestandaardiseerde technieken zorgen er ook voor dat uw compliance-maatregelen op uniforme wijze worden toegepast, waardoor het risico op menselijke fouten wordt verminderd, wat kan leiden tot kostbare inbreuken en compliance-fouten. Investeren in geautomatiseerde de-identificatietools kan dus aanzienlijke besparingen op de lange termijn opleveren.
  • Verminderde impact van datalekken: De kosten van een gemiddeld datalek zijn gestegen van $3.62 miljoen in 2017 tot $4.45 miljoen in 2023 (volgens een IBM-rapport). Door uw datasets te de-identificeren, verkleint u de potentiële schade aanzienlijk als aanvallers toegang krijgen tot uw databases. Geanonimiseerde data zijn minder waardevol voor cybercriminelen omdat deze de persoonlijke identificatiedata missen die vaak het doelwit zijn van aanvallen. Zelfs als zich een inbreuk voordoet, wordt de impact geminimaliseerd, omdat de aangetaste data geen persoonlijke informatie onthullen. Deze vermindering van potentiële schade vertaalt zich ook in lagere juridische kosten en herstelkosten na een inbreuk, waardoor de financiële gezondheid van uw bedrijf verder wordt beschermd.
  • Extra bescherming van PII: U kunt ongeautoriseerde toegang tot en kwaadaardig misbruik van data voorkomen door alleen geanonimiseerde datasets te gebruiken. Het is belangrijk om op te merken dat het risico afkomstig is van kwaadwillende agenten en degenen die dagelijks met data omgaan, zoals softwareontwikkelaars, testers, data-analisten en serviceproviders, die onbedoeld data kunnen compromitteren. Door data te anonimiseren, beperkt u de risico's die samenhangen met insider-bedreigingen en onbedoelde blootstelling van data. Deze praktijk beschermt niet alleen gevoelige informatie tegen externe aanvallen, maar ook tegen interne verkeerde behandeling. Het creëert een veiligere dataomgeving en zorgt ervoor dat PII in alle stadia van dataverwerking en -verwerking wordt beschermd.
  • Het verhogen operational efficiency: Door de noodzaak voor uitgebreide beschermingsmaatregelen te verminderen, faciliteert u de toegang tot de data voor uw medewerkers. Een betrouwbaar proces versnelt feitelijk de productontwikkelingscycli, het onderzoek en de bedrijfsvoering. Met minder beperkingen op het datagebruik kunnen werknemers vrijer en efficiënter toegang krijgen tot data en deze gebruiken, wat leidt tot snellere innovatie en snellere besluitvormingsprocessen. Deze grotere toegankelijkheid kan de productiviteit aanzienlijk verbeteren en een flexibeler en responsiever bedrijfsproces mogelijk maken, wat uiteindelijk een concurrentievoordeel op de markt oplevert.
  • Verhoogd klantvertrouwen: Klanten zullen eerder gebruik maken van uw diensten en hun persoonlijke data delen als uw reputatie niet wordt aangetast door datalekken, civiele rechtszaken en boetes voor naleving. Het opbouwen en behouden van het vertrouwen van klanten is cruciaal voor succes op de lange termijn. Wanneer klanten weten dat er op een verantwoorde en veilige manier met hun data wordt omgegaan, zijn ze eerder geneigd om met uw diensten en producten in zee te gaan. Dit vertrouwen kan leiden tot een grotere klantloyaliteit, een hoger retentiepercentage en een beter algemeen merkimago. 
  • Verbeterd delen en samenwerken: Dankzij de-identificatie kunt u veilig data delen met uw werknemers, zakenpartners en andere derde partijen zonder de privacyregels te overtreden. Deze mogelijkheid is met name waardevol voor samenwerkingsprojecten, partnerschappen en onderzoeksinitiatieven waarbij het delen van data vereist is. Geanonimiseerde data kunnen worden gedeeld tussen verschillende afdelingen en organisaties, met verminderde kansen op het in gevaar brengen van de privacy, waardoor effectievere en coöperatieve inspanningen mogelijk worden. Het verbetert ook de naleving van overeenkomsten over het delen van data en de algehele kwaliteit van de gezamenlijke resultaten.
  • Extra inkomstenstromen: U kunt de-identificatietools gebruiken om een ​​datamarktplaats te bouwen voor het genereren van inkomsten. Veel bedrijven betalen voor hoge kwaliteit data voor testen, AI-algoritmetraining of onderzoek. Dankzij ons platform kunnen we bijvoorbeeld Erasmus Medisch Centrum verkoopt synthetische data aan bedrijven in de gezondheidszorg en medisch onderzoek. Het creëren van een datamarktplaats opent niet alleen nieuwe omzetmogelijkheden, maar maximaliseert ook de waarde van uw data-assets. Door geanonimiseerde datasets aan te bieden, kunt u tegemoetkomen aan de behoeften van verschillende industrieën aan datagestuurde inzichten. Deze diversificatie van inkomstenstromen kan de financiële prestaties en veerkracht van uw bedrijf aanzienlijk vergroten.

Omdat de privacyvereisten in bepaalde rechtsgebieden en sectoren verschillen, moeten de-identificatietools aan verschillende regelgeving voldoen. Geavanceerde de-identificatieoplossingen zijn ontworpen om aan verschillende wettelijke normen te voldoen en bieden aanpasbare opties om naleving in verschillende regio's te garanderen.

Regelgevende vereisten voor de-identificatie van data

De meeste privacyregelgeving bevat vereisten die vergelijkbaar zijn met die in GDPR, CCPA, CPRA en HIPAA. De wetten inzake databescherming waaraan u moet voldoen, zijn afhankelijk van de locatie van uw bedrijf en de woonplaats van uw gebruikers: 

Alle bedrijven en ondernemers moeten aan deze strikte verplichtingen voldoen bij de omgang met informatie. Echter, GDPRHIPAA en Privacywetten van Californië geanonimiseerde data uitsluiten. Dat is juist. Elke dataset die informatie mist die herleidbaar is tot een individu, valt buiten de reikwijdte van deze regelgeving. 

Om ervoor te zorgen dat uw data niet-gereguleerd blijven, moet u de-identificatiemethoden gebruiken die de PII op een manier verwijderen die het voor individuen onmogelijk maakt om de data opnieuw te identificeren.

Hoe data te de-identificeren

hoe je data syntho anonimiseert

Wij volgen de Safe Harbor-methode om naleving van geanonimiseerde datasets te garanderen. Deze methode vereist dat u alle directe en indirecte identifiers verwijdert of wijzigt, in totaal 18 typen. Zo kunnen organisaties een continu proces voor de-identificatie van data opzetten:

1. Organiseer de data

De-identificatie begint met het grondig controleren van alle applicaties, databases en tabellen. U moet begrijpen welke data worden verzameld, hoe deze worden opgeslagen en hoe lang deze worden bewaard. Maak een kaart van alle databronnen en hun stroom binnen uw organisatie. 

Op dit punt moeten belanghebbenden eigenaar worden van specifieke soorten data om de verantwoording te garanderen. Voer regelmatig audits uit om naleving te garanderen.

2. Detecteer PII in datasets

Identificeer alle datasets die PII en andere gevoelige data bevatten. Vervolgens moet u deze data indelen in verschillende groepen, zoals niet-gevoelige data, directe en indirecte identificatiedata, bedrijfsinformatie en conforme data. 

Om het beheer te stroomlijnen, stellen bedrijven ook beleid vast voor het identificeren en verwerken van PII. Voor extra beveiliging kunt u regels voor toegangscontrole toepassen op verschillende soorten data op basis van wettelijke vereisten en zakelijke behoeften.

3. Tag-ID's

Zodra data zijn geclassificeerd, moeten deze worden getagd met de juiste metadata om de gevoeligheid en het type ervan aan te geven. Implementeer gestandaardiseerde taggingconventies om uniformiteit in alle datasets te garanderen en het de-identificatieproces te stroomlijnen.

4. Selecteer de de-identificatiemethode

Selecteer de de-identificatietechniek op basis van uw behoeften, zoals de vereisten voor datahulpprogramma's en wettelijke regels. De technieken variëren qua privacybescherming en hebben verschillende gevolgen voor de bruikbaarheid. 


De pseudonimiseringstechniek vervangt bijvoorbeeld PII door pseudoniemen of codes, terwijl de datastructuur nauwelijks wordt beïnvloed. In ervaren handen kan deze informatie echter opnieuw worden geïdentificeerd. Geavanceerdere tools kunnen gevoelige data vervangen zonder de privacy of bruikbaarheid in gevaar te brengen.

U kunt data op database- en kolomniveau desidentificeren.

De-identificatie op databaseniveau

Voor de-identificatie op databaseniveau sleept u eenvoudigweg tabellen uit uw relationele database naar de de-identificatiesectie in de werkruimte.

De-identificatie-afbeelding op databaseniveau
De-identificatie op kolomniveau

Om de-identificatie op een gedetailleerder niveau of kolomniveau toe te passen, opent u een tabel, kiest u de specifieke kolom die u wilt de-identificeren en past u moeiteloos een mocker toe. Stroomlijn uw databeschermingsproces met onze intuïtieve configuratiefuncties.

Afbeelding van de-identificatie op kolomniveau

5. De-identificeer datasets

Pas de geselecteerde de-identificatietechnieken toe op de geselecteerde datasets. De-identificatie moet worden gezien als een iteratief proces en niet als een eenmalige taak. We raden u aan een paar voorbeelddatasets te kiezen. Na de eerste de-identificatie moet u de resultaten bekijken voordat u verdergaat.

6. Valideer de resultaten

U moet de geanonimiseerde data beoordelen om er zeker van te zijn dat deze aan uw zakelijke vereisten voldoen. Het is noodzakelijk om de data-eigenaren en andere relevante belanghebbenden bij de beoordeling te betrekken. Het validatieproces zelf moet verschillende stappen omvatten:

  • Controleer of alle ID's zijn verwijderd of vervangen.
  • Evalueer de mogelijkheid van heridentificatie op basis van een combinatie van resterende datapunten.
  • Controleer of de geanonimiseerde informatie nog steeds de oorspronkelijke mate van detail en nauwkeurigheid heeft.
  • Zorg ervoor dat er geen kritieke records of bestanden verloren gaan of beschadigd raken.
  • Controleer of de relaties en patronen binnen de data behouden blijven.

Zoals u kunt verwachten, is het handmatig doen hiervan vervelend, lang en duur. Bovendien zal het handmatig doen hiervan af en toe resulteren in fouten en inconsistenties, wat het identificatierisico vergroot. Daarom gebruiken organisaties geautomatiseerde de-identificatiemethoden.

Slimme de-identificatie van data

De waarheid is dat de meeste technieken voor het verwijderen van PII kwetsbaarheden achterlaten die kwaadwillende actoren kunnen misbruiken om de data terug te leiden naar de individuen. Andere methoden verminderen de statistische nauwkeurigheid van data tot het punt dat ze niet kunnen worden gebruikt voor geavanceerd onderzoek en AI-training. 

Syntho's slimme de-identificatietechnologie is gemaakt om handmatig werk te automatiseren zonder concessies te doen aan privacy of kwaliteit. Ons geavanceerde AI-aangedreven scanner identificeert PII in tabellen, databases en andere bronnen. 

Eenmaal geïdentificeerd, vervangt het platform de gevoelige informatie door nepdata. Tegelijkertijd onderhoudt onze engine een consistente mapping om de referentiële integriteit en bedrijfspatronen te behouden.

Dat is niet alles. Onze software heeft extra functies die het de-identificatieproces kunnen verbeteren:

  • Gegevensverrijking maakt het mogelijk rijen en kolommen toe te voegen aan de geanonimiseerde datasets, waardoor het gemakkelijker wordt om grotere en uitgebreidere testdatasets te creëren.
  • Subinstelling helpt bij het creëren van kleinere datasets voor testen, waardoor de last op opslag- en verwerkingsbronnen wordt verminderd.
  • Op regels gebaseerde flexibiliteit maakt de data aanpasbaar aan verschillende dataformaten, structuren en scenario's.
  • Data-opschoning corrigeert inconsistenties, vult ontbrekende waarden in en verwijdert beschadigde data.

Syntho automatiseert het grootste deel van het handmatige werk, verkleint de kans dat gevoelige data verloren gaan en behoudt de kwaliteit van de originele data.

Geautomatiseerde de-identificatie van data op schaal

De-identificatie is noodzakelijk om te voldoen aan de privacyregelgeving, gevoelige informatie te beschermen en de bruikbaarheid van data te behouden. Het verwijderen of maskeren van identificatiedata kan de operationele efficiëntie verbeteren, de beveiligingsrisico's verlagen en zelfs de operationele kosten verlagen. Handmatige de-identificatie is voor de meeste bedrijven echter veel te inefficiënt.

Syntho's slimme de-identificatietechnologie automatiseert de de-identificatie van PII in datasets. Het maakt gebruik van AI om gevoelige informatie te detecteren en vervangt deze door nepdata op basis van uw bedrijfsregels, terwijl de oorspronkelijke kwaliteit van de data behouden blijft.

Wilt u uw anonimiseringsproces verbeteren en naleving van de regelgeving waarborgen? Neem contact met ons op voor een demo.

Veelgestelde vragen over de-identificatie van data

Wat zijn de belangrijkste technieken (methoden) voor het de-identificeren van data?

Technieken voor het de-identificeren van data omvatten redactie, verwijdering, pseudonimisering, verstoring en subsampling. Bij redigeren wordt gevoelige informatie verborgen gehouden, bij verwijdering worden identificeerbare data verwijderd, bij pseudonimisering worden identificatiedata vervangen door codes, bij verstoring wordt ruis aan de data toegevoegd om waarden te maskeren, en bij subsampling wordt slechts een subset van data gebruikt.

Wat is het verschil tussen geanonimiseerde, geanonimiseerde en synthetische data?

In geanonimiseerde data worden directe en indirecte identificatiedata verwijderd of vervangen om ervoor te zorgen dat personen niet kunnen worden geïdentificeerd. Geanonimiseerde data omvatten het wijzigen of verwijderen van vertrouwelijke informatie met behulp van geavanceerde algoritmen om ervoor te zorgen dat personen niet opnieuw kunnen worden geïdentificeerd. Synthetische data zijn nieuw gegenereerde data die de structuur en eigenschappen van de oorspronkelijke dataset repliceren zonder koppelingen naar echte individuen.

Wat zijn de verschillen tussen geanonimiseerde en beperkte datasets?

Een beperkte dataset onder HIPAA bevat identificeerbare gezondheidszorginformatie die kan worden gedeeld voor onderzoek, volksgezondheid en gezondheidszorgactiviteiten, maar alleen met entiteiten die een overeenkomst voor datagebruik hebben ondertekend. Geanonimiseerde data daarentegen hebben geen identificatoren en zijn dat wel niet gereguleerd door HIPAA, AVG of andere privacywetten, zodat u deze vrijelijk kunt delen.

Red je synthetisch datagids nu

Wat is synthetische data?

Hoe werkt het?

Waarom gebruiken organisaties het?

Hoe te beginnen?

Privacybeleid

Schrijf je in op onze nieuwsbrief

Blijf op de hoogte van het laatste nieuws over synthetische data