Geanonimiseerde data versus synthetische data

Als u uw data anonimiseert voordat u dataanalyses uitvoert, zijn er verschillende factoren die een rol spelen:

  1. In bijna alle gevallen zijn geanonimiseerde data nog te herleiden tot individuen door specifieke en unieke rijen (bijvoorbeeld medische dossiers)
  2. Hoe meer u anonimiseert of generaliseert, hoe meer data u vernietigt. Dit verlaagt de kwaliteit van uw data en dus uw inzichten
  3. Anonimisering werkt anders voor verschillende dataindelingen. Dit betekent dat het niet schaalbaar is en erg tijdrovend kan zijn

Synthetische data lossen al deze tekortkomingen en meer op. Bekijk in onderstaande video een analytics-expert van SAS (wereldwijd marktleider in analytics) die uitlegt over zijn oordeel over het verschil in kwaliteit tussen originele data, geanonimiseerde data en door Syntho gegenereerde synthetische data.

Deze video is gemaakt vanuit het Syntho x SAS D[N]A Café over AI Generated Synthetic Data. Vind de volledige video hier.

Edwin van Unen stuurde een originele dataset naar Syntho en wij hebben de dataset gesynthetiseerd. Maar de vraag was ook: “Wat gebeurt er als we synthetische data vergelijken met geanonimiseerde data?” Omdat je veel informatie verliest in een geanonimiseerde data, zal dit ook gebeuren bij het synthetiseren van een dataset? We zijn begonnen met een dataset uit de telecommunicatie-industrie met 56.000 rijen en 128 kolommen met bedrijfschurn-informatie. Deze dataset is zowel gesynthetiseerd als geanonimiseerd, zodat Edwin synthese met anonimisering kon vergelijken. Daarna begon Edwin met modelleren met SAS Viya. Hij bouwde een aantal churn-modellen op de originele dataset, met behulp van klassieke regressietechnieken en beslissingsbomen, maar ook meer geavanceerde technieken zoals neurale netwerken, gradiëntversterking, willekeurig bos - dit soort technieken. De standaard SAS Viya-opties gebruiken bij het bouwen van de modellen.

Daarna was het tijd om naar de resultaten te kijken. De resultaten waren veelbelovend voor synthetische data en niet voor anonimisering. Voor de niet-machine-learning experts in het publiek kijken we naar het gebied onder de ROC-curve die iets zegt over de nauwkeurigheid van het model. Als we de originele data vergelijken met de geanonimiseerde data, zien we dat het originele datamodel een gebied onder de ROC-curve van .8 heeft, wat best goed is. De geanonimiseerde data heeft echter een gebied onder de ROC-curve van .6. Hierdoor verliezen we veel informatie met het geanonimiseerde model waardoor je veel voorspellende kracht verliest.

Maar dan is de vraag hoe zit het met synthetische data? Hier hebben we precies hetzelfde gedaan, maar in plaats van de data te anonimiseren, heeft Syntho de data gesynthetiseerd. Nu zien we dat zowel de originele data als de synthetische data een gebied onder de ROC-curve van .8 hebben, wat erg op elkaar lijkt. Niet precies hetzelfde vanwege de variabiliteit, maar zeer vergelijkbaar. Dit betekent dat het potentieel van synthetische data veelbelovend is - Edwin is hier erg blij mee.

Wij zijn experts in synthetische data. Maar maak je geen zorgen, ons team is echt!

Neem contact op met Syntho en een van onze experts neemt razendsnel contact met je op om de waarde van synthetische data te onderzoeken!