Van privacy naar mogelijkheid: synthetische data gebruiken via de geïntegreerde Syntho Engine in SAS Viya als onderdeel van de SAS Hackathon om privacygevoelige data te ontsluiten

Tijdens de SAS Hackathon ontsluiten we het volledige potentieel van zorgdata met generatieve AI.

Waarom privacygevoelige zorgdata ontsluiten?

De gezondheidszorg heeft dringend behoefte aan datadrive-inzichten. Omdat de gezondheidszorg onderbemand is, onder druk staat en levens kan redden. Zorgdata zijn echter de meest privacygevoelige data en zijn daarom vergrendeld. Deze privacygevoelige data:

  • Is tijdrovend om toegang te krijgen
  • Vereist uitgebreide papieren
  • En niet zomaar te gebruiken

Dit is problematisch, aangezien ons doel voor deze hackathon het voorspellen van achteruitgang en sterfte als onderdeel van kankeronderzoek voor een toonaangevend ziekenhuis. Daarom werken Syntho en SAS voor dit ziekenhuis samen, waar Syntho data ontsluit met synthetische data en SAS data-inzichten realiseert met SAS Viya, het toonaangevende analytics platform.

Synthetische data?

Onze Syntho Engine genereert geheel nieuwe kunstmatig gegenereerde data. Belangrijk verschil, we passen AI toe om de kenmerken van real-world data na te bootsen in de synthetische data, en wel in die mate dat het zelfs gebruikt kan worden voor analyses. Daarom noemen we het een synthetische datatweeling. Het is zo goed als echt en statistisch identiek aan de originele data, maar zonder de privacyrisico's.

Syntho-engine geïntegreerd in SAS Viya

Tijdens deze hackathon hebben we als stap de Syntho Engine API geïntegreerd in SAS Viya. Hier hebben we ook gevalideerd dat de synthetische data inderdaad zo goed als echt is in SAS Viya. Voordat we met het kankeronderzoek begonnen, hebben we deze geïntegreerde aanpak getest met een open dataset en gevalideerd of de synthetische data inderdaad zo goed als echt zijn via verschillende validatiemethodes in SAS Viya.

Zijn synthetische data zo goed als echt?

De correlaties, de relaties tussen variabelen, blijven behouden.

De Area Under the curve, een maatstaf voor modelprestaties, blijft behouden.

En zelfs het variabele belang, de voorspellende kracht van variabelen voor een model, geldt als we de oorspronkelijke data vergelijken met de synthetische data.

We kunnen dus concluderen dat synthetische data gegenereerd door de Syntho Engine in SAS Viya inderdaad zo goed als echt is en dat we synthetische data kunnen gebruiken voor modelontwikkeling. Daarom kunnen we beginnen met dit kankeronderzoek om achteruitgang en sterfte te voorspellen.

Synthetische data voor Kankeronderzoek voor een toonaangevend ziekenhuis

Hier gebruikten we de geïntegreerde Syntho Engine als stap in SAS Viya om deze privacygevoelige data te ontsluiten met synthetische data.

Het resultaat, een AUC van 0.74 en een model dat achteruitgang en sterfte kan voorspellen.

Door het gebruik van synthetische data konden we deze zorg ontsluiten in een situatie met minder risico, meer data en snellere datatoegang.

Combineer data van meerdere ziekenhuizen

Dit kan niet alleen binnen het ziekenhuis, ook data van meerdere ziekenhuizen kunnen gecombineerd worden. Daarom was de volgende stap het synthetiseren van data van meerdere ziekenhuizen. Via de Syntho Engine werden verschillende relevante ziekenhuisdata gesynthetiseerd als input voor het model in SAS Viya. Hier realiseerden we een AUC van 0.78, wat aantoont dat meer data resulteert in een betere voorspellende kracht van die modellen.

Resultaten

En dit zijn de resultaten van deze hackathon:

  • Syntho is als step geïntegreerd in SAS Viya
  • synthetische data is succesvol gegenereerd via Syntho in SAS Viya
  • De nauwkeurigheid van synthetische data is goedgekeurd, aangezien modellen die zijn getraind op synthetische data, vergelijkbaar scoren met modellen die zijn getraind op originele data
  • we voorspelden verslechtering en sterfte op synthetische data als onderdeel van kankeronderzoek
  • en toonde een toename van de AUC aan bij het combineren van synthetische data van meerdere ziekenhuizen.

Volgende stappen

De volgende stappen zijn om

  • omvatten meer ziekenhuizen
  • om use cases uit te breiden en
  • uit te breiden naar elke andere organisatie, aangezien de technieken sectoronafhankelijk zijn.

Op deze manier ontsluiten Syntho en SAS data en realiseren ze datagestuurde inzichten in de gezondheidszorg om ervoor te zorgen dat de gezondheidszorg goed bemand is, met normale druk om levens te redden.

Cover Synthetische data in de gezondheidszorg

Sla uw synthetische data op in zorgrapport!