Synthetische data in de gezondheidszorg: de transformerende rol, voordelen en uitdagingen ervan

Gepubliceerd:
19 februari 2024

Het gebrek aan hoogwaardige data en strikte privacyregels kunnen het gebruik van AI-analyses voor ziekte-identificatie, medische voorspellingen en klinisch onderzoek belemmeren. Synthetische data in de gezondheidszorg bieden een effectieve manier om deze uitdagingen tegen minimale kosten aan te pakken.

Synthetische data maken innovatie in de gezondheidszorg mogelijk door organisaties een analoog van echte data te laten gebruiken zonder de privacy in gevaar te brengen. Gartner voorspelt dat in 2024 60% van de data die organisaties gebruiken om AI-platforms te trainen synthetisch zal zijn, een aanzienlijke stijging ten opzichte van 1% in 2021.

Ons team op syntho laat u kennismaken met de beperkingen en uitdagingen van het gebruik van data in de gezondheidszorg. We bespreken ook hoe u deze uitdagingen kunt overwinnen met synthetische datasets. 

Inhoudsopgave

Belangrijkste uitdagingen bij het gebruik van praktijkdata uit de gezondheidszorg

Zorgorganisaties maken gebruik van data om op bewijs gebaseerde beslissingen te nemen, de patiëntresultaten te verbeteren en medisch onderzoek uit te voeren. Bedrijven kampen echter vaak met dataschaarste en een gebrek aan granulariteit, die beide nauwkeurige voorspellingen in de weg staan. Deze uitdaging wordt nog verergerd door strenge beveiligingsmaatregelen die zijn geïmplementeerd om aan de privacyregelgeving te voldoen.

Strenge privacy- en veiligheidsregels

Zorgdata moeten worden verzameld, opgeslagen en gedeeld volgens strikte regelgeving, zoals HIPAA in de VS en GDPR in de EU. Dit is vooral belangrijk voor data over ernstige aandoeningen zoals kanker en hart- en vaatziekten of luchtwegaandoeningen, waarbij het identificeren van informatie ernstige gevolgen kan hebben voor het leven van een patiënt.

Think het IBM Security Cost of a Data Breach Report 2023zijn datalekken in de gezondheidszorg al dertien jaar op rij de duurste in alle sectoren. De gemiddelde kosten van een datalek in de gezondheidszorg bedroegen in 19.93 $2023 miljoen per datalek, een stijging van 53.3% sinds 2020. Zelfs kleine gezondheidszorgorganisaties (minder dan 500 werknemers) verliezen gemiddeld $3.31 miljoen per datalek.

Ondanks de strenge privacy- en veiligheidsregels die van toepassing zijn op gezondheidszorgdata, reiken de uitdagingen verder dan het naleven van richtlijnen. Zelfs nu organisaties zich aan de regelgeving houden, onderstreept de toenemende frequentie en ernst van inbreuken de noodzaak van robuustheid anonimisering Van de data praktijken om patiëntinformatie te beschermen.

Anonimisering alleen garandeert de privacy van data niet

Echter, traditioneel geanonimiseerde data schiet vaak tekort in grote datasets. Technieken zoals dataverduistering en technieken voor het maskeren van data kan de meeste waardevolle informatie die nodig is voor data-analyse, worden gewist. Dit daagt onderzoekers uit die vertrouwen op gedetailleerde data voor diepgaande analyse en verkenning.

Bovendien bestaat er nog steeds een risico op heridentificatie. Uit onderzoek blijkt dat de de-identificatie of gezondheidsdossiers met maximaal 40 variabelen kunnen in gevaar worden gebracht wanneer datasets unieke kenmerken bevatten (zoals een zeldzame ziekte of een specifiek medicijn).

Kwaliteitsdata uit de gezondheidszorg zijn schaars

Zorgorganisaties hebben vaak geen data over de symptomen, diagnoses en behandelresultaten van patiënten en worden ongehinderd geconfronteerd met uitdagingen toegang tot data. Deze tekortkoming beperkt het vermogen om klinische nuances vast te leggen die essentieel zijn voor onderzoek.

Gartner voorspelt een toename van het gebruik van synthetische data Gemaakt met generatieve AI (in de gezondheidszorg en andere industrieën) om hiaten in de beschikbaarheid van data op te vullen. Welke data zullen echter worden gebruikt om generatieve AI-modellen te trainen? Dat is een terechte vraag, aangezien datawetenschappers trainingsdata van hoge kwaliteit nodig hebben om optimale resultaten te bereiken.

QA-datasets kunnen incompatibel zijn of van lage kwaliteit zijn

Gezondheidsdata kunnen afkomstig zijn uit verschillende bronnen in formaten die mogelijk niet compatibel zijn met elkaar. Organisaties moeten gestructureerde elektronische medische dossiers (EPD’s) combineren met ongestructureerde data van wearables, software van derden en papieren dossiers.

Menselijke fouten en systeemstoringen kunnen de datakwaliteit beïnvloeden en de betrouwbaarheid van de data-analyse beïnvloeden datahulpprogramma. Dit kan leiden tot onjuiste conclusies en ondoordachte beslissingen.

Nu we de belangrijkste uitdagingen hebben geschetst, gaan we kijken hoe synthetische gezondheidszorgdata kan ze aanspreken.

Gartner voorspelt een toename van het gebruik van synthetische data Gemaakt met generatieve AI (in de gezondheidszorg en andere industrieën) om hiaten in de beschikbaarheid van data op te vullen. Welke data zullen echter worden gebruikt om generatieve AI-modellen te trainen? Dat is een terechte vraag, aangezien datawetenschappers trainingsdata van hoge kwaliteit nodig hebben om optimale resultaten te bereiken.

Hoe kunnen synthetische data in de gezondheidszorg helpen?

Synthetische data zijn kunstmatig gegenereerde datapunten die zijn gemaakt met statistische modellen en algoritmen. 

De algoritmen bootsen alle patronen en relaties van data uit de echte wereld na en creëren het synthetische.

Deze model voor datageneratie detecteert en leert over patronen in de data uit de echte wereld en produceert een synthetische datatweeling van de echte datasets, waarbij de statistische eigenschappen behouden blijven maar persoonlijk identificeerbare informatie (PII) wordt vervangen.

De rol van kunstmatige, Door AI gegenereerde gezondheidszorgdata kan transformatief zijn voor gezondheidszorginnovatie. Synthetische datasets bieden een alternatief als ze daadwerkelijk zijn gezondheidsdata is onbruikbaar vanwege kwaliteitsproblemen, ontoegankelijk vanwege privacybeperkingen en in gevallen waarin er te weinig data zijn voor hoogwaardige dataanalyse. Machine learning-modellen op getraind synthetische datasets helpen bij de ontwikkeling van innovatieve oplossingen en beschermen tegelijkertijd gevoelige informatie. Het biedt zelfs meerdere voordelen voor zorgorganisaties en aanverwante bedrijven.

AI gegenereerde synthetische data

Voordelen van synthetische data voor zorgorganisaties

Synthetische data hebben een enorm potentieel voor zorgverleners, grote farmaceutische bedrijven en softwareontwikkelaars. Deze voordelen variëren van privacy- en compliancevoordelen tot kostenreductie en gestroomlijnd onderzoek.

Synthetische patiëntdata verminderen privacyrisico's

Met synthetische data kunnen zorgorganisaties delen gevoelige data zonder PII bekend te maken. Het gevolg hiervan is dat het risico op het vrijgeven van gevoelige informatie als er sprake is van een datalek wordt verkleind en daarmee de kans op rechtszaken en boetes wordt beperkt. Dankzij onze focus op privacy in synthetische datasets werd Syntho erkend als een van de opkomende generatieve AI-startups in de gezondheidszorg in 2023.

Een voorbeeld van het handhaven van privacy is de manier waarop synthetische datasets omgaan met de bezoekdata van patiënten. Bezoekdata zijn data die aan een bepaald individu kunnen worden gekoppeld. Beschermen patiëntdata en privacy creëert een ML-model kunstmatige bezoekdata, maar zorgt ervoor dat deze het patroon van de daadwerkelijke bezoeken behouden (bijvoorbeeld het aantal bezoeken en de tijdsduur tussen bezoeken).

Het synthetiseren van data bespaart tijd en middelen

AI-gegenereerde synthetische data platforms elimineren de bureaucratische lasten en kosten van toegang tot medische data. U hoeft minder contractuele voorwaarden te overwegen en minder beheerprocessen te implementeren. Dit bespaart tijd en verlaagt de kosten voor zorgverleners en klinische onderzoeksbureaus. Het geeft u ook een concurrentievoordeel ten opzichte van bedrijven die niet zo snel toegang hebben tot kwaliteitsdata.

Geavanceerde platforms creëren data die u beschermen tegen compliance en privacyschendingen. Ze beoordelen automatisch de privacy voor kritische statistieken, zoals de Identical Match Ratio (IMR) voor exacte overeenkomsten, Distance to Closest Record (DCR) voor soortgelijke overeenkomsten, en Nearest Neighbor Distance Ratio (NNDR) voor overeenkomende uitschieters. Er zijn minder compliance- en privacyrisico’s bij het werken met data.

Syntho's oplossing voor het genereren van AI-data won de Global SAS Hackathon 2023 in gezondheidszorg en levenswetenschappen. Experts uit de sector erkenden ons platform vanwege zijn vermogen om ziekenhuizen te voorzien van synthetische data van hoge kwaliteit voor onderzoek, analyse en innovatie zonder compromissen patiëntdata en privacy. Het toonaangevende ziekenhuis van Californië maakt gebruik van onze kunstmatige datageneratie platform om zijn onderzoek, inclusief klinische proeven, vooruit te helpen.

Synthetische data kunnen hiaten in de toegang tot data opvullen

Synthetische data kunnen helpen wanneer de echte data schaars en beperkt zijn of er problemen mee zijn toegang tot data. Bovendien behouden deze data essentiële kenmerken en patronen van echte data, waardoor de data behouden blijven de statistische eigenschappen van de oorspronkelijke data en van onschatbare waarde gebleken voor specialisten in datacentra voor gezondheidszorgonderzoek.

Als bijvoorbeeld een door een Amerikaans farmaceutisch bedrijf beheerd klinisch onderzoek kankerpatiënten uit de EU inschrijft, kan dit op juridische obstakels stuiten bij het verkrijgen van data van buitenlandse gezondheidszorgorganisaties. Generatieve AI-platforms kunnen helpen de benodigde datasets te verkrijgen zonder administratieve rompslomp. Onze partner, LifeLines gebruikt onze oplossingen voor het genereren van AI-data om synthetische data te leveren voor onderzoek in de gezondheidszorg.

AI-machine learning-algoritmen kunnen trainen op kunstmatige medische data. Uit ons onderzoek is gebleken dat synthetische data kunnen worden gebruikt om ML-modellen te trainen kostenefficiënt. Vergelijkingen tonen vergelijkbare voorspellende mogelijkheden als modellen die zijn getraind op data uit de echte wereld. Synthetische data verbeteren ook de voorspellende nauwkeurigheid door toe te staan het delen van data. Modellen die zijn getraind op data van twee ziekenhuizen presteren bijvoorbeeld beter dan modellen die zijn getraind op data van slechts één ziekenhuis.

Synthetische data faciliteren onderzoek naar zeldzame ziekten

Synthetische data helpen onderzoekers bij het bestuderen van gezondheids- en ziekteomstandigheden in populaties. Diverse databemonstering vergroot de testmogelijkheden in scenario's waarin het verkrijgen van grote hoeveelheden echte patiëntdata een uitdaging of onmogelijk is.

Erasmus MC, Universitair Medisch Centrum, maakt gebruik van ons platform voor het genereren van synthetische data gebruiken synthetische EMR-data van patiënten voor geavanceerde analyses. Ze benadrukken dat onze datasets de statistische eigenschappen van echte data weerspiegelen, allemaal zonder enige persoonlijk identificeerbare informatie vrij te geven.

Niets van dit alles betekent dat kunstmatige data altijd veilig zijn om te gebruiken niet alle synthetische data blijkt waardevol. U kunt tegen technische beperkingen aanlopen, zoals uitdagingen bij het synthetiseren van hiërarchische data, datavertekeningen en evenwichtsproblemen. Bovendien moeten belanghebbenden nauwgezet zijn de validiteit van synthetische data onderzoeken om prioriteit te geven aan wat essentieel is voor elke specifieke gebruikscasus en de verwachtingen effectief te beheren wanneer deze nodig zijn synthetische data genereren

Gelukkig weten wij hoe we met deze uitdagingen om moeten gaan. Syntho's synthetische data-engine werkt met alle gestructureerde datatypen en is eenvoudig inzetbaar op on-premise infrastructuren en private clouds. Wij helpen bij het genereren van data voor use cases in de zorg en andere bedrijven.

Wij bijvoorbeeld gebruikte hiervoor het analyseplatform SAS Viya synthetische data bevestiging om dat vast te stellen gesynthetiseerde gezondheidsdata spiegels kwaliteit van echte data in termen van correlaties, modelprestaties en variabel belang. De Area Under Curve (AUC)-score verhoogt de voorspellende nauwkeurigheid van 0.74 naar 0.78 bij het synthetiseren van data van meerdere ziekenhuizen (vergeleken met de resultaten van het oorspronkelijke systeem).

Syntho synthetische data-innovaties voor gezondheidszorganalyses

Het genereren van synthetische data is een game-changer voor analysesystemen voor de gezondheidszorg. Het overbrugt gaten in de toegang tot data, verbetert algoritmen voor ziektedetectieen mogelijk maakt datagedreven medisch onderzoek. Bovendien vermindert een synthetische data-aanpak de compliance- en privacy-uitdagingen aanzienlijk.

Gegevens uit de gezondheidszorg zijn complexer en tijdgevoeliger dan data in de meeste sectoren. Daarom moeten organisaties samenwerken met een gerenommeerd en betrouwbaar bedrijf dataplatform voor de gezondheidszorg aanbieder. De mogelijkheden zijn vrijwel grenzeloos als u over een betrouwbare technische partner beschikt. Syntho loopt met zijn Syntho Engine voorop in het door AI gegenereerde synthetische dataveld. We richten ons op het aanpakken van de huidige technologische uitdagingen en het verkennen van nieuwe, baanbrekende toepassingen in de analyse van gezondheidszorgdata.

Wilt u meer weten? Voor meer informatie kunt u onze downloaden en verkennen Gezondheidszorgrapport or plan een kennismakingsgesprek.

Over Syntho

syntho biedt een slimme synthetische datageneratie platform, benutten meerdere synthetische dataformulieren en generatiemethoden, waardoor organisaties data op intelligente wijze kunnen transformeren in een concurrentievoordeel. Onze door AI gegenereerde synthetische data bootsen statistische patronen van originele data na, waardoor nauwkeurigheid, privacy en snelheid worden gegarandeerd, zoals beoordeeld door externe experts zoals SAS. Met slimme de-identificatiefuncties en consistente mapping wordt gevoelige informatie beschermd terwijl de referentiële integriteit behouden blijft. Ons platform maakt het creëren, beheren en controleren van testdata voor niet-productieomgevingen mogelijk, op basis van regels methoden voor het genereren van synthetische data voor gerichte scenario's. Bovendien kunnen gebruikers programmatisch synthetische data genereren en verkrijgen realistische testdata om met gemak uitgebreide test- en ontwikkelingsscenario's te ontwikkelen.

Over de auteur

CEO & oprichter

Syntho, de scale-up die de data-industrie ontwricht met door AI gegenereerde synthetische data. Wim Kees heeft met Syntho bewezen dat hij privacygevoelige data kan ontsluiten om data slimmer en sneller beschikbaar te maken zodat organisaties datagedreven innovatie kunnen realiseren. Als gevolg hiervan hebben Wim Kees en Syntho de prestigieuze Philips Innovation Award gewonnen, de SAS global hackathon in gezondheidszorg en life science gewonnen en door NVIDIA geselecteerd als leidende generatieve AI Scale-Up.

syntho-gidsafdekking

Sla uw synthetische datagids nu op!