Synthetische data in de gezondheidszorg: de rol, voordelen en uitdagingen ervan
Het gebrek aan hoogwaardige data en strikte privacyregels kunnen het gebruik van AI-analyses voor ziekte-identificatie, medische voorspellingen en klinisch onderzoek belemmeren. Synthetische data in de gezondheidszorg bieden een effectieve manier om deze uitdagingen tegen minimale kosten aan te pakken.
Synthetische data maken innovatie in de gezondheidszorg mogelijk door organisaties een analoog van echte data te laten gebruiken zonder de privacy in gevaar te brengen. Gartner voorspelt dat in 2024 60% van de data die organisaties gebruiken om AI-platforms te trainen synthetisch zal zijn, een aanzienlijke stijging ten opzichte van 1% in 2021.
Ons team op syntho laat u kennismaken met de beperkingen en uitdagingen van het gebruik van data in de gezondheidszorg. We bespreken ook hoe u deze uitdagingen kunt overwinnen met synthetische datasets.
Syntho-gids
Uw gids voor het genereren van synthetische data
Belangrijkste uitdagingen bij het gebruik van praktijkdata uit de gezondheidszorg
Zorgorganisaties maken gebruik van data om op bewijs gebaseerde beslissingen te nemen, de patiëntresultaten te verbeteren en medisch onderzoek uit te voeren. Bedrijven kampen echter vaak met dataschaarste en een gebrek aan granulariteit, die beide nauwkeurige voorspellingen in de weg staan. Deze uitdaging wordt nog verergerd door strenge beveiligingsmaatregelen die zijn geïmplementeerd om aan de privacyregelgeving te voldoen.
Strenge privacy- en veiligheidsregels
Gezondheidszorgdata moeten worden verzameld, opgeslagen en gedeeld volgens strikte regelgeving, zoals HIPAA in de VS en GDPR in de EU. Dit is vooral belangrijk voor data over ernstige aandoeningen zoals kanker en hart- en vaatziekten of luchtwegaandoeningen, waarbij identificerende informatie een grote impact kan hebben op het leven van een patiënt. Volgens het IBM Security Cost of a Data Breach Report 2023, datalekken in de gezondheidszorg zijn al dertien jaar op rij de duurste in alle sectoren. De gemiddelde kosten van een datalek in de gezondheidszorg bedroegen in 19.93 $ 2023 miljoen per lek, een stijging van 53.3% ten opzichte van 2020. Zelfs kleine zorginstellingen (minder dan 500 werknemers) verliezen gemiddeld $ 3.31 miljoen per datalek. Ondanks de strenge privacy- en beveiligingsvoorschriften voor zorgdata, reiken de uitdagingen verder dan het naleven van richtlijnen. Zelfs als organisaties zich aan de voorschriften houden, benadrukken de toenemende frequentie en ernst van inbreuken de noodzaak van robuuste anonimisering van datapraktijken om patiëntdata te beschermen.
Anonimisering alleen garandeert de privacy van data niet
Echter, Traditionele geanonimiseerde data schieten vaak tekort in grote datasets. Technieken zoals data obfuscatie en data masking technieken kunnen de meeste waardevolle informatie wissen die nodig is voor data-analyse. Dit vormt een uitdaging voor onderzoekers die vertrouwen op gedetailleerde data voor diepgaande analyse en verkenning.
Bovendien bestaat er nog steeds een risico op heridentificatie. Uit onderzoek blijkt dat de de-identificatie van gezondheidsdossiers op basis van maximaal 40 variabelen kan in gevaar komen wanneer datasets unieke kenmerken bevatten (zoals een zeldzame ziekte of een specifiek medicijn).
Kwaliteitsdata uit de gezondheidszorg zijn schaars
Zorginstellingen hebben vaak een gebrek aan data over symptomen, diagnoses en behandelresultaten van patiënten en worden geconfronteerd met uitdagingen met onbelemmerde toegang tot data. Dit tekort beperkt de mogelijkheid om klinische nuances vast te leggen die essentieel zijn voor onderzoek.
Gartner voorspelt een toename in het gebruik van synthetische data gecreëerd met generatieve AI (in de gezondheidszorg en andere industrieën) om hiaten in de beschikbaarheid van data op te vullen. Maar welke data worden gebruikt om generatieve AI-modellen te trainen? Dat is een terechte vraag, aangezien datawetenschappers hoogwaardige trainingsdata nodig hebben om optimale resultaten te behalen.
QA-datasets kunnen incompatibel zijn of van lage kwaliteit zijn
Gezondheidsdata kunnen afkomstig zijn uit verschillende bronnen in formaten die mogelijk niet compatibel zijn met elkaar. Organisaties moeten gestructureerde elektronische medische dossiers (EPD’s) combineren met ongestructureerde data van wearables, software van derden en papieren dossiers.
Menselijke fouten en systeemstoringen kunnen de datakwaliteit beïnvloeden en de betrouwbaarheid van data-analyse beïnvloeden, wat weer gevolgen heeft voor het data-nut. Dit kan leiden tot onjuiste conclusies en misplaatste beslissingen.
Nu we de belangrijkste uitdagingen hebben geschetst, gaan we bekijken hoe synthetische data in de gezondheidszorg deze kunnen aanpakken.
Gartner voorspelt een toename in het gebruik van synthetische data gecreëerd met generatieve AI (in de gezondheidszorg en andere industrieën) om hiaten in de beschikbaarheid van data op te vullen. Maar welke data worden gebruikt om generatieve AI-modellen te trainen? Dat is een terechte vraag, aangezien datawetenschappers hoogwaardige trainingsdata nodig hebben om optimale resultaten te behalen.
Hoe kunnen synthetische data in de gezondheidszorg helpen?
Synthetische data zijn kunstmatig gegenereerde datapunten die zijn gemaakt met statistische modellen en algoritmen.
De algoritmen bootsen alle patronen en relaties van data uit de echte wereld na en creëren het synthetische.
Dit model voor datageneratie detecteert en leert patronen in echte data en produceert een synthetische data-tweeling van de echte datasets, waarbij de statistische eigenschappen behouden blijven, maar persoonlijk identificeerbare informatie (PII) wordt vervangen.
De rol van kunstmatige, door AI gegenereerde gezondheidszorgdata kan transformatief zijn voor innovatie in de gezondheidszorg. Synthetische datasets bieden een alternatief wanneer daadwerkelijke gezondheidsdata onbruikbaar zijn vanwege kwaliteitsproblemen, ontoegankelijk zijn vanwege privacybeperkingen en in gevallen waarin er te weinig data zijn voor kwalitatieve data-analyse. Machine learning-modellen die zijn getraind op synthetische datasets helpen bij de ontwikkeling van innovatieve oplossingen en beschermen tegelijkertijd gevoelige informatie. Het biedt in feite meerdere voordelen voor zorginstellingen en gerelateerde bedrijven. Bekijk de ROI van synthetische data.
Voordelen van synthetische data voor zorgorganisaties
Synthetische data hebben een enorm potentieel voor zorgverleners, grote farmaceutische bedrijven en softwareontwikkelaars. Deze voordelen variëren van privacy- en compliancevoordelen tot kostenreductie en gestroomlijnd onderzoek.
Synthetische patiëntdata verminderen privacyrisico's
Synthetische data stelt zorginstellingen in staat om gevoelige data te delen zonder PII te onthullen. Hierdoor wordt het risico op het vrijgeven van gevoelige informatie verminderd als er een datalek is en wordt de kans op rechtszaken en boetes door toezichthouders beperkt. Dankzij onze focus op privacy in synthetische datasets werd Syntho erkend als een van de opkomende generatieve AI-startups in de gezondheidszorg in 2023.
Een voorbeeld van het handhaven van privacy is hoe synthetische datasets omgaan met patiëntbezoekdata. Bezoekdata zijn informatie die aan een bepaald individu kan worden gekoppeld. Om patiëntdata en privacy te beschermen, creëert een ML-model kunstmatige bezoekdata, maar zorgt ervoor dat ze het patroon van de daadwerkelijke bezoeken behouden (bijvoorbeeld het aantal bezoeken en de tijdsduur tussen bezoeken).
Het synthetiseren van data bespaart tijd en middelen
Door AI gegenereerde synthetische dataplatforms elimineren de bureaucratische last en kosten van toegang tot medische data. U hoeft minder contractuele voorwaarden te overwegen en governanceprocessen te implementeren. Dit bespaart zowel tijd als kosten voor zorgverleners en klinische onderzoeksbureaus. Het geeft u ook een concurrentievoordeel ten opzichte van bedrijven die niet zo snel toegang hebben tot kwaliteitsdata.
Geavanceerde platforms creëren data die u beschermen tegen compliance en privacyschendingen. Ze beoordelen automatisch de privacy voor kritische statistieken, zoals de Identical Match Ratio (IMR) voor exacte overeenkomsten, Distance to Closest Record (DCR) voor soortgelijke overeenkomsten, en Nearest Neighbor Distance Ratio (NNDR) voor overeenkomende uitschieters. Er zijn minder compliance- en privacyrisico’s bij het werken met data.
Syntho's oplossing voor het genereren van AI-data won de Global SAS Hackathon 2023 in Healthcare and Life Sciences. Experts uit de industrie erkenden ons platform vanwege het vermogen om ziekenhuizen te voorzien van hoogwaardige synthetische data voor onderzoek, analyse en innovatie zonder dat dit ten koste gaat van patiëntdata en privacy. Het toonaangevende ziekenhuis van Californië maakt gebruik van onze kunstmatige datageneratie platform om zijn onderzoek, inclusief klinische proeven, vooruit te helpen.
Synthetische data kunnen hiaten in de toegang tot data opvullen
Synthetische data kunnen helpen wanneer de echte data schaars en beperkt is of wanneer er problemen zijn met datatoegang. Bovendien behoudt deze data essentiële kenmerken en patronen van echte data, waardoor de statistische eigenschappen van de originele data behouden blijven en ze van onschatbare waarde blijken te zijn voor specialisten in datacenters voor gezondheidszorgonderzoek.
Als bijvoorbeeld een door een Amerikaans farmaceutisch bedrijf beheerd klinisch onderzoek kankerpatiënten uit de EU inschrijft, kan dit op juridische obstakels stuiten bij het verkrijgen van data van buitenlandse gezondheidszorgorganisaties. Generatieve AI-platforms kunnen helpen de benodigde datasets te verkrijgen zonder administratieve rompslomp. Onze partner, LifeLines gebruikt onze oplossingen voor het genereren van AI-data om synthetische data te leveren voor onderzoek in de gezondheidszorg.
AI-machine learning-algoritmen kunnen trainen op kunstmatige medische data. Uit ons onderzoek is gebleken dat synthetische data kunnen worden gebruikt om ML-modellen te trainen kostenefficiënt. Vergelijkingen tonen vergelijkbare voorspellende mogelijkheden aan modellen die zijn getraind op echte data. Synthetische data verbetert ook de voorspellende nauwkeurigheid door datadeling toe te staan. Bijvoorbeeld, modellen die zijn getraind op data van twee ziekenhuizen presteren beter dan modellen die zijn getraind op data van slechts één ziekenhuis.
Synthetische data faciliteren onderzoek naar zeldzame ziekten
Synthetische data helpen onderzoekers bij het bestuderen van gezondheids- en ziekteomstandigheden in populaties. Diverse databemonstering vergroot de testmogelijkheden in scenario's waarin het verkrijgen van grote hoeveelheden echte patiëntdata een uitdaging of onmogelijk is.
Erasmus MC, Universitair Medisch Centrum, maakt gebruik van ons platform voor het genereren van synthetische data om synthetische patiënt-EMR-data te gebruiken voor geavanceerde analyses. Ze benadrukken dat onze datasets de statistische eigenschappen van echte data weerspiegelen, zonder dat er persoonlijk identificeerbare informatie wordt vrijgegeven.
Dit alles betekent niet dat kunstmatige data altijd veilig is om te gebruiken, en niet alle synthetische data lijken waardevol. U kunt technische beperkingen tegenkomen, zoals uitdagingen bij het synthetiseren van hiërarchische data, data biases en balansproblemen. Bovendien moeten belanghebbenden de validiteit van synthetische data nauwkeurig onderzoeken om prioriteit te geven aan wat essentieel is voor elk specifiek gebruiksgeval en om verwachtingen effectief te beheren wanneer ze synthetische data genereren.
Gelukkig weten wij hoe we met deze uitdagingen om moeten gaan. De synthetische data-engine van Syntho werkt met alle gestructureerde datatypen en is eenvoudig inzetbaar op on-premise infrastructuren en private clouds. Wij helpen bij het genereren van data voor use cases in de zorg en andere bedrijven.
Wij bijvoorbeeld gebruikte het analyseplatform SAS Viya voor synthetische data bevestiging om vast te stellen dat gesynthetiseerde gezondheidsdata de kwaliteit van echte data weerspiegelen in termen van correlaties, modelprestaties en variabele belangrijkheid. De Area Under Curve (AUC)-score verhoogt de voorspellende nauwkeurigheid van 0.74 naar 0.78 bij het synthetiseren van data van meerdere ziekenhuizen (vergeleken met de resultaten van het oorspronkelijke systeem).
Syntho synthetische data-innovaties voor gezondheidszorganalyses
Het genereren van synthetische data is een game-changer voor analysesystemen voor de gezondheidszorg. Het overbrugt hiaten in de toegang tot data, verbetert algoritmen voor ziektedetectie en maakt datagestuurd medisch onderzoek mogelijk. Bovendien vermindert een synthetische data-aanpak de uitdagingen op het gebied van compliance en privacy aanzienlijk.
Gezondheidszorgdata zijn complexer en tijdgevoeliger dan data in de meeste sectoren. Daarom moeten organisaties samenwerken met een gerenommeerde en betrouwbare leverancier van gezondheidszorgdataplatforms. De mogelijkheden zijn vrijwel onbegrensd als u een betrouwbare technische partner hebt. Syntho staat met zijn Syntho Engine voorop in het veld van door AI gegenereerde synthetische data. We richten ons op het aanpakken van huidige technologische uitdagingen en het verkennen van nieuwe, baanbrekende toepassingen in gezondheidszorgdataanalyse.
Wilt u meer weten? Voor meer informatie kunt u onze downloaden en verkennen Gezondheidszorgrapport or plan een kennismakingsgesprek.
Over Syntho
syntho biedt een slim platform voor het genereren van synthetische data, dat gebruikmaakt van meerdere synthetische datavormen en generatiemethoden, waardoor organisaties op intelligente wijze data kunnen omzetten in een concurrentievoordeel. Onze door AI gegenereerde synthetische data bootsen statistische patronen van originele data na, wat nauwkeurigheid, privacy en snelheid garandeert, zoals beoordeeld door externe experts zoals SAS. Met slimme de-identificatiefuncties en consistente mapping wordt gevoelige informatie beschermd terwijl referentiële integriteit behouden blijft. Ons platform maakt het mogelijk om testdata voor niet-productieomgevingen te maken, beheren en controleren, waarbij gebruik wordt gemaakt van op regels gebaseerde methoden voor het genereren van synthetische data voor gerichte scenario's. Bovendien kunnen gebruikers programmatisch synthetische data genereren en realistische testdata verkrijgen om eenvoudig uitgebreide test- en ontwikkelingsscenario's te ontwikkelen.
Gerelateerde artikelen
Red je synthetisch datagids nu
Wat is synthetische data?
Hoe werkt het?
Waarom gebruiken organisaties het?
Hoe te beginnen?
Schrijf je in op onze nieuwsbrief
Blijf op de hoogte van het laatste nieuws over synthetische data