De kracht van synthetische data in de gezondheidszorg ontsluiten: interview met experts
Wat drijft de gezondheidszorg vooruit, stelt patiënten op de eerste plaats en zorgt voor wetenschappelijke doorbraken terwijl de kosten onder controle blijven? Het is een schat aan data. Met AI en geavanceerde analyses geven we een nieuwe vorm aan de gezondheidszorg door middel van data, van onderzoek tot marktstrategieën en patiëntenzorg.
Toch zijn er in dit datagedreven tijdperk grote uitdagingen. Kwaliteitsproblemen, dataschaarste en juridische obstakels zorgen voor een complex landschap. Gelukkig zijn er behandelingen. Het benutten van synthetische data in de gezondheidszorg is een haalbare oplossing.
Ik ben Uliana Krainska, een synthetische dataconsultant bij Syntho. Ik nodig u uit voor een boeiende discussie met marktleiders:
- Wim Kees Janssen, CEO en mede-oprichter, Syntho
- Frederik Dropper, Juridische professional, BG.legal
- Edwin van Unen, Hoofdanalyseconsulent, SAS
Dit interview gaat in op inzichten, succesverhalen en praktische oplossingen, waarbij het potentieel van synthetische data in de gezondheidszorg wordt benadrukt. Laten we dus ingaan op onze eerste vraag.
Wat zijn vandaag de dag de belangrijkste datagerelateerde uitdagingen in de gezondheidszorg?
wim: Welnu, in de gezondheidstechnologiesector is er een sterke drang om waarde te bieden aan patiënten, om echt een verschil te maken in behandelingen, en om zich te onderscheiden van de concurrentie door middel van innovatie. De belangrijkste uitdaging waar we nu mee te maken hebben, is het gebruik van datagedreven innovatie om de druk op de samenleving te verlichten zorgpersoneel en waarde creëren.
Toegang tot de data die we nodig hebben is een groot obstakel, vooral in de gezondheidszorg, waar data gevoelig zijn. Zonder toegang tot die data wordt het bouwen van oplossingen een non-start, waardoor de vooruitgang wordt tegengehouden en ons ervan wordt weerhouden waarde te leveren. Onze primaire focus ligt dus op het uitzoeken hoe we deze barrières kunnen overwinnen en de data kunnen verkrijgen die we nodig hebben om datagestuurde gezondheidszorgoplossingen te ontwikkelen.
Bent u het ermee eens dat het in de gezondheidszorg geavanceerde analyse- en machine learning-technieken (ML) zijn die de innovatie nu vooral aandrijven? Zo ja, hoe kunnen bedrijven deze effectief gebruiken om de concurrentie te verslaan en waarde te creëren voor alle belanghebbenden in de gezondheidszorg?
Edwin: Dat is waar. Maar analytics en ML zijn geen nieuwe concepten. Terwijl we het hebben over geavanceerde technologieën zoals synthetische data en generatieve AI, de realiteit is dat deze methoden al geruime tijd bestaan, tientallen jaren zelfs. Wat ik echter vaak zie, is dat veel organisaties moeite hebben om analyses en moderne modellen voor machinaal leren te vertalen naar tastbare resultaten. Het probleem ligt in het ontbreken van een end-to-end proces, van data tot besluitvorming. Dit is waar de analyselevenscyclus in het spel komt.
Kunt u alstublieft meer vertellen over deze analytische levenscyclus in de gezondheidszorg? Wat houdt dit proces in?
Edwin: Zeker. De analyselevenscyclus bestaat uit drie cruciale stappen.
- Gegevens. Het is in de eerste plaats. Toegang tot kwaliteitsdata en het verder verbeteren van de kwaliteit ervan is van cruciaal belang.
- Model gebouw. Het omvat het uitvoeren van talloze experimenten om de beste aanpak te bepalen en het snel bouwen van meerdere modellen voordat wordt besloten welke in productie moeten worden genomen.
- Inzet. Modellen moeten in een productieomgeving worden ingezet om hun volledige waarde te kunnen realiseren, of dit nu in realtime, batch- of streamingprocessen is.
Er moeten vloeiende overgangen tussen deze stappen zijn om een oneindige lus te creëren van data naar modellering naar implementatie en weer terug. Ook governance is in elke fase van cruciaal belang, omdat het zorgt voor goed toezicht op zowel data als modellen.
Het probleem hier is dat veel modellen helaas niet in staat zijn het bed te bereiken, zoals ik het noem. Als organisaties dit raamwerk niet hebben, kan innovatie de patiënt niet bereiken en die uitzonderlijke waarde opleveren waar we het over hebben. Het ontbreken van een end-to-end-proces, wanneer er iets ontbreekt in een van de stappen, is de oorzaak van het probleem. Dat is waar synthetische datageneratie en robuuste AI-systemen kunnen de boel opschudden.
Hoe zit het met een andere uitdaging die u noemde: toegang tot data in de gezondheidszorg? Wat zijn de juridische complexiteiten rond de toegang en het delen van data?
Frederik: Wetten op het gebied van dataprivacy, zoals HIPAA in de VS en GDPR in de EU, dreigen bij elke stap die u zet. Deze handelingen zijn belangrijk omdat ze strikte regels stellen voor het beschermen en gebruiken van persoonlijk identificeerbare informatie (PII) en beschermde gezondheidsinformatie (PHI). Ze voelen echter vaak als hindernissen wanneer u data probeert te openen en te delen voor gezondheidszorgdoeleinden.
Grensoverschrijdende dataoverdracht voegt nog een extra laag complexiteit toe. Zorgorganisaties missen vaak essentiële data over de symptomen, diagnoses en behandelresultaten van patiënten. Daarom verzamelen ze data uit verschillende landen voor onderzoek en analyse. Maar het is niet zo eenvoudig als het klinkt. U moet omgaan met contractuele verplichtingen, jongleren met toestemmingsvereisten en ervoor zorgen dat de anonimiseringsnormen op peil zijn.
Het concept van data-eigendom draagt ook bij aan de complexiteit. Hoewel het volledige eigendom niet altijd duidelijk is, is het essentieel dat u controle houdt over het gebruik en delen van data.
Het juridische landschap met betrekking tot de toegang tot en het delen van gezondheidszorgdata zit vol wendingen. Navigeren vereist een scherp oog voor detail, een diep begrip van compliance en heel veel geduld.
Gelukkig zijn synthetische data naar voren gekomen als een mogelijke oplossing. Kunt u vertellen hoe synthetische data de door u genoemde uitdagingen kunnen aanpakken?
wim: Synthetische data zijn echt een gamechanger bij het aanpakken van deze uitdagingen. Het voegt waarde toe aan de productie, waar zowel patiënten, klanten als belanghebbenden baat bij hebben – en dat alles terwijl de regels strikt blijven privacy normen.
Bij Synthobieden wij een totaaloplossing die verschillende methoden voor het genereren van synthetische data onder één dak samenbrengt.
Met deze aanpak kunnen organisaties meerdere oplossingen verkennen, afhankelijk van hun specifieke gebruiksscenario's. Of het nu gaat om door AI gegenereerde data, de-identificatietechnieken of nepdata, Syntho biedt flexibiliteit en veelzijdigheid. We werken nauw samen met onze klanten om de beste aanpak voor hun behoeften te identificeren, waardoor de naadloze en efficiënte overgang van data naar waarde wordt gegarandeerd.
U hebt gesproken over specifieke gebruiksscenario's. Hoe worden synthetische data nu precies toegepast in de zorg?
Edwin: Dat is een geweldige vraag. Synthetische data zijn gebruikt in honderden gevallen in meerdere sectoren, niet alleen in de gezondheidszorg. Ik wil u enkele specifieke scenario's geven waarin synthetische data uitblinken.
Ten eerste kunnen synthetische data de leemten opvullen wanneer echte data schaars of niet-bestaand zijn. Dit is vooral handig bij het maken testdata or demo's bouwen, omdat organisaties hun oplossingen kunnen presenteren zonder te vertrouwen op feitelijke data.
Ten tweede zijn synthetische data handig bij het uitbreiden van bestaande datasets. Neem bijvoorbeeld fraudedetectie. Door synthetische gevallen van frauduleuze activiteiten te genereren, kunnen organisaties hun datasets verbeteren en robuuste modellen trainen om frauduleus gedrag vroegtijdig te identificeren.
Met synthetische data kunnen organisaties ook gespecialiseerde datasets creëren testen doeleinden. Of het nu gaat om het ontwerpen van specifieke scenario's of het genereren van unieke cases, synthetische data bieden de flexibiliteit om apps en systemen grondig te testen.
Tenslotte het synthetiseren van volledige datasets of databases is een van de meest overtuigende gebruiksscenario’s van synthetische data. Het is wanneer datasets helemaal opnieuw worden gemaakt om de kenmerken van echte data na te bootsen, terwijl de privacy behouden blijft. Met deze aanpak kunt u sneller modellen bouwen en data uit meerdere bronnen consolideren. Door data uit vele ziekenhuizen of instellingen te synthetiseren, kunnen organisaties uitgebreide datasets creëren voor analyse en modeltraining, waardoor juridische barrières worden overwonnen die verband houden met het delen van data.
Dat klinkt veelbelovend. Zijn er echter obstakels die het wijdverbreide gebruik van synthetische data in verschillende scenario’s kunnen belemmeren? Wettelijke regelgeving is de eerste zorg die in je opkomt…
Frederik: Zodra u te maken heeft met data die moeten worden geanonimiseerd, bevindt u zich plotseling weer in de wereld van de AVG-compliance. Gelukkig erkennen regelgevende instanties in Europa, en vooral in Nederland, synthetische data als een haalbaar middel tot de-identificatie.
Zodra u over synthetische data beschikt, zijn het geen persoonlijke data meer, wat betekent dat ze niet onder de controle of eigendom van een specifiek bedrijf staan. Dit opent een aantal spannende mogelijkheden. U kunt samenwerken met andere bedrijven en datasets combineren om nog meer inzichten over patiënten te verkrijgen.
Uiteraard geldt de AVG-nalevingsvereiste nog steeds. Maar in Europa hebben we een aantal opties om mee te werken. In de VS is het iets complexer, waar de staatswetten variëren. Over het geheel genomen is er hier nog veel potentieel. Synthetische data bieden een nieuwe manier om te verkennen en te innoveren, terwijl de regelgeving wordt nageleefd.
wim: Ik wil graag voortbouwen op wat Frederick zojuist zei en de aanpak van het Syntho-platform als voorbeeld noemen. Ik heb het in het bijzonder over onze intelligente data-de-identificatiestrategie. Het slimme de-identificatieproces anonimiseert data door gebruik te maken van door AI gegenereerde synthetische nepdata. Hierdoor kunnen organisaties via de volgende stappen gevoelige informatie omzetten in conforme, niet-identificeerbare data:
- Onze de-identificatiesoftware analyseert bestaande datasets en identificeert persoonlijk identificeerbare informatie (PII) en beschermde gezondheidsinformatie (PHI).
- Organisaties kunnen gevoelige data indien nodig selectief vervangen door kunstmatige informatie.
- De tool genereert nieuwe datasets met conforme data.
Deze technologie maakt veilige samenwerking en datauitwisseling tussen organisaties mogelijk. En het is vooral nuttig bij het garanderen van datacompliance in meerdere relationele databases.
Bovendien zorgt het slimme de-identificatieproces dat we hebben ontworpen ervoor dat datarelaties behouden blijven door middel van consistente mapping. Bedrijven kunnen de gegenereerde data gebruiken voor diepgaande bedrijfsanalyses, het trainen van ML-modellen en testen.
Welk juridisch advies zou u geven aan organisaties die nadenken over de implementatie van synthetische data-oplossingen in hun gezondheidszorginitiatieven?
Frederik: Voordat u synthetische data-oplossingen in de gezondheidszorg implementeert, is het van cruciaal belang om even stil te staan en erover na te denken. Begin door uzelf af te vragen waarom u synthetische data wilt gebruiken en hoe dit de uitdagingen van uw organisatie kan oplossen. Als u het eenmaal eens bent, kunt u overwegen of u te maken heeft met digitale assets of andere toepassingen van synthetische data onderzoekt. Wie is de eigenaar van de data die u gaat gebruiken? Dit zijn essentiële vragen die u zich moet stellen als u aan deze reis begint.
Edwins suggestie over governancestrategieën gedurende het gehele levenscyclusproces is treffend. Het is van cruciaal belang om in een vroeg stadium risicobeoordelingen uit te voeren, zelfs in de brainstormfase. Hun resultaten zullen u begeleiden bij uw aanpak van de naleving van de regelgeving in uw specifieke context.
De EU heeft onlangs AI-regelgeving aangenomen, waardoor aansprakelijkheid van cruciaal belang is, vooral als je overstapt van synthetische naar echte data voor modeltraining. De EU AI-wet categoriseert AI-gerelateerde technologie op basis van risiconiveaus, variërend van ‘onaanvaardbaar’ tot laag gevaar. U moet de gevolgen van aansprakelijkheid tot in het kleinste detail begrijpen.
Beveiliging blijft ook van het allergrootste belang, zelfs als het gaat om synthetische data, omdat deze kunnen worden misbruikt als deze ooit in verkeerde handen terechtkomen. Gegevens moeten dus net zo veilig als altijd worden bewaard.
Let ten slotte goed op contractuele verplichtingen met betrekking tot datagebruik en vertrouwelijkheid. Soms reiken ze verder dan de data zelf en omvatten ze de inherente waarde ervan. Vraag advies aan juridische, cyberbeveiligings- en AI-experts om op de hoogte te blijven van al deze overwegingen.
Wim, kun je specifieke uitdagingen delen, afgezien van de wettelijke uitdagingen, waar je klanten op anticiperen bij het introduceren van synthetische data in hun workflows? Hoe kunt u helpen deze te verzachten?
wim: Een belangrijk punt van zorg is de nauwkeurigheid van synthetische data in vergelijking met datasets uit de echte wereld, vooral als het gaat om door AI gegenereerde synthetische data. Om dit aan te pakken, voeren wij uit rigoureuze analyses om de nauwkeurigheid en betrouwbaarheid van synthetische data te valideren tegen authentieke datasets.
Bovendien, verklaarbare AI staat centraal in onze implementatiestrategie. Door vast te houden aan de principes van verklaarbare AI, maken we AI-modellen transparanter, zodat belanghebbenden de grondgedachte achter AI-gestuurde beslissingen kunnen begrijpen. Dit schept vertrouwen dat synthetische data betrouwbaar en nuttig zijn.
Complexe datatypen, zoals tijdreeksdata, creëer nog een hindernis. Organisaties kunnen problemen ondervinden bij het begrijpen en genereren van synthetische data, vooral bij complexe datatypen zoals tijdreeksdata en het opschalen van de generatie van synthetische data naar productieniveaus. We staan klaar om onze klanten bij elke uitdaging te begeleiden om de integratie van synthetische data in hun workflows te vergemakkelijken. Bovendien is het platform van Syntho gebruiksvriendelijk, zodat onze klanten eigenlijk niet met dergelijke problemen worstelen.
Laten we afsluiten met het bespreken van enkele van de best practices voor het implementeren van synthetische datastrategieën in de gezondheidszorg. Wim, ik weet zeker dat je er graag een paar wilt delen.
wim: Zeker. Eerst moet je uitzoeken waarvoor je de synthetische data nodig hebt. Als het bijvoorbeeld alleen voor testen of demo's is, is het misschien niet nodig dat het supernauwkeurig is. Nauwkeurigheid moet echter uw topprioriteit zijn als u het gebruikt om AI-modellen te trainen.
We hebben met partners als Intel samengewerkt om te testen hoe goed modellen die op synthetische data zijn gebouwd, presteren vergeleken met die gebaseerd op echte data. De resultaten waren echt veelbelovend. Ze bevestigden alleen dat synthetische data effectief zijn bij modeltraining.
Als het gaat om het gebruik van synthetische data, kun je deze het beste al vroeg integreren, direct nadat je toegang hebt gekregen tot de originele data. Door te beginnen met synthetische data kunt u een voorsprong nemen op het gebied van modelontwikkeling en innovatie, zonder maanden te hoeven wachten op toegang tot echte data. Dit maakt het proces soepeler. Vervolgens kunt u uw modellen bouwen en testen met behulp van synthetische data en de beste kiezen voor gebruik in de echte wereld.
Maar het gaat niet alleen om het bouwen van modellen; je moet er ook voor zorgen dat alles goed en veilig gebeurt. Dat betekent dat er bij elke stap regels en controles moeten gelden, van datatoegang tot de implementatie van modellen.
Over het geheel genomen bieden synthetische data een baanbrekend voordeel voor gezondheidszorgorganisaties, farmaceutische bedrijven en softwareontwikkelaars. Het creëren van statistisch nauwkeurige data die gevoelige patiëntinformatie beschermen, verkleint het risico op privacyschendingen en hoge boetes.
Deze innovatie bespaart niet alleen tijd en middelen door bureaucratische hindernissen te omzeilen; het opent ook deuren voor onderzoek waarbij de toegang tot authentieke data beperkt is. Het maakt de studie van zeldzame ziekten mogelijk en verbetert de voorspellende nauwkeurigheid van medisch onderzoek.
Hoewel uitdagingen zoals datavooroordelen en voorzichtigheid op wetgevingsgebied bestaan, beloven oplossingen zoals de synthetische data-engine van Syntho de datagestuurde gezondheidszorg opnieuw vorm te geven, waarbij privacy, nauwkeurigheid en toegankelijkheid de kernprincipes blijven.
Concluderen
Door middel van inzichten gedeeld door experts uit de sector hebben we de diverse toepassingen en voordelen van synthetische data in domeinen van de gezondheidszorg blootgelegd. Van het aanpakken van dataschaarste tot het verbeteren van de voorspellende nauwkeurigheid: synthetische data komen naar voren als een veelzijdig hulpmiddel om betekenisvolle veranderingen te bewerkstelligen.
Hoewel uitdagingen als datavooroordelen en wettelijke beperkingen worden erkend, blijft de consensus duidelijk: synthetische data hebben een enorm potentieel om de gezondheidszorg te revolutioneren door de privacy te waarborgen, nauwkeurigheid te garanderen en op data gebaseerde besluitvorming te vergemakkelijken.
Met oplossingen als syntho biedt, waarbij alle benaderingen voor het genereren van synthetische data op één platform worden samengebracht, wordt het transformeren van de gezondheidszorg door middel van innovatie veel eenvoudiger en kosteneffectiever.
U kunt persoonlijk met één van onze experts spreken. Zojuist boek een demoen wij beantwoorden graag al uw vragen.
Gegevens zijn synthetisch, maar ons team is echt!
Neem contact op met Syntho en een van onze experts neemt razendsnel contact met je op om de waarde van synthetische data te onderzoeken!