Fra personvern til mulighet: Bruk av syntetiske data via den integrerte Syntho Engine i SAS Viya som en del av SAS Hackathon for å låse opp personvernsensitive data

Vi låser opp det fulle potensialet til helsedata med generativ AI under SAS Hackathon.

Hvorfor låse opp personvernsensitive helsedata?

Helsevesenet trenger sterkt innsikt i datastasjoner. Fordi helsevesenet er underbemannet, overpresset med potensialet til å redde liv. Imidlertid er helsedata de mest personvernsensitive dataene og er derfor låst. Disse personvernsensitive dataene:

  • Er tidkrevende å få tilgang til
  • Krever omfattende papirarbeid
  • Og kan ikke bare brukes

Dette er problematisk, siden målet vårt for dette hackathonet er å forutsi forverring og dødelighet som en del av kreftforskning for et ledende sykehus. Det er derfor Syntho og SAS samarbeider for dette sykehuset, der Syntho låser opp data med syntetiske data og SAS realiserer datainnsikt med SAS Viya, den ledende analyseplattformen.

Syntetiske data?

Vår Syntho Engine genererer helt nye kunstig genererte data. Hovedforskjell, vi bruker AI for å etterligne egenskapene til data fra den virkelige verden i syntetiske data, og i en slik grad at de til og med kan brukes til analyser. Det er derfor vi kaller det en syntetisk datatvilling. Det er så godt som ekte og statistisk identisk med de originale dataene, men uten personvernrisikoen.

Syntho Engine integrert i SAS Viya

Under dette hackathonet integrerte vi Syntho Engine API i SAS Viya som trinn. Her validerte vi også at de syntetiske dataene faktisk er like gode som ekte i SAS Viya. Før vi startet med kreftforskningen, testet vi denne integrerte tilnærmingen med et åpent datasett og validerte om de syntetiske dataene faktisk er like gode som ekte via ulike valideringsmetoder i SAS Viya.

Er syntetiske data like gode som ekte?

Korrelasjonene, relasjonene mellom variabler, er bevart.

Arealet under kurven, et mål for modellytelse, er bevart.

Og til og med variabelens betydning, prediksjonskraften til variabler for en modell, gjelder når vi sammenligner de originale dataene med de syntetiske dataene.

Derfor kan vi konkludere med at syntetiske data generert av Syntho Engine i SAS Viya faktisk er like gode som ekte og at vi kan bruke syntetiske data for modellutvikling. Derfor kan vi starte med denne kreftforskningen for å forutsi forverring og dødelighet.

Syntetiske data for kreftforskning for et ledende sykehus

Her brukte vi den integrerte Syntho Engine som trinn i SAS Viya for å låse opp disse personvernsensitive dataene med syntetiske data.

Resultatet, en AUC på 0.74 og en modell som er i stand til å forutsi forverring og dødelighet.

Som et resultat av å bruke syntetiske data, var vi i stand til å låse opp denne helsetjenesten i en situasjon med mindre risiko, mer data og raskere datatilgang.

Kombiner data fra flere sykehus

Dette er ikke bare mulig innenfor sykehuset, også data fra flere sykehus kan kombineres. Derfor var neste trinn å syntetisere data fra flere sykehus. Ulike relevante sykehusdata ble syntetisert som input for modellen i SAS Viya via Syntho Engine. Her realiserte vi en AUC på 0.78, noe som viser at flere data resulterer i bedre prediksjonskraft til disse modellene.

Resultater

Og dette er resultatene fra dette hackathonet:

  • Syntho er integrert i SAS Viya som trinn
  • syntetiske data er vellykket generert via Syntho i SAS Viya
  • Syntetisk datanøyaktighet er godkjent, ettersom modeller som er trent på syntetiske data, scorer likt som modeller trent på originaldata
  • vi spådde forverring og dødelighet på syntetiske data som en del av kreftforskning
  • og viste økning i AUC ved kombinasjon av syntetiske data fra flere sykehus.

Neste trinn

Neste trinn er å

  • inkludere flere sykehus
  • å utvide brukstilfeller og
  • å utvide til enhver annen organisasjon, da teknikkene er sektoragnostiske.

Dette er hvordan Syntho og SAS låser opp data og realiserer datadrevet innsikt i helsevesenet for å sikre at helsevesenet er godt bemannet, med normalt press for å redde liv.

Syntetiske data i helsevesenet

Lagre de syntetiske dataene dine i helserapporten!