From Privacy to Possibility: Using Synthetic Data via the integrated Syntho Engine in SAS Viya als Teil des SAS Hackathon to unlock privacy sensitive data

Während des SAS Hackathons erschließen wir das volle Potenzial von Gesundheitsdaten mit generativer KI.

Warum datenschutzrelevante Gesundheitsdaten freigeben?

Das Gesundheitswesen benötigt dringend Erkenntnisse über Datenantriebe. Weil das Gesundheitswesen unterbesetzt und überlastet ist und das Potenzial hat, Leben zu retten. Gesundheitsdaten sind jedoch die datenschutzsensibelsten Daten und werden daher gesperrt. Diese datenschutzrelevanten Daten:

  • Der Zugriff ist zeitaufwändig
  • Erfordert umfangreichen Papierkram
  • Und kann nicht einfach verwendet werden

Dies ist problematisch, da unser Ziel bei diesem Hackathon darin besteht, im Rahmen der Krebsforschung für ein führendes Krankenhaus eine Verschlechterung und Mortalität vorherzusagen. Deshalb arbeiten Syntho und SAS für dieses Krankenhaus zusammen, wo Syntho Daten mit synthetischen Daten erschließt und SAS Dateneinblicke mit SAS Viya, der führenden Analyseplattform, realisiert.

Synthetische Daten?

Unsere Syntho Engine generiert völlig neue künstlich generierte Daten. Der Hauptunterschied besteht darin, dass wir KI verwenden, um die Eigenschaften realer Daten in den synthetischen Daten nachzuahmen, und zwar in einem solchen Ausmaß, dass sie sogar für Analysen verwendet werden können. Deshalb nennen wir es einen synthetischen Datenzwilling. Es ist so gut wie echt und statistisch identisch mit den Originaldaten, jedoch ohne Datenschutzrisiken.

Syntho Engine in SAS Viya integriert

Während dieses Hackathons haben wir als Schritt die Syntho Engine API in SAS Viya integriert. Hier haben wir auch bestätigt, dass die synthetischen Daten in SAS Viya tatsächlich genauso gut sind wie real. Bevor wir mit der Krebsforschung begannen, haben wir diesen integrierten Ansatz mit einem offenen Datensatz getestet und mithilfe verschiedener Validierungsmethoden in SAS Viya validiert, ob die synthetischen Daten tatsächlich so gut wie real sind.

Sind synthetische Daten genauso gut wie real?

Die Korrelationen, die Beziehungen zwischen Variablen, bleiben erhalten.

Die Fläche unter der Kurve, ein Maß für die Modellleistung, bleibt erhalten.

Und selbst die Variablenbedeutung, die Vorhersagekraft von Variablen für ein Modell, bleibt bestehen, wenn wir die Originaldaten mit den synthetischen Daten vergleichen.

Daraus können wir schließen, dass die von der Syntho Engine in SAS Viya generierten synthetischen Daten tatsächlich genauso gut wie echt sind und dass wir synthetische Daten für die Modellentwicklung verwenden können. Daher können wir mit dieser Krebsforschung beginnen, um eine Verschlechterung und Mortalität vorherzusagen.

Synthetische Daten für die Krebsforschung für ein führendes Krankenhaus

Hier haben wir die integrierte Syntho Engine als Schritt in SAS Viya verwendet, um diese datenschutzrelevanten Daten mit synthetischen Daten zu entsperren.

Das Ergebnis ist eine AUC von 0.74 und ein Modell, das in der Lage ist, Verschlechterung und Mortalität vorherzusagen.

Durch die Verwendung synthetischer Daten konnten wir diese Gesundheitsversorgung in einer Situation mit geringerem Risiko, mehr Daten und schnellerem Datenzugriff freischalten.

Kombinieren Sie Daten mehrerer Krankenhäuser

Dies ist nicht nur innerhalb des Krankenhauses möglich, es könnten auch Daten mehrerer Krankenhäuser zusammengeführt werden. Daher bestand der nächste Schritt darin, Daten aus mehreren Krankenhäusern zu synthetisieren. Über die Syntho Engine wurden verschiedene relevante Krankenhausdaten als Eingabe für das Modell in SAS Viya synthetisiert. Hier haben wir eine AUC von 0.78 festgestellt, was zeigt, dass mehr Daten zu einer besseren Vorhersagekraft dieser Modelle führen.

Die Ergebnisse

Und das sind die Ergebnisse dieses Hackathons:

  • Syntho ist als Schritt in SAS Viya integriert
  • Synthetische Daten werden erfolgreich über Syntho in SAS Viya generiert
  • Die Genauigkeit synthetischer Daten wird bestätigt, da Modelle, die auf synthetischen Daten trainiert wurden, ähnliche Ergebnisse erzielen wie Modelle, die auf Originaldaten trainiert wurden
  • Im Rahmen der Krebsforschung haben wir anhand synthetischer Daten eine Verschlechterung und Mortalität vorhergesagt
  • und zeigte einen Anstieg der AUC bei der Kombination synthetischer Daten aus mehreren Krankenhäusern.

Nächste Schritte

Die nächsten Schritte sind:

  • weitere Krankenhäuser einbeziehen
  • Anwendungsfälle zu erweitern und
  • auf jede andere Organisation übertragen werden, da die Techniken branchenunabhängig sind.

Auf diese Weise erschließen Syntho und SAS Daten und realisieren datengesteuerte Erkenntnisse im Gesundheitswesen, um sicherzustellen, dass das Gesundheitswesen gut besetzt ist und der normale Druck besteht, Leben zu retten.

Versicherungsschutz für synthetische Daten im Gesundheitswesen

Speichern Sie Ihre synthetischen Daten im Gesundheitsbericht!