От поверителност към възможност: Използване на синтетични данни чрез интегрирания Syntho Engine в SAS Viya като част от SAS Hackathon за отключване на чувствителни към поверителността данни

Отключваме пълния потенциал на здравните данни с генериращ AI по време на SAS Hackathon.

Защо да отключвате чувствителни за поверителност здравни данни?

Здравеопазването силно се нуждае от прозрения за управление на данни. Тъй като здравеопазването е с недостатъчен персонал, претоварено с потенциал да спасява животи. Здравните данни обаче са най-чувствителните към поверителността данни и следователно са заключени. Тези чувствителни за поверителност данни:

  • Отнема много време за достъп
  • Изисква обширна документация
  • И не може просто да се използва

Това е проблематично, тъй като нашата цел за този хакатон е да прогнозираме влошаване и смъртност като част от изследването на рака за водеща болница. Ето защо Syntho и SAS си сътрудничат за тази болница, където Syntho отключва данни със синтетични данни, а SAS реализира информация за данните със SAS Viya, водещата платформа за анализ.

Синтетични данни?

Нашият Syntho Engine генерира напълно нови изкуствено генерирани данни. Ключова разлика, ние прилагаме AI, за да имитираме характеристиките на данните от реалния свят в синтетичните данни и до такава степен, че дори може да се използва за анализи. Ето защо го наричаме синтетичен близнак на данни. Те са толкова добри, колкото и реални и статистически идентични с оригиналните данни, но без рискове за поверителността.

Syntho Engine, интегриран в SAS Viya

По време на този хакатон интегрирахме API на Syntho Engine в SAS Viya като стъпка. Тук също потвърдихме, че синтетичните данни наистина са толкова добри, колкото и реалните в SAS Viya. Преди да започнем с изследването на рака, тествахме този интегриран подход с отворен набор от данни и потвърдихме дали синтетичните данни наистина са толкова добри, колкото и реални чрез различни методи за валидиране в SAS Viya.

Дали синтетичните данни са толкова добри, колкото реални?

Запазват се корелациите, връзките между променливите.

Площта под кривата, мярка за представяне на модела, се запазва.

И дори значението на променливата, предсказващата сила на променливите за даден модел, се запазва, когато сравняваме оригиналните данни със синтетичните данни.

Следователно можем да заключим, че синтетичните данни, генерирани от Syntho Engine в SAS Viya, наистина са толкова добри, колкото и реални и че можем да използваме синтетични данни за разработване на модел. Следователно можем да започнем с това изследване на рака, за да предвидим влошаване и смъртност.

Синтетични данни за изследване на рака за водеща болница

Тук използвахме интегрирания Syntho Engine като стъпка в SAS Viya, за да отключим тези чувствителни към поверителността данни със синтетични данни.

Резултатът, AUC от 0.74 и модел, който е в състояние да предвиди влошаване и смъртност.

В резултат на използването на синтетични данни успяхме да отключим това здравеопазване в ситуация с по-малък риск, повече данни и по-бърз достъп до тях.

Комбинирайте данни от множество болници

Това е възможно не само в рамките на болницата, но могат да се комбинират и данни от множество болници. Следователно следващата стъпка беше да се синтезират данни от множество болници. Различни релевантни болнични данни бяха синтезирани като вход за модела в SAS Viya чрез Syntho Engine. Тук реализирахме AUC от 0.78, демонстрирайки, че повече данни водят до по-добра предсказваща сила на тези модели.

Резултати

А това са резултатите от този хакатон:

  • Syntho е интегриран в SAS Viya като стъпка
  • синтетичните данни се генерират успешно чрез Syntho в SAS Viya
  • Точността на синтетичните данни е одобрена, тъй като моделите, обучени на синтетични данни, имат сходен резултат от моделите, обучени на оригинални данни
  • предвидихме влошаване и смъртност на базата на синтетични данни като част от изследване на рака
  • и демонстрира увеличение на AUC при комбиниране на синтетични данни от множество болници.

Следващи стъпки

Следващите стъпки са да

  • включва повече болници
  • за разширяване на случаите на употреба и
  • да се разпространи към всяка друга организация, тъй като техниките са секторни агностици.

Това е начинът, по който Syntho и SAS отключват данни и реализират базирани на данни прозрения в здравеопазването, за да се уверят, че здравеопазването разполага с добър персонал, с нормален натиск за спасяване на животи.

Покритие за синтетични данни в здравеопазването

Запазете вашите синтетични данни в доклада за здравеопазването!