Fan privacy oant mooglikheid: Syntetyske gegevens brûke fia de yntegreare Syntho Engine yn SAS Viya as ûnderdiel fan 'e SAS Hackathon om privacygefoelige gegevens te ûntsluten

Wy ûntsluten it folsleine potensjeel fan sûnensgegevens mei generative AI tidens de SAS Hackathon.

Wêrom ûntsluten privacygefoelige sûnenssoarchgegevens?

Sûnenssoarch hat ynsichten op it datastasjon serieus nedich. Om't de sûnenssoarch te min bemanne is, te druk mei it potensjeel om libbens te rêden. Soarchgegevens binne lykwols de meast privacygefoelige gegevens en wurde dêrom beskoattele. Dizze privacy gefoelige gegevens:

  • Is tiidslinend om tagong te krijen
  • Fereasket wiidweidich papierwurk
  • En kin net gewoan brûkt wurde

Dit is problematysk, om't ús doel foar dizze hackathon de ferfal en mortaliteit foarsizze as ûnderdiel fan kankerûndersyk foar in liedend sikehûs. Dat is de reden dat Syntho en SAS gearwurkje foar dit sikehûs, wêr't Syntho gegevens ûntsluten mei syntetyske gegevens en SAS gegevens ynsjoch realisearret mei SAS Viya, it liedende analytyske platfoarm.

Syntetyske gegevens?

Us Syntho Engine genereart folslein nije keunstmjittich oanmakke gegevens. Key ferskil, wy tapasse AI om de skaaimerken fan 'e echte wrâldgegevens yn' e syntetyske gegevens te mimikjen, en yn sa'n mjitte dat it sels kin wurde brûkt foar analytiken. Dêrom neame wy it in syntetyske data twilling. It is sa goed as echt en statistysk identyk oan 'e orizjinele gegevens, mar sûnder de privacyrisiko's.

Syntho Engine yntegrearre yn SAS Viya

Tidens dizze hackathon yntegrearre wy de Syntho Engine API yn SAS Viya as stap. Hjir hawwe wy ek falidearre dat de syntetyske gegevens yndie sa goed as echt binne yn SAS Viya. Foardat wy begûnen mei it kankerûndersyk, testen wy dizze yntegreare oanpak mei in iepen dataset en validearre as de syntetyske gegevens yndie sa goed-as echt binne fia ferskate validaasjemetoaden yn SAS Viya.

Is syntetyske gegevens like goed-as echt?

De korrelaasjes, de relaasjes tusken fariabelen, bliuwe bewarre.

It gebiet ûnder de kromme, in maatregel foar modelprestaasjes, wurdt bewarre bleaun.

En sels it fariabele belang, de foarsizzende krêft fan fariabelen foar in model, hâldt as wy de orizjinele gegevens fergelykje mei de syntetyske gegevens.

Hjirtroch kinne wy ​​konkludearje dat syntetyske gegevens generearre troch de Syntho Engine yn SAS Viya yndie as-goed-as-echt binne en dat wy syntetyske gegevens kinne brûke foar modelûntwikkeling. Dêrom kinne wy ​​​​begjinne mei dit kankerûndersyk om ferfal en mortaliteit te foarsizzen.

Syntetyske gegevens foar kankerûndersyk foar in liedend sikehûs

Hjir hawwe wy de yntegreare Syntho Engine brûkt as stap yn SAS Viya om dizze privacygefoelige gegevens te ûntsluten mei syntetyske gegevens.

It resultaat, in AUC fan 0.74 en in model dat yn steat is om fersmoarging en mortaliteit te foarsizzen.

As gefolch fan it brûken fan syntetyske gegevens, koenen wy dizze sûnenssoarch ûntsluten yn in situaasje mei minder risiko, mear gegevens en rappere gegevenstagong.

Kombinearje gegevens fan meardere sikehûzen

Dat kin net allinnich binnen it sikehûs, ek gegevens fan meardere sikehûzen kinne kombinearre wurde. Dêrom wie de folgjende stap om gegevens fan meardere sikehûzen te syntetisearjen. Ferskillende relevante sikehûsgegevens waarden synthesisearre as ynfier foar it model yn SAS Viya fia de Syntho Engine. Hjir realisearre wy in AUC fan 0.78, wat oantoand dat mear gegevens resultearje yn bettere foarsizzende krêft fan dy modellen.

results

En dit binne de resultaten fan dizze hackathon:

  • Syntho is yntegrearre yn SAS Viya as stap
  • syntetyske gegevens wurdt mei súkses oanmakke fia Syntho yn SAS Viya
  • De krektens fan syntetyske gegevens wurdt goedkard, om't modellen oplaat op syntetyske gegevens skoare ferlykber as modellen oplaat op orizjinele gegevens
  • wy foarsizze efterútgong en mortaliteit op syntetyske gegevens as ûnderdiel fan kankerûndersyk
  • en toande ferheging fan AUC by it kombinearjen fan syntetyske gegevens fan meardere sikehûzen.

Folgjende stappen

Folgjende stappen binne te

  • befetsje mear sikehuzen
  • te wreidzjen gebrûk gefallen en
  • om út te wreidzjen nei elke oare organisaasje, om't de techniken sektoragnostysk binne.

Dit is hoe't Syntho en SAS gegevens ûntsluten en gegevensoandreaune ynsjoch realisearje yn sûnenssoarch om te soargjen dat sûnenssoarch goed bemanne is, mei normale druk om libbens te rêden.

Syntetyske gegevens yn sûnenssoarchdekking

Bewarje jo syntetyske gegevens yn sûnensrapport!