Gwerthusiad allanol o'n data synthetig gan arbenigwyr data SAS

Mae ein data synthetig yn wedi'i asesu ac cymeradwyo gan arbenigwyr data o SAS

Cyflwyniad i werthusiad allanol o'n data synthetig gan arbenigwyr data SAS

Beth wnaethom ni?

Mae data synthetig a gynhyrchir gan Syntho yn cael ei asesu, ei ddilysu a'i gymeradwyo o safbwynt allanol a gwrthrychol gan arbenigwyr data SAS.

Pam mae ein data synthetig yn cael ei werthuso'n allanol gan arbenigwyr data SAS?

Er bod Syntho yn falch o gynnig adroddiad sicrhau ansawdd uwch i'w ddefnyddwyr, rydym hefyd yn deall pwysigrwydd cael gwerthusiad allanol a gwrthrychol o'n data synthetig gan arweinwyr diwydiant. Dyna pam yr ydym yn cydweithio â SAS, arweinydd mewn dadansoddeg, i asesu ein data synthetig.

Mae SAS yn cynnal amrywiol werthusiadau trylwyr ar gywirdeb data, diogelu preifatrwydd, a defnyddioldeb data synthetig a gynhyrchir gan AI Syntho o'i gymharu â'r data gwreiddiol. I gloi, asesodd a chymeradwyodd SAS ddata synthetig Syntho fel rhai cywir, diogel a defnyddiadwy o gymharu â'r data gwreiddiol.

Beth wnaeth SAS yn ystod yr asesiad hwn?

Defnyddiwyd data telathrebu a ddefnyddir ar gyfer rhagfynegiad “corddi” fel data targed. Nod y gwerthusiad oedd defnyddio data synthetig i hyfforddi gwahanol fodelau rhagfynegi corddi ac i asesu perfformiad pob model. Gan mai tasg ddosbarthu yw rhagfynegi corddi, dewisodd SAS fodelau dosbarthu poblogaidd i wneud y rhagfynegiadau, gan gynnwys:

Coedwig ar hap
Hwb graddiant
Atchweliad logistaidd
Rhwydwaith niwtral

Cyn cynhyrchu'r data synthetig, rhannodd SAS y set ddata telathrebu ar hap yn set drenau (ar gyfer hyfforddi'r modelau) a set dal allan (ar gyfer sgorio'r modelau). Mae cael set daliant ar wahân ar gyfer sgorio yn caniatáu asesiad diduedd o ba mor dda y gallai'r model dosbarthu ei wneud o'i gymhwyso i ddata newydd.

Gan ddefnyddio'r set trên fel mewnbwn, defnyddiodd Syntho ei Beiriant Syntho i gynhyrchu set ddata synthetig. Ar gyfer meincnodi, creodd SAS fersiwn dienw o'r set trên hefyd ar ôl cymhwyso amrywiol dechnegau anhysbysu i gyrraedd trothwy penodol (k-anhysbysrwydd). Arweiniodd y camau cyntaf at bedair set ddata:

Set ddata trên (hy y set ddata wreiddiol llai'r set ddata dal allan)
Set ddata daliad (hy is-set o'r set ddata wreiddiol)
Set ddata ddienw (data dienw o'r set ddata trenau, set ddata wreiddiol llai'r set ddata cadw)
Set ddata synthetig (data wedi'i syntheseiddio o'r set ddata trenau, set ddata wreiddiol llai'r set ddata cadw)

Defnyddiwyd setiau data 1, 3 a 4 i hyfforddi pob model dosbarthu, gan arwain at 12 (3 x 4) o fodelau hyfforddedig. Yn dilyn hynny, defnyddiodd SAS y set ddata dal allan i fesur cywirdeb pob model wrth ragfynegi trosiant cwsmeriaid.

Oes gennych chi unrhyw gwestiynau?

Siaradwch ag un o'n harbenigwyr

Cysylltwch â ni

Canlyniadau cychwynnol yr asesiad data gan SAS

Mae sgôr modelau a hyfforddwyd ar ddata synthetig yn hynod debyg o gymharu â modelau a hyfforddwyd ar ddata gwreiddiol

Mae data synthetig o Syntho yn dal nid yn unig ar gyfer patrymau sylfaenol, mae hefyd yn dal patrymau ystadegol 'cudd' dwfn sydd eu hangen ar gyfer tasgau dadansoddeg uwch. Dangosir yr olaf yn y siart bar, sy'n dangos bod cywirdeb modelau a hyfforddwyd ar ddata synthetig yn erbyn modelau a hyfforddwyd ar ddata gwreiddiol yn debyg. Felly, gellir defnyddio data synthetig ar gyfer hyfforddiant gwirioneddol y modelau. Roedd y mewnbynnau a'r pwysigrwydd amrywiol a ddewiswyd gan yr algorithmau ar ddata synthetig o gymharu â data gwreiddiol yn debyg iawn. Felly, daethpwyd i'r casgliad y gellir gwneud y broses fodelu ar ddata synthetig, fel dewis arall ar gyfer defnyddio data sensitif go iawn.

Pam mae modelau sydd wedi’u hyfforddi ar ddata dienw yn sgorio’n waeth?

Mae'n gyffredin i dechnegau anhysbysu clasurol eu bod yn trin data gwreiddiol er mwyn rhwystro olrhain unigolion yn ôl. Maent yn trin data ac felly'n dinistrio data yn y broses. Po fwyaf y byddwch yn anhysbys, y gorau y caiff eich data ei ddiogelu, ond hefyd y mwyaf y caiff eich data ei ddinistrio. Mae hyn yn arbennig o ddinistriol i dasgau AI a modelu lle mae “pŵer rhagfynegi” yn hanfodol, oherwydd bydd data o ansawdd gwael yn arwain at fewnwelediadau gwael o'r model AI. Dangosodd SAS hyn, gydag ardal o dan y gromlin (AUC*) yn agos at 0.5, gan ddangos mai’r modelau a hyfforddwyd ar ddata dienw sy’n perfformio waethaf o bell ffordd.

Canlyniadau ychwanegol o asesiadau data synthetig gan SAS

Cadwyd y cydberthnasau a'r perthnasoedd rhwng newidynnau yn gywir mewn data synthetig.

Arhosodd yr Ardal o Dan y Gromlin (AUC), metrig ar gyfer mesur perfformiad model, yn gyson.

Ymhellach, roedd y pwysigrwydd newidiol, a oedd yn dangos pŵer rhagfynegol newidynnau mewn model, yn parhau'n gyfan wrth gymharu data synthetig â'r set ddata wreiddiol.

Yn seiliedig ar yr arsylwadau hyn gan SAS a thrwy ddefnyddio SAS Viya, gallwn ddod i'r casgliad yn hyderus bod data synthetig a gynhyrchir gan y Syntho Engine yn wir yn cyfateb i ddata gwirioneddol o ran ansawdd. Mae hyn yn dilysu'r defnydd o ddata synthetig ar gyfer datblygu modelau, gan baratoi'r ffordd ar gyfer dadansoddeg uwch gyda data synthetig.

Casgliadau gan arbenigwyr data SAS

Mae modelau a hyfforddwyd ar ddata synthetig o gymharu â'r modelau a hyfforddwyd ar ddata gwreiddiol yn dangos perfformiad tebyg iawn
Mae modelau sydd wedi’u hyfforddi ar ddata dienw gyda ‘thechnegau anhysbysu clasurol’ yn dangos perfformiad israddol o gymharu â modelau sydd wedi’u hyfforddi ar y data gwreiddiol neu ddata synthetig
Mae cynhyrchu data synthetig yn hawdd ac yn gyflym oherwydd bod y dechneg yn gweithio'n union yr un fath fesul set ddata ac fesul math o ddata

Mae ein data synthetig yn cymeradwyo gan arbenigwyr data SAS

Darllenwch yr erthygl

Erthyglau cyfeirio

Asesiad gan arbenigwyr data SAS: https://blogs.sas.com/content/hiddeninsights/2022/07/07/ai-generated-synthetic-data-easy-and-fast-access-to-high-quality-data/

Enillydd syntho hacathon byd-eang SAS: https://www.linkedin.com/feed/update/urn:li:activity:7070047376249376769/
Canlyniadau astudiaeth achos gofal iechyd: https://communities.sas.com/t5/SAS-Hacker-s-Hub/AI-Generated-Synthetic-Data-in-Healthcare/ta-p/863407

Beth yw data synthetig?

Adroddiad sicrwydd ansawdd

Gwerthusiad allanol gan SAS

Data synthetig cyfres amser

Sganiwr PII

Data Ffug Synthetig

Mapio cyson

Dad-adnabod a syntheteiddio

Data Synthetig yn seiliedig ar Reol

Is-osod

Defnyddio ac integreiddio

Connectors

Nodweddion estynedig

Data a gefnogir

Dogfennaeth defnyddiwr

Trefnwch demo

Prisiau

Data prawf

Dadansoddeg

Rhannu data

Demo's cynnyrch

monetization data

Gofal Iechyd

Cyllid

Sefydliadau Cyhoeddus

Dogfennaeth defnyddiwr

Papurau Gwyn a Chanllawiau

Blog

Gwe-seminarau

Astudiaethau Achos

Prisiau

Amdanom ni

Swyddi

Gwerthusiad allanol o'n data synthetig gan arbenigwyr data SAS

Mae ein data synthetig yn wedi'i asesu ac cymeradwyo gan arbenigwyr data o SAS

Cyflwyniad i werthusiad allanol o'n data synthetig gan arbenigwyr data SAS

Beth wnaethom ni?

Pam mae ein data synthetig yn cael ei werthuso'n allanol gan arbenigwyr data SAS?

Beth wnaeth SAS yn ystod yr asesiad hwn?

Oes gennych chi unrhyw gwestiynau?

Siaradwch ag un o'n harbenigwyr

Canlyniadau cychwynnol yr asesiad data gan SAS

Mae sgôr modelau a hyfforddwyd ar ddata synthetig yn hynod debyg o gymharu â modelau a hyfforddwyd ar ddata gwreiddiol

Pam mae modelau sydd wedi’u hyfforddi ar ddata dienw yn sgorio’n waeth?

Canlyniadau ychwanegol o asesiadau data synthetig gan SAS

Canlyniadau ychwanegol o asesiadau data synthetig gan SAS

Casgliadau gan arbenigwyr data SAS

Mae ein data synthetig yn cymeradwyo gan arbenigwyr data SAS

Erthyglau cyfeirio

Arbedwch eich canllaw data synthetig nawr!

prif ddewislen

Arbedwch eich canllaw data synthetig nawr!