Gwerthusiad allanol o'n data synthetig gan arbenigwyr data SAS

Mae ein data synthetig yn wedi'i asesu ac cymeradwyo gan arbenigwyr data o SAS

Cyflwyniad i werthusiad allanol o'n data synthetig gan arbenigwyr data SAS

Beth wnaethom ni?

Mae data synthetig a gynhyrchir gan Syntho yn cael ei asesu, ei ddilysu a'i gymeradwyo o safbwynt allanol a gwrthrychol gan arbenigwyr data SAS.

Pam mae ein data synthetig yn cael ei werthuso'n allanol gan arbenigwyr data SAS?

Er bod Syntho yn falch o gynnig adroddiad sicrhau ansawdd uwch i'w ddefnyddwyr, rydym hefyd yn deall pwysigrwydd cael gwerthusiad allanol a gwrthrychol o'n data synthetig gan arweinwyr diwydiant. Dyna pam yr ydym yn cydweithio â SAS, arweinydd mewn dadansoddeg, i asesu ein data synthetig.

Mae SAS yn cynnal amrywiol werthusiadau trylwyr ar gywirdeb data, diogelu preifatrwydd, a defnyddioldeb data synthetig a gynhyrchir gan AI Syntho o'i gymharu â'r data gwreiddiol. I gloi, asesodd a chymeradwyodd SAS ddata synthetig Syntho fel rhai cywir, diogel a defnyddiadwy o gymharu â'r data gwreiddiol.

Beth wnaeth SAS yn ystod yr asesiad hwn?

Defnyddiwyd data telathrebu a ddefnyddir ar gyfer rhagfynegiad “corddi” fel data targed. Nod y gwerthusiad oedd defnyddio data synthetig i hyfforddi gwahanol fodelau rhagfynegi corddi ac i asesu perfformiad pob model. Gan mai tasg ddosbarthu yw rhagfynegi corddi, dewisodd SAS fodelau dosbarthu poblogaidd i wneud y rhagfynegiadau, gan gynnwys:

  1. Coedwig ar hap
  2. Hwb graddiant
  3. Atchweliad logistaidd
  4. Rhwydwaith niwtral

Cyn cynhyrchu'r data synthetig, rhannodd SAS y set ddata telathrebu ar hap yn set drenau (ar gyfer hyfforddi'r modelau) a set dal allan (ar gyfer sgorio'r modelau). Mae cael set daliant ar wahân ar gyfer sgorio yn caniatáu asesiad diduedd o ba mor dda y gallai'r model dosbarthu ei wneud o'i gymhwyso i ddata newydd.

Gan ddefnyddio'r set trên fel mewnbwn, defnyddiodd Syntho ei Beiriant Syntho i gynhyrchu set ddata synthetig. Ar gyfer meincnodi, creodd SAS fersiwn dienw o'r set trên hefyd ar ôl cymhwyso amrywiol dechnegau anhysbysu i gyrraedd trothwy penodol (k-anhysbysrwydd). Arweiniodd y camau cyntaf at bedair set ddata:

  1. Set ddata trên (hy y set ddata wreiddiol llai'r set ddata dal allan)
  2. Set ddata daliad (hy is-set o'r set ddata wreiddiol)
  3. Set ddata ddienw (data dienw o'r set ddata trenau, set ddata wreiddiol llai'r set ddata cadw)
  4. Set ddata synthetig (data wedi'i syntheseiddio o'r set ddata trenau, set ddata wreiddiol llai'r set ddata cadw)

Defnyddiwyd setiau data 1, 3 a 4 i hyfforddi pob model dosbarthu, gan arwain at 12 (3 x 4) o fodelau hyfforddedig. Yn dilyn hynny, defnyddiodd SAS y set ddata dal allan i fesur cywirdeb pob model wrth ragfynegi trosiant cwsmeriaid.

Mae SAS yn cynnal amrywiol werthusiadau trylwyr ar gywirdeb data, diogelu preifatrwydd, a defnyddioldeb data synthetig a gynhyrchir gan AI Syntho o'i gymharu â'r data gwreiddiol. I gloi, asesodd a chymeradwyodd SAS ddata synthetig Syntho fel rhai cywir, diogel a defnyddiadwy o gymharu â'r data gwreiddiol.

Oes gennych chi unrhyw gwestiynau?

Siaradwch ag un o'n harbenigwyr

Canlyniadau cychwynnol yr asesiad data gan SAS

Mae sgôr modelau a hyfforddwyd ar ddata synthetig yn hynod debyg o gymharu â modelau a hyfforddwyd ar ddata gwreiddiol

Mae data synthetig o Syntho yn dal nid yn unig ar gyfer patrymau sylfaenol, mae hefyd yn dal patrymau ystadegol 'cudd' dwfn sydd eu hangen ar gyfer tasgau dadansoddeg uwch. Dangosir yr olaf yn y siart bar, sy'n dangos bod cywirdeb modelau a hyfforddwyd ar ddata synthetig yn erbyn modelau a hyfforddwyd ar ddata gwreiddiol yn debyg. Felly, gellir defnyddio data synthetig ar gyfer hyfforddiant gwirioneddol y modelau. Roedd y mewnbynnau a'r pwysigrwydd amrywiol a ddewiswyd gan yr algorithmau ar ddata synthetig o gymharu â data gwreiddiol yn debyg iawn. Felly, daethpwyd i'r casgliad y gellir gwneud y broses fodelu ar ddata synthetig, fel dewis arall ar gyfer defnyddio data sensitif go iawn.

Pam mae modelau sydd wedi’u hyfforddi ar ddata dienw yn sgorio’n waeth?

Mae'n gyffredin i dechnegau anhysbysu clasurol eu bod yn trin data gwreiddiol er mwyn rhwystro olrhain unigolion yn ôl. Maent yn trin data ac felly'n dinistrio data yn y broses. Po fwyaf y byddwch yn anhysbys, y gorau y caiff eich data ei ddiogelu, ond hefyd y mwyaf y caiff eich data ei ddinistrio. Mae hyn yn arbennig o ddinistriol i dasgau AI a modelu lle mae “pŵer rhagfynegi” yn hanfodol, oherwydd bydd data o ansawdd gwael yn arwain at fewnwelediadau gwael o'r model AI. Dangosodd SAS hyn, gydag ardal o dan y gromlin (AUC*) yn agos at 0.5, gan ddangos mai’r modelau a hyfforddwyd ar ddata dienw sy’n perfformio waethaf o bell ffordd.

Canlyniadau ychwanegol o asesiadau data synthetig gan SAS

Canlyniadau ychwanegol o asesiadau data synthetig gan SAS

Cadwyd y cydberthnasau a'r perthnasoedd rhwng newidynnau yn gywir mewn data synthetig.

Arhosodd yr Ardal o Dan y Gromlin (AUC), metrig ar gyfer mesur perfformiad model, yn gyson.

Ymhellach, roedd y pwysigrwydd newidiol, a oedd yn dangos pŵer rhagfynegol newidynnau mewn model, yn parhau'n gyfan wrth gymharu data synthetig â'r set ddata wreiddiol.

Yn seiliedig ar yr arsylwadau hyn gan SAS a thrwy ddefnyddio SAS Viya, gallwn ddod i'r casgliad yn hyderus bod data synthetig a gynhyrchir gan y Syntho Engine yn wir yn cyfateb i ddata gwirioneddol o ran ansawdd. Mae hyn yn dilysu'r defnydd o ddata synthetig ar gyfer datblygu modelau, gan baratoi'r ffordd ar gyfer dadansoddeg uwch gyda data synthetig.

Casgliadau gan arbenigwyr data SAS

Logo Sas

Mae ein data synthetig yn cymeradwyo gan arbenigwyr data SAS

Erthyglau cyfeirio

clawr canllaw syntho

Arbedwch eich canllaw data synthetig nawr!