Mae data synthetig a gynhyrchir gan Syntho yn cael ei asesu, ei ddilysu a'i gymeradwyo o safbwynt allanol a gwrthrychol gan arbenigwyr data SAS.
Er bod Syntho yn falch o gynnig adroddiad sicrhau ansawdd uwch i'w ddefnyddwyr, rydym hefyd yn deall pwysigrwydd cael gwerthusiad allanol a gwrthrychol o'n data synthetig gan arweinwyr diwydiant. Dyna pam yr ydym yn cydweithio â SAS, arweinydd mewn dadansoddeg, i asesu ein data synthetig.
Mae SAS yn cynnal amrywiol werthusiadau trylwyr ar gywirdeb data, diogelu preifatrwydd, a defnyddioldeb data synthetig a gynhyrchir gan AI Syntho o'i gymharu â'r data gwreiddiol. I gloi, asesodd a chymeradwyodd SAS ddata synthetig Syntho fel rhai cywir, diogel a defnyddiadwy o gymharu â'r data gwreiddiol.
Defnyddiwyd data telathrebu a ddefnyddir ar gyfer rhagfynegiad “corddi” fel data targed. Nod y gwerthusiad oedd defnyddio data synthetig i hyfforddi gwahanol fodelau rhagfynegi corddi ac i asesu perfformiad pob model. Gan mai tasg ddosbarthu yw rhagfynegi corddi, dewisodd SAS fodelau dosbarthu poblogaidd i wneud y rhagfynegiadau, gan gynnwys:
Cyn cynhyrchu'r data synthetig, rhannodd SAS y set ddata telathrebu ar hap yn set drenau (ar gyfer hyfforddi'r modelau) a set dal allan (ar gyfer sgorio'r modelau). Mae cael set daliant ar wahân ar gyfer sgorio yn caniatáu asesiad diduedd o ba mor dda y gallai'r model dosbarthu ei wneud o'i gymhwyso i ddata newydd.
Gan ddefnyddio'r set trên fel mewnbwn, defnyddiodd Syntho ei Beiriant Syntho i gynhyrchu set ddata synthetig. Ar gyfer meincnodi, creodd SAS fersiwn dienw o'r set trên hefyd ar ôl cymhwyso amrywiol dechnegau anhysbysu i gyrraedd trothwy penodol (k-anhysbysrwydd). Arweiniodd y camau cyntaf at bedair set ddata:
Defnyddiwyd setiau data 1, 3 a 4 i hyfforddi pob model dosbarthu, gan arwain at 12 (3 x 4) o fodelau hyfforddedig. Yn dilyn hynny, defnyddiodd SAS y set ddata dal allan i fesur cywirdeb pob model wrth ragfynegi trosiant cwsmeriaid.
Mae SAS yn cynnal amrywiol werthusiadau trylwyr ar gywirdeb data, diogelu preifatrwydd, a defnyddioldeb data synthetig a gynhyrchir gan AI Syntho o'i gymharu â'r data gwreiddiol. I gloi, asesodd a chymeradwyodd SAS ddata synthetig Syntho fel rhai cywir, diogel a defnyddiadwy o gymharu â'r data gwreiddiol.
Mae data synthetig o Syntho yn dal nid yn unig ar gyfer patrymau sylfaenol, mae hefyd yn dal patrymau ystadegol 'cudd' dwfn sydd eu hangen ar gyfer tasgau dadansoddeg uwch. Dangosir yr olaf yn y siart bar, sy'n dangos bod cywirdeb modelau a hyfforddwyd ar ddata synthetig yn erbyn modelau a hyfforddwyd ar ddata gwreiddiol yn debyg. Felly, gellir defnyddio data synthetig ar gyfer hyfforddiant gwirioneddol y modelau. Roedd y mewnbynnau a'r pwysigrwydd amrywiol a ddewiswyd gan yr algorithmau ar ddata synthetig o gymharu â data gwreiddiol yn debyg iawn. Felly, daethpwyd i'r casgliad y gellir gwneud y broses fodelu ar ddata synthetig, fel dewis arall ar gyfer defnyddio data sensitif go iawn.
Mae'n gyffredin i dechnegau anhysbysu clasurol eu bod yn trin data gwreiddiol er mwyn rhwystro olrhain unigolion yn ôl. Maent yn trin data ac felly'n dinistrio data yn y broses. Po fwyaf y byddwch yn anhysbys, y gorau y caiff eich data ei ddiogelu, ond hefyd y mwyaf y caiff eich data ei ddinistrio. Mae hyn yn arbennig o ddinistriol i dasgau AI a modelu lle mae “pŵer rhagfynegi” yn hanfodol, oherwydd bydd data o ansawdd gwael yn arwain at fewnwelediadau gwael o'r model AI. Dangosodd SAS hyn, gydag ardal o dan y gromlin (AUC*) yn agos at 0.5, gan ddangos mai’r modelau a hyfforddwyd ar ddata dienw sy’n perfformio waethaf o bell ffordd.
Cadwyd y cydberthnasau a'r perthnasoedd rhwng newidynnau yn gywir mewn data synthetig.
Arhosodd yr Ardal o Dan y Gromlin (AUC), metrig ar gyfer mesur perfformiad model, yn gyson.
Ymhellach, roedd y pwysigrwydd newidiol, a oedd yn dangos pŵer rhagfynegol newidynnau mewn model, yn parhau'n gyfan wrth gymharu data synthetig â'r set ddata wreiddiol.
Yn seiliedig ar yr arsylwadau hyn gan SAS a thrwy ddefnyddio SAS Viya, gallwn ddod i'r casgliad yn hyderus bod data synthetig a gynhyrchir gan y Syntho Engine yn wir yn cyfateb i ddata gwirioneddol o ran ansawdd. Mae hyn yn dilysu'r defnydd o ddata synthetig ar gyfer datblygu modelau, gan baratoi'r ffordd ar gyfer dadansoddeg uwch gyda data synthetig.