Os ydych chi'n anhysbysu'ch data cyn perfformio profion data ar ddadansoddeg data, mae yna sawl ffactor ar waith:
Mae data synthetig yn datrys yr holl ddiffygion hyn a mwy. Gwyliwch y fideo isod i weld arbenigwr dadansoddeg o SAS (arweinydd marchnad fyd-eang mewn dadansoddeg) yn egluro am ei asesiad ar y gwahaniaeth mewn ansawdd rhwng data gwreiddiol, data anhysbys a chan ddata synthetig a gynhyrchwyd gan Syntho.
Mae'r fideo hon wedi'i chipio o'r Syntho x SAS D [N] Caffi am Ddata Synthetig a Gynhyrchir gan AI. Dewch o hyd i'r fideo llawn yma.
Anfonodd Edwin van Unen set ddata wreiddiol i Syntho a gwnaethom syntheseiddio'r set ddata. Ond y cwestiwn hefyd oedd: “Beth fydd yn digwydd os byddwn yn cymharu data synthetig â data dienw?” Oherwydd eich bod yn colli llawer o wybodaeth mewn data dienw, a fydd hyn hefyd yn digwydd wrth syntheseiddio set ddata? Dechreuon ni gyda set ddata o'r diwydiant telathrebu gyda 56.000 o resi a 128 o golofnau o wybodaeth am gorddi cwmnïau. Cafodd y set ddata hon ei syntheseiddio a'i gwneud yn ddienw fel y gallai Edwin gymharu syntheteiddio ag anhysbysiad. Yna, dechreuodd Edwin fodelu gan ddefnyddio SAS Viya. Adeiladodd ychydig o fodelau corddi ar y set ddata wreiddiol, gan ddefnyddio technegau atchweliad clasurol a choed penderfynu, ond hefyd technegau mwy soffistigedig fel rhwydweithiau niwral, hybu graddiant, coedwig ar hap - y mathau hyn o dechnegau. Defnyddio'r opsiynau SAS Viya safonol wrth adeiladu'r modelau.
Yna, daeth yn amser edrych ar y canlyniadau. Roedd y canlyniadau'n addawol iawn ar gyfer data synthetig ac nid ar gyfer anhysbysu. Ar gyfer yr arbenigwyr dim-peiriant-ddysgu yn y gynulleidfa, rydym yn edrych ar yr ardal o dan y gromlin ROC sy'n dweud rhywbeth am gywirdeb y model. Wrth gymharu'r data gwreiddiol â'r data dienw, gwelwn fod gan y model data gwreiddiol ardal o dan gromlin ROC o .8, sy'n eithaf da, Fodd bynnag, mae gan y data dienw ardal o dan gromlin ROC o .6. Mae hyn yn golygu ein bod yn colli llawer o wybodaeth gyda'r model dienw felly byddwch yn colli llawer o bŵer rhagfynegi.
Ond felly, y cwestiwn yw beth am ddata synthetig? Yma, gwnaethom yn union yr un peth ond yn lle gwneud y data'n ddienw, fe wnaeth Syntho syntheseiddio'r data. Nawr, gwelwn fod gan y data gwreiddiol a'r data synthetig ardal o dan gromlin ROC o .8, sy'n debyg iawn. Ddim yn union yr un fath oherwydd amrywioldeb, ond yn debyg iawn. Mae hyn yn golygu bod potensial data synthetig yn addawol iawn – mae Edwin yn hapus iawn am hyn.
Cysylltwch â Syntho a bydd un o'n harbenigwyr yn cysylltu â chi ar gyflymder y golau i archwilio gwerth data synthetig!