Data dienw yn erbyn data synthetig

Os ydych chi'n anhysbysu'ch data cyn perfformio profion data ar ddadansoddeg data, mae yna sawl ffactor ar waith:

  1. Ym mron pob achos, gellir olrhain data dienw yn ôl i unigolion o hyd oherwydd rhesi penodol ac unigryw (ee cofnodion meddygol)
  2. Po fwyaf y byddwch chi'n ei enwi neu'n ei gyffredinoli, y mwyaf o ddata rydych chi'n ei ddinistrio. Mae hyn yn gostwng ansawdd eich data ac felly'ch mewnwelediadau
  3. Mae anhysbysiad yn gweithio'n wahanol ar gyfer gwahanol fformatau data. Mae hyn yn golygu nad yw'n raddadwy a gall gymryd llawer o amser

Mae data synthetig yn datrys yr holl ddiffygion hyn a mwy. Gwyliwch y fideo isod i weld arbenigwr dadansoddeg o SAS (arweinydd marchnad fyd-eang mewn dadansoddeg) yn egluro am ei asesiad ar y gwahaniaeth mewn ansawdd rhwng data gwreiddiol, data anhysbys a chan ddata synthetig a gynhyrchwyd gan Syntho.

Mae'r fideo hon wedi'i chipio o'r Syntho x SAS D [N] Caffi am Ddata Synthetig a Gynhyrchir gan AI. Dewch o hyd i'r fideo llawn yma.

Anfonodd Edwin van Unen set ddata wreiddiol i Syntho a gwnaethom syntheseiddio'r set ddata. Ond y cwestiwn hefyd oedd: “Beth fydd yn digwydd os byddwn yn cymharu data synthetig â data dienw?” Oherwydd eich bod yn colli llawer o wybodaeth mewn data dienw, a fydd hyn hefyd yn digwydd wrth syntheseiddio set ddata? Dechreuon ni gyda set ddata o'r diwydiant telathrebu gyda 56.000 o resi a 128 o golofnau o wybodaeth am gorddi cwmnïau. Cafodd y set ddata hon ei syntheseiddio a'i gwneud yn ddienw fel y gallai Edwin gymharu syntheteiddio ag anhysbysiad. Yna, dechreuodd Edwin fodelu gan ddefnyddio SAS Viya. Adeiladodd ychydig o fodelau corddi ar y set ddata wreiddiol, gan ddefnyddio technegau atchweliad clasurol a choed penderfynu, ond hefyd technegau mwy soffistigedig fel rhwydweithiau niwral, hybu graddiant, coedwig ar hap - y mathau hyn o dechnegau. Defnyddio'r opsiynau SAS Viya safonol wrth adeiladu'r modelau.

Yna, daeth yn amser edrych ar y canlyniadau. Roedd y canlyniadau'n addawol iawn ar gyfer data synthetig ac nid ar gyfer anhysbysu. Ar gyfer yr arbenigwyr dim-peiriant-ddysgu yn y gynulleidfa, rydym yn edrych ar yr ardal o dan y gromlin ROC sy'n dweud rhywbeth am gywirdeb y model. Wrth gymharu'r data gwreiddiol â'r data dienw, gwelwn fod gan y model data gwreiddiol ardal o dan gromlin ROC o .8, sy'n eithaf da, Fodd bynnag, mae gan y data dienw ardal o dan gromlin ROC o .6. Mae hyn yn golygu ein bod yn colli llawer o wybodaeth gyda'r model dienw felly byddwch yn colli llawer o bŵer rhagfynegi.

Ond felly, y cwestiwn yw beth am ddata synthetig? Yma, gwnaethom yn union yr un peth ond yn lle gwneud y data'n ddienw, fe wnaeth Syntho syntheseiddio'r data. Nawr, gwelwn fod gan y data gwreiddiol a'r data synthetig ardal o dan gromlin ROC o .8, sy'n debyg iawn. Ddim yn union yr un fath oherwydd amrywioldeb, ond yn debyg iawn. Mae hyn yn golygu bod potensial data synthetig yn addawol iawn – mae Edwin yn hapus iawn am hyn.

grŵp o bobl yn gwenu

Mae data yn synthetig, ond mae ein tîm yn go iawn!

Cysylltwch â Syntho a bydd un o'n harbenigwyr yn cysylltu â chi ar gyflymder y golau i archwilio gwerth data synthetig!