Beth yw data synthetig?

Cwrs damwain data synthetig

 

 

Cyflwyniad

Beth yw data synthetig?

Mae'r ateb yn gymharol syml. Tra bod data gwreiddiol yn cael ei gasglu yn eich holl ryngweithio â phobl go iawn (ee cleientiaid, cleifion, gweithwyr ac ati) a thrwy eich holl brosesau mewnol, mae data synthetig yn cael ei gynhyrchu gan algorithm cyfrifiadurol. Mae'r algorithm cyfrifiadurol hwn yn cynhyrchu pwyntiau data cwbl newydd ac artiffisial.

Datrys heriau preifatrwydd data

Mae data a gynhyrchir yn synthetig yn cynnwys pwyntiau data cwbl newydd ac artiffisial heb unrhyw gysylltiadau un-i-un â'r data gwreiddiol. Felly, ni ellir olrhain unrhyw un o'r pwyntiau data synthetig yn ôl na'u peiriannu i'r data gwreiddiol. O ganlyniad, mae data synthetig wedi'i eithrio rhag rheoliadau preifatrwydd, fel y GDPR ac mae'n ateb i ddatrys a goresgyn heriau preifatrwydd data.

Cynyddwch ac efelychu

Mae agwedd gynhyrchiol cynhyrchu data synthetig yn caniatáu i ychwanegu at ac efelychu data cwbl newydd. Mae hyn yn gweithredu fel datrysiad pan nad oes gennych ddigon o ddata (prinder data), os hoffech chi uwchsamplu achosion ymyl neu pan nad oes gennych ddata eto.

Yma, ffocws Syntho yw data strwythuredig (data wedi'i fformatio mewn tablau sy'n cynnwys rhesi a cholofnau, fel y gwelwch mewn taflenni Excel), ond rydym bob amser yn hoffi darlunio cysyniad data synthetig trwy ddelweddau, oherwydd ei fod yn fwy deniadol.

Mathau o ddata synthetig

Mae tri math o ddata synthetig yn bodoli o fewn yr ambarél data synthetig. Y 3 math hynny o ddata synthetig yw: data ffug, data synthetig a gynhyrchir yn seiliedig ar reolau a data synthetig a gynhyrchir gan ddeallusrwydd artiffisial (AI). Byddwn yn esbonio'n fuan beth yw'r 3 math gwahanol o ddata synthetig.

Data ffug / data ffug

Data ffug yw data a gynhyrchir ar hap (ee gan gynhyrchydd data ffug).

O ganlyniad, nid yw nodweddion, perthnasoedd a phatrymau ystadegol sydd yn y data gwreiddiol yn cael eu cadw, eu dal na’u hatgynhyrchu yn y data ffug a gynhyrchir. Felly, mae cynrychioldeb data ffug / data ffug yn fach iawn o gymharu â'r data gwreiddiol.

  • Pryd i'w ddefnyddio: i ddisodli dynodwyr uniongyrchol (PII) neu pan nad oes gennych ddata (eto) ac nad ydych am dreulio amser ac egni ar ddiffinio rheolau.

Data synthetig a gynhyrchir ar sail rheolau

Mae data synthetig a gynhyrchir yn seiliedig ar reolau yn ddata synthetig a gynhyrchir gan set o reolau a ddiffiniwyd ymlaen llaw. Enghreifftiau posibl o'r rheolau a ddiffiniwyd ymlaen llaw yw yr hoffech gael data synthetig gydag isafswm gwerth penodol, uchafswm gwerth neu werth cyfartalog. Mae angen i unrhyw un o'r nodweddion, perthnasoedd a phatrymau ystadegol yr hoffech chi fod wedi'u hatgynhyrchu yn y data synthetig a gynhyrchir yn seiliedig ar reolau gael eu rhagddiffinio.

O ganlyniad, bydd ansawdd y data cystal â'r set o reolau a ddiffiniwyd ymlaen llaw. Mae hyn yn arwain at heriau pan fo ansawdd data uchel yn hanfodol. Yn gyntaf, dim ond set gyfyngedig o reolau y gellir eu diffinio i'w dal yn y data synthetig. Yn ogystal, bydd sefydlu rheolau lluosog fel arfer yn arwain at reolau sy'n gorgyffwrdd ac yn gwrthdaro. Ar ben hynny, ni fyddwch byth yn ymdrin yn llawn â'r holl reolau perthnasol. Ar ben hynny, efallai bod rheolau perthnasol nad ydych chi hyd yn oed yn ymwybodol ohonynt. Ac yn olaf (a pheidio ag anghofio), bydd hyn yn cymryd llawer o amser ac egni i chi gan arwain at ateb aneffeithlon.

  • Pryd i'w ddefnyddio: pan nad oes gennych ddata (eto)

Data synthetig a gynhyrchir gan ddeallusrwydd artiffisial (AI)

Fel y disgwyliwch o'r enw, mae data synthetig a gynhyrchir gan ddeallusrwydd artiffisial (AI) yn ddata synthetig a gynhyrchir gan algorithm deallusrwydd artiffisial (AI). Mae'r model AI wedi'i hyfforddi ar y data gwreiddiol i ddysgu'r holl nodweddion, perthnasoedd a phatrymau ystadegol. Wedi hynny, mae'r algorithm AI hwn yn gallu cynhyrchu pwyntiau data cwbl newydd a modelu'r pwyntiau data newydd hynny yn y fath fodd fel ei fod yn atgynhyrchu nodweddion, perthnasoedd a phatrymau ystadegol o'r set ddata wreiddiol. Dyma beth rydyn ni'n ei alw'n gefell data synthetig.

Mae'r model AI yn dynwared data gwreiddiol i gynhyrchu gefeilliaid data synthetig y gellir eu defnyddio fel data gwreiddiol. Mae hyn yn datgloi achosion defnydd amrywiol lle gellir defnyddio'r data synthetig a gynhyrchir gan AI fel dewis arall ar gyfer defnyddio data gwreiddiol (sensitif), megis defnyddio data synthetig a gynhyrchir gan AI fel data prawf, data demo neu ar gyfer dadansoddeg.

Delweddu sut mae data synthetig yn cael ei greu

O'i gymharu â data synthetig a gynhyrchir yn seiliedig ar reolau: yn lle astudio a diffinio rheolau perthnasol, mae'r algorithm AI yn gwneud hyn yn awtomatig i chi. Yma, bydd nid yn unig nodweddion, perthnasoedd a phatrymau ystadegol yr ydych yn ymwybodol ohonynt yn cael eu cynnwys, hefyd nodweddion, perthnasoedd a phatrymau ystadegol nad ydych hyd yn oed yn ymwybodol ohonynt yn cael eu cynnwys.

  • Pryd i'w ddefnyddio: pan fydd gennych (peth) o ddata fel mewnbwn i'w ddynwared neu i'w ddefnyddio fel man cychwyn ar gyfer cynhyrchu data clyfar a nodweddion ychwanegu

Pa fath o ddata synthetig i'w ddefnyddio?

Yn dibynnu ar eich achos defnydd, cynghorir cyfuniad o ddata ffug / data ffug, data synthetig a gynhyrchir yn seiliedig ar reolau neu ddata synthetig a gynhyrchir gan ddeallusrwydd artiffisial (AI). Mae'r trosolwg hwn yn rhoi syniad cyntaf i chi o ba fath o ddata synthetig i'w ddefnyddio. Gan fod Syntho yn cefnogi pob un ohonynt, mae croeso i chi gysylltu â'n harbenigwyr i blymio'ch achos defnydd yn ddwfn gyda ni.

Mae'r siart hwn yn cyflwyno gwahanol fathau o ddata synthetig

clawr canllaw syntho

Arbedwch eich canllaw data synthetig nawr!