Daneyên anonîm li hember daneyên sentetîk

Ger hûn berî ceribandina daneya analîtîka daneyê daneyên xwe anonîm bikin, çend faktor hene:

  1. Hema hema di hemî rewşan de, daneyên nenaskirî hîn jî dikarin ji ber rêzên taybetî û bêhempa li kesan werin şopandin (mînak tomarên bijîjkî)
  2. Her ku hûn bêtir anonîm bikin an gelemperî bikin, hûn bêtir daneyan hilweşînin. Ev qalîteya daneyên we û bi vî rengî têgihîştina we kêm dike
  3. Anonîmîzasyon ji bo formatên daneyên cihêreng cûda dixebite. Ev tê vê wateyê ku ew ne pîvanbar e û dikare pir dem-dixwez be

Daneyên sentetîk van kêmasiyan û hêj bêtir çareser dike. Vîdyoya jêrîn temaşe bikin ku hûn pisporek analîtîkê ji SAS (serokê analîtîkê yê bazara gerdûnî) li ser nirxandina xwe ya li ser cûdahiya kalîteyê di navbera daneyên orîjînal, daneyên anonîmkirî û ji hêla Syntho ve daneyên sentetîk ên çêkirî de şîrove bike.

Ev vîdyoyê ji Syntho x SAS D[N]A Café ya di derbarê Daneyên Sentetîk ên Çêkirî yên AI-ê de hatî girtin. Vîdyoya tevahî li vir bibînin.

Edwin van Unen danehevek orîjînal ji Syntho re şand û me databasê sentez kir. Lê pirs jî ev bû: "Ger em daneyên sentetîk bi daneyên anonîm re bidin ber hev dê çi bibe?" Ji ber ku hûn di daneyek anonîmkirî de gelek agahdarî winda dikin, gelo dê ev yek jî biqewime dema ku danehevek hevrêz bikin? Me bi danehevek ji pîşesaziya têlefonê bi 56.000 rêz û 128 stûnên agahdariya pargîdanî ya pargîdaniyê dest pê kir. Ev danehev hem hate sentezkirin û hem jî anonîm bû ji ber vê yekê Edwin dikaribû sentetîzasyonê bi anonîmkirinê re bide ber hev. Dûv re, Edwin dest bi modela karanîna SAS Viya kir. Wî li ser databasa orîjînal çend modelên guheztinê ava kir, bi karanîna teknîkên regresyonê yên klasîk û darên biryarê, lê di heman demê de teknîkên sofîstîketir ên mîna torên neuralî, zêdekirina gradient, daristana rasthatî - ev celeb teknîk. Dema çêkirina modelan vebijarkên standard SAS Viya bikar bînin.

Dûv re, ew dem bû ku li encaman binêre. Encam ji bo daneyên sentetîk û ne ji bo nenaskirinê pir sozdar bûn. Ji bo pisporên fêrbûna ne-makîneyê yên di temaşevanan de, em li devera li binê kavila ROC-ê ku tiştek di derbarê rastbûna modelê de vedibêje dinêrin. Daneyên orîjînal bi daneya nenaskirî re bidin ber hev, em dibînin ku modela daneya orîjînal di binê kurba ROC-ê ya .8 de deverek heye, ku pir baş e, Lêbelê, daneya nenaskirî deverek di binê kurba ROC-ê ya .6 de heye. Ev tê vê wateyê ku em bi modela nenaskirî re gelek agahdarî winda dikin ji ber vê yekê hûn gelek hêza pêşbîniyê winda dikin.

Lê paşê, pirs ev e ku li ser daneyên sentetîk çi ye? Li vir, me tam heman tişt kir, lê li şûna ku daneyan anonîm bikin, Syntho daneyan sentez kir. Naha, em dibînin ku hem daneya orîjînal û hem jî daneyên sentetîk xwedan herêmek di bin kavila ROC ya .8 de ye, ku pir dişibihe. Ji ber cûrbecûrbûnê ne tam heman, lê pir dişibin hev. Ev tê vê wateyê, potansiyela daneyên sentetîk pir hêvîdar e - Edwin ji vê yekê pir kêfxweş e.

koma mirovan dikenin

Daneyên sentetîk e, lê tîmê me rast e!

Bi Syntho re têkilî daynin û yek ji pisporên me dê bi leza tîrêjê bi we re têkeve têkiliyê da ku nirxa daneyên sentetîkî bikole!