Nafnlaus gögn vs tilbúin gögn

Ef þú gerir gögnin þín nafnlaus áður en þú framkvæmir gagnaprófun á gagnagreiningum, þá eru nokkrir þættir að spila:

  1. Í næstum öllum tilvikum er samt hægt að rekja nafnlaus gögn til einstaklinga vegna sérstakra og einstakra raða (td sjúkraskrár)
  2. Því meira sem þú nafngreinir eða alhæfir, því meiri gögn eyðir þú. Þetta dregur úr gæðum gagna þinna og þar með innsýn þinni
  3. Nafnleynd virkar öðruvísi fyrir mismunandi gagnasnið. Þetta þýðir að það er ekki skalanlegt og getur verið mjög tímafrekt

Tilbúin gögn leysa alla þessa galla og fleira. Horfðu á myndbandið hér að neðan til að sjá greiningarsérfræðing frá SAS (global market leader in greiningar) útskýra mat sitt á gæðamun á upprunalegum gögnum, nafnlausum gögnum og Syntho framleiddum tilbúnum gögnum.

Þetta myndband er tekið af Syntho x SAS D[N]A kaffihúsinu um gervigreind framleidd tilbúin gögn. Finndu myndbandið í heild sinni hér.

Edwin van Unen sendi frumlegt gagnasafn til Syntho og við sömdum saman gagnasafnið. En spurningin var líka: „Hvað mun gerast ef við berum saman tilbúin gögn við nafnlaus gögn? Vegna þess að þú tapar miklum upplýsingum í nafnlausum gögnum, mun þetta líka gerast þegar gagnasett er búið til? Við byrjuðum á gagnasafni frá fjarskiptaiðnaðinum með 56.000 línum og 128 dálkum af upplýsingum um flutning fyrirtækja. Þetta gagnapakka var bæði samið og nafnlaust svo Edwin gæti borið saman nýmyndun og nafnleynd. Síðan byrjaði Edwin að smíða fyrirsætu með því að nota SAS Viya. Hann smíðaði nokkur churn líkön á upprunalega gagnasafninu, með því að nota klassíska aðhvarfstækni og ákvarðanatré, en einnig flóknari tækni eins og tauganet, hallauppörvun, tilviljunarkenndan skóg - þessar tegundir af aðferðum. Notaðu staðlaða SAS Viya valkostina við smíði módelanna.

Þá var kominn tími til að skoða niðurstöðurnar. Niðurstöðurnar lofuðu mjög góðu fyrir tilbúin gögn en ekki fyrir nafnleynd. Fyrir þá sem eru ekki í vélanámi áhorfenda, skoðum við svæðið undir ROC-ferilnum sem segir eitthvað um nákvæmni líkansins. Þegar upprunalegu gögnin eru borin saman við nafnlausu gögnin sjáum við að upprunalega gagnalíkanið hefur svæði undir ROC-ferilnum .8, sem er nokkuð gott, Hins vegar eru nafnlausu gögnin með svæði undir ROC-ferilnum .6. Þetta þýðir að við töpum miklum upplýsingum með nafnlausa líkaninu svo þú missir mikið af forspárkrafti.

En þá er spurningin hvað með gervigögn? Hér gerðum við nákvæmlega það sama en í stað þess að gera gögnin nafnlaus, samdi Syntho gögnin. Nú sjáum við bæði upprunalegu gögnin og tilbúnu gögnin hafa svæði undir ROC-ferilnum .8, sem er mjög svipað. Ekki alveg eins vegna breytileika, en mjög svipað. Þetta þýðir að möguleikar gervigagna eru mjög efnilegir - Edwin er mjög ánægður með þetta.

hópur fólks brosandi

Gögn eru tilbúin, en liðið okkar er raunverulegt!

Hafðu samband við Syntho og einn af sérfræðingum okkar mun hafa samband við þig á ljóshraða til að kanna gildi gervigagna!