Ef þú gerir gögnin þín nafnlaus áður en þú framkvæmir gagnaprófun á gagnagreiningum, þá eru nokkrir þættir að spila:
Tilbúin gögn leysa alla þessa galla og fleira. Horfðu á myndbandið hér að neðan til að sjá greiningarsérfræðing frá SAS (global market leader in greiningar) útskýra mat sitt á gæðamun á upprunalegum gögnum, nafnlausum gögnum og Syntho framleiddum tilbúnum gögnum.
Þetta myndband er tekið af Syntho x SAS D[N]A kaffihúsinu um gervigreind framleidd tilbúin gögn. Finndu myndbandið í heild sinni hér.
Edwin van Unen sendi frumlegt gagnasafn til Syntho og við sömdum saman gagnasafnið. En spurningin var líka: „Hvað mun gerast ef við berum saman tilbúin gögn við nafnlaus gögn? Vegna þess að þú tapar miklum upplýsingum í nafnlausum gögnum, mun þetta líka gerast þegar gagnasett er búið til? Við byrjuðum á gagnasafni frá fjarskiptaiðnaðinum með 56.000 línum og 128 dálkum af upplýsingum um flutning fyrirtækja. Þetta gagnapakka var bæði samið og nafnlaust svo Edwin gæti borið saman nýmyndun og nafnleynd. Síðan byrjaði Edwin að smíða fyrirsætu með því að nota SAS Viya. Hann smíðaði nokkur churn líkön á upprunalega gagnasafninu, með því að nota klassíska aðhvarfstækni og ákvarðanatré, en einnig flóknari tækni eins og tauganet, hallauppörvun, tilviljunarkenndan skóg - þessar tegundir af aðferðum. Notaðu staðlaða SAS Viya valkostina við smíði módelanna.
Þá var kominn tími til að skoða niðurstöðurnar. Niðurstöðurnar lofuðu mjög góðu fyrir tilbúin gögn en ekki fyrir nafnleynd. Fyrir þá sem eru ekki í vélanámi áhorfenda, skoðum við svæðið undir ROC-ferilnum sem segir eitthvað um nákvæmni líkansins. Þegar upprunalegu gögnin eru borin saman við nafnlausu gögnin sjáum við að upprunalega gagnalíkanið hefur svæði undir ROC-ferilnum .8, sem er nokkuð gott, Hins vegar eru nafnlausu gögnin með svæði undir ROC-ferilnum .6. Þetta þýðir að við töpum miklum upplýsingum með nafnlausa líkaninu svo þú missir mikið af forspárkrafti.
En þá er spurningin hvað með gervigögn? Hér gerðum við nákvæmlega það sama en í stað þess að gera gögnin nafnlaus, samdi Syntho gögnin. Nú sjáum við bæði upprunalegu gögnin og tilbúnu gögnin hafa svæði undir ROC-ferilnum .8, sem er mjög svipað. Ekki alveg eins vegna breytileika, en mjög svipað. Þetta þýðir að möguleikar gervigagna eru mjög efnilegir - Edwin er mjög ánægður með þetta.
Hafðu samband við Syntho og einn af sérfræðingum okkar mun hafa samband við þig á ljóshraða til að kanna gildi gervigagna!