Anonüümsed andmed vs sünteetilised andmed

Kui muudate oma andmed enne andmeanalüütika andmetestimist anonüümseks, on sellel mitu tegurit.

Peaaegu kõikidel juhtudel saab anonüümseks muudetud andmeid konkreetsete ja kordumatute ridade (nt haiguslood) tõttu siiski üksikisikuteni jälgida.
Mida rohkem anonüümseks muudate või üldistate, seda rohkem andmeid hävitate. See halvendab teie andmete kvaliteeti ja seega ka teie teadmisi
Anonüümseks muutmine toimib erinevate andmevormingute puhul erinevalt. See tähendab, et see ei ole skaleeritav ja võib olla väga aeganõudev

Sünteetilised andmed lahendavad kõik need puudused ja palju muud. Vaadake allolevat videot, et näha, kuidas SAS-i (ülemaailmne analüütika turuliider) analüütikaekspert selgitab oma hinnangut algandmete, anonüümsete andmete ja Syntho loodud sünteetiliste andmete kvaliteedierinevuse kohta.

See video on jäädvustatud Syntho x SAS D[N]A kohvikust tehisintellektiga loodud sünteetiliste andmete kohta. Täieliku video leiate siit.

Edwin van Unen saatis Synthole originaalandmestiku ja me sünteesisime andmekogumi. Kuid küsimus oli ka: "Mis juhtub, kui võrdleme sünteetilisi andmeid anonüümsete andmetega?" Kuna te kaotate anonüümsetes andmetes palju teavet, kas see juhtub ka andmekogumi sünteesimisel? Alustasime telekommunikatsioonitööstuse andmestikuga, mis sisaldas 56.000 128 rida ja XNUMX veergu ettevõtte müügiteabe kohta. See andmestik sünteesiti ja muudeti anonüümseks, et Edwin saaks võrrelda sünteesimist anonüümseks muutmisega. Seejärel hakkas Edwin SAS Viya abil modelleerima. Ta ehitas algsele andmekogumile paar churn-mudelit, kasutades klassikalisi regressioonitehnikaid ja otsustuspuid, aga ka keerukamaid tehnikaid, nagu närvivõrgud, gradiendi võimendamine, juhuslik mets – sellised tehnikad. SAS Viya standardsete valikute kasutamine mudelite ehitamisel.

Siis oli aeg vaadata tulemusi. Tulemused olid väga paljutõotavad sünteetiliste andmete ja mitte anonüümseks muutmise jaoks. Masinõppeta asjatundjate jaoks vaatame ROC-kõvera all olevat ala, mis ütleb midagi mudeli täpsuse kohta. Võrreldes algandmeid anonüümsete andmetega, näeme, et algse andmemudeli ROC-kõvera alune pindala on 8, mis on päris hea, kuid anonüümsetel andmetel on ROC-kõvera alune pindala 6. See tähendab, et me kaotame anonüümseks muudetud mudeliga palju teavet, nii et kaotate palju ennustamisvõimet.

Kuid küsimus on selles, kuidas on lood sünteetika andmetega? Siin tegime täpselt sama, kuid andmete anonüümseks muutmise asemel sünteesis Syntho andmed. Nüüd näeme, et nii algandmetel kui ka sünteetilistel andmetel on ROC-kõvera alune pindala 8, mis on väga sarnane. Mitte päris sama varieeruvuse tõttu, aga väga sarnane. See tähendab, et sünteetiliste andmete potentsiaal on väga paljulubav – Edwin on selle üle väga õnnelik.

Andmed on sünteetilised, kuid meie meeskond on tõeline!

Võtke ühendust Synthoga ja üks meie ekspertidest võtab teiega valguse kiirusel ühendust, et uurida sünteetiliste andmete väärtust!

Mis on sünteetilised andmed?

Kvaliteedi tagamise aruanne

SASi välishindamine

Aegridade sünteetilised andmed

PII skanner

Sünteetilised näidisandmed

Järjepidev kaardistamine

Deidentifitseerimine ja sünteesimine

Reeglipõhised sünteetilised andmed

Alamhulk

Kasutuselevõtt ja integreerimine

Pistikud

Laiendatud funktsioonid

Toetatud andmed

Kasutaja dokumentatsioon

Ajakava demo

hinnapoliitika

Sünteetilised andmed katseandmetena

Sünteetilised andmed analüütika jaoks

Sünteetilised andmed andmete jagamiseks

Sünteetilised andmed toote demo jaoks

Tervishoid

Turundus

Avalikud organisatsioonid

Kasutaja dokumentatsioon

Valged raamatud ja juhendid

Blogi

Webinars

Case Studies

hinnapoliitika

Meist

Töö

Anonüümsed andmed vs sünteetilised andmed

Andmed on sünteetilised, kuid meie meeskond on tõeline!

Mida me teeme

Ettevõte

Vahendid

Syntho uudiskiri

Peamenüü