Anonüümsed andmed vs sünteetilised andmed

Kui muudate oma andmed enne andmeanalüütika andmetestimist anonüümseks, on sellel mitu tegurit.

  1. Peaaegu kõikidel juhtudel saab anonüümseks muudetud andmeid konkreetsete ja kordumatute ridade (nt haiguslood) tõttu siiski üksikisikuteni jälgida.
  2. Mida rohkem anonüümseks muudate või üldistate, seda rohkem andmeid hävitate. See halvendab teie andmete kvaliteeti ja seega ka teie teadmisi
  3. Anonüümseks muutmine toimib erinevate andmevormingute puhul erinevalt. See tähendab, et see ei ole skaleeritav ja võib olla väga aeganõudev

Sünteetilised andmed lahendavad kõik need puudused ja palju muud. Vaadake allolevat videot, et näha, kuidas SAS-i (ülemaailmne analüütika turuliider) analüütikaekspert selgitab oma hinnangut algandmete, anonüümsete andmete ja Syntho loodud sünteetiliste andmete kvaliteedierinevuse kohta.

See video on jäädvustatud Syntho x SAS D[N]A kohvikust tehisintellektiga loodud sünteetiliste andmete kohta. Täieliku video leiate siit.

Edwin van Unen saatis Synthole originaalandmestiku ja me sünteesisime andmekogumi. Kuid küsimus oli ka: "Mis juhtub, kui võrdleme sünteetilisi andmeid anonüümsete andmetega?" Kuna te kaotate anonüümsetes andmetes palju teavet, kas see juhtub ka andmekogumi sünteesimisel? Alustasime telekommunikatsioonitööstuse andmestikuga, mis sisaldas 56.000 128 rida ja XNUMX veergu ettevõtte müügiteabe kohta. See andmestik sünteesiti ja muudeti anonüümseks, et Edwin saaks võrrelda sünteesimist anonüümseks muutmisega. Seejärel hakkas Edwin SAS Viya abil modelleerima. Ta ehitas algsele andmekogumile paar churn-mudelit, kasutades klassikalisi regressioonitehnikaid ja otsustuspuid, aga ka keerukamaid tehnikaid, nagu närvivõrgud, gradiendi võimendamine, juhuslik mets – sellised tehnikad. SAS Viya standardsete valikute kasutamine mudelite ehitamisel.

Siis oli aeg vaadata tulemusi. Tulemused olid väga paljutõotavad sünteetiliste andmete ja mitte anonüümseks muutmise jaoks. Masinõppeta asjatundjate jaoks vaatame ROC-kõvera all olevat ala, mis ütleb midagi mudeli täpsuse kohta. Võrreldes algandmeid anonüümsete andmetega, näeme, et algse andmemudeli ROC-kõvera alune pindala on 8, mis on päris hea, kuid anonüümsetel andmetel on ROC-kõvera alune pindala 6. See tähendab, et me kaotame anonüümseks muudetud mudeliga palju teavet, nii et kaotate palju ennustamisvõimet.

Kuid küsimus on selles, kuidas on lood sünteetika andmetega? Siin tegime täpselt sama, kuid andmete anonüümseks muutmise asemel sünteesis Syntho andmed. Nüüd näeme, et nii algandmetel kui ka sünteetilistel andmetel on ROC-kõvera alune pindala 8, mis on väga sarnane. Mitte päris sama varieeruvuse tõttu, aga väga sarnane. See tähendab, et sünteetiliste andmete potentsiaal on väga paljulubav – Edwin on selle üle väga õnnelik.

naeratavate inimeste rühm

Andmed on sünteetilised, kuid meie meeskond on tõeline!

Võtke ühendust Synthoga ja üks meie ekspertidest võtab teiega valguse kiirusel ühendust, et uurida sünteetiliste andmete väärtust!