Anonymisoitu data vs. synteettinen data

Jos anonymisoit tietosi ennen data-analytiikan datatestausta, asiaan vaikuttaa useita tekijöitä:

Melkein kaikissa tapauksissa anonymisoidut tiedot voidaan silti jäljittää henkilöihin tiettyjen ja ainutlaatuisten rivien (esim. potilastiedot) vuoksi.
Mitä enemmän anonymisoi tai yleistät, sitä enemmän tietoja tuhoat. Tämä heikentää tietojesi laatua ja siten oivalluksiasi
Anonymisointi toimii eri tavalla eri tietomuodoissa. Tämä tarkoittaa, että se ei ole skaalautuva ja voi olla hyvin aikaa vievä

Synteettinen data ratkaisee kaikki nämä puutteet ja paljon muuta. Katso alla oleva video nähdäksesi, kuinka SAS:n (maailmanlaajuinen analytiikan markkinajohtaja) analytiikkaasiantuntija selittää arvionsa alkuperäisen datan, anonymisoidun datan ja Synthon luoman synteettisen datan välisestä laatuerosta.

Tämä video on kaapattu Syntho x SAS D[N]A Cafésta tekoälyn luomasta synteettisestä datasta. Löydä koko video täältä.

Edwin van Unen lähetti alkuperäisen tietojoukon Syntholle ja me syntetisoimme aineiston. Mutta kysymys oli myös: "Mitä tapahtuu, jos vertaamme synteettistä dataa anonymisoituun dataan?" Koska menetät paljon tietoa anonymisoidusta tiedosta, tapahtuuko näin myös tietojoukkoa syntetisoitaessa? Aloitimme televiestintäalan tietojoukolla, jossa oli 56.000 128 riviä ja XNUMX saraketta yrityksen vaihtuvuustietoja. Tämä tietojoukko syntetisoitiin ja anonymisoitiin, jotta Edwin pystyi vertaamaan syntetisointia anonymisointiin. Sitten Edwin aloitti mallintamisen SAS Viyalla. Hän rakensi alkuperäiselle tietojoukolle pari vaihtuvuusmallia käyttäen klassisia regressiotekniikoita ja päätöspuita, mutta myös kehittyneempiä tekniikoita, kuten hermoverkkoja, gradienttitehostusta, satunnaista metsää – tällaisia tekniikoita. SAS Viya -standardien käyttö mallien rakentamisessa.

Sitten oli aika katsoa tuloksia. Tulokset olivat erittäin lupaavia synteettisten tietojen eikä anonymisoinnin osalta. Yleisössä oleville ei-koneoppiville asiantuntijoille katsomme ROC-käyrän alla olevaa aluetta, joka kertoo jotain mallin tarkkuudesta. Vertaamalla alkuperäisiä tietoja anonymisoituihin tietoihin, näemme, että alkuperäisen tietomallin ROC-käyrän alapuolella on 8, mikä on melko hyvä, mutta anonymisoidun datan ROC-käyrän alapuolella on 6. Tämä tarkoittaa, että menetämme paljon tietoa anonymisoidulla mallilla, joten menetät paljon ennustusvoimaa.

Mutta sitten kysymys kuuluu, entä synteettiset tiedot? Täällä teimme täsmälleen samoin, mutta sen sijaan, että olisimme anonymisoineet tiedot, Syntho syntetisoi tiedot. Nyt näemme sekä alkuperäisen datan että synteettisen datan ROC-käyrän alapuolella olevan alueen 8, joka on hyvin samanlainen. Ei täsmälleen sama vaihtelun vuoksi, mutta hyvin samankaltainen. Tämä tarkoittaa, että synteettisen datan potentiaali on erittäin lupaava – Edwin on tästä erittäin iloinen.

Data on synteettistä, mutta tiimimme on todellinen!

Ota yhteyttä Synthoon ja yksi asiantuntijoistamme ottaa sinuun yhteyttä valon nopeudella selvittääkseen synteettisen datan arvon!

Mikä on synteettinen data?

Laadunvarmistusraportti

SAS:n ulkoinen arviointi

Aikasarjan synteettinen data

PII-skanneri

Synteettinen Mock Data

Johdonmukainen kartoitus

De-identifiointi ja syntetisointi

Sääntöihin perustuva synteettinen data

Alijoukko

Käyttöönotto ja integrointi

Liittimet

Laajennetut ominaisuudet

Tuetut tiedot

Käyttäjädokumentaatio

Aikataulu esittely

Hinnasto

Synteettiset tiedot testitietoina

Synteettiset tiedot analytiikkaa varten

Synteettinen data tietojen jakamiseen

Synteettiset tiedot tuotedemoille

Terveydenhuolto

Rahoittaa

Julkiset organisaatiot

Käyttäjädokumentaatio

Valkoiset kirjat ja oppaat

Uutiset ja media

Webinaarit

Tapaustutkimuksia

Hinnasto

Yhtiön tiedot

Työpaikat

Anonymisoitu data vs. synteettinen data

Data on synteettistä, mutta tiimimme on todellinen!

Mitä me teemme

Yhtiö

Esittelymateriaalit

Syntho-uutiskirje

Päävalikko