Anonymisoitu data vs. synteettinen data

Jos anonymisoit tietosi ennen data-analytiikan datatestausta, asiaan vaikuttaa useita tekijöitä:

  1. Melkein kaikissa tapauksissa anonymisoidut tiedot voidaan silti jäljittää henkilöihin tiettyjen ja ainutlaatuisten rivien (esim. potilastiedot) vuoksi.
  2. Mitä enemmän anonymisoi tai yleistät, sitä enemmän tietoja tuhoat. Tämä heikentää tietojesi laatua ja siten oivalluksiasi
  3. Anonymisointi toimii eri tavalla eri tietomuodoissa. Tämä tarkoittaa, että se ei ole skaalautuva ja voi olla hyvin aikaa vievä

Synteettinen data ratkaisee kaikki nämä puutteet ja paljon muuta. Katso alla oleva video nähdäksesi, kuinka SAS:n (maailmanlaajuinen analytiikan markkinajohtaja) analytiikkaasiantuntija selittää arvionsa alkuperäisen datan, anonymisoidun datan ja Synthon luoman synteettisen datan välisestä laatuerosta.

Tämä video on kaapattu Syntho x SAS D[N]A Cafésta tekoälyn luomasta synteettisestä datasta. Löydä koko video täältä.

Edwin van Unen lähetti alkuperäisen tietojoukon Syntholle ja me syntetisoimme aineiston. Mutta kysymys oli myös: "Mitä tapahtuu, jos vertaamme synteettistä dataa anonymisoituun dataan?" Koska menetät paljon tietoa anonymisoidusta tiedosta, tapahtuuko näin myös tietojoukkoa syntetisoitaessa? Aloitimme televiestintäalan tietojoukolla, jossa oli 56.000 128 riviä ja XNUMX saraketta yrityksen vaihtuvuustietoja. Tämä tietojoukko syntetisoitiin ja anonymisoitiin, jotta Edwin pystyi vertaamaan syntetisointia anonymisointiin. Sitten Edwin aloitti mallintamisen SAS Viyalla. Hän rakensi alkuperäiselle tietojoukolle pari vaihtuvuusmallia käyttäen klassisia regressiotekniikoita ja päätöspuita, mutta myös kehittyneempiä tekniikoita, kuten hermoverkkoja, gradienttitehostusta, satunnaista metsää – tällaisia ​​tekniikoita. SAS Viya -standardien käyttö mallien rakentamisessa.

Sitten oli aika katsoa tuloksia. Tulokset olivat erittäin lupaavia synteettisten tietojen eikä anonymisoinnin osalta. Yleisössä oleville ei-koneoppiville asiantuntijoille katsomme ROC-käyrän alla olevaa aluetta, joka kertoo jotain mallin tarkkuudesta. Vertaamalla alkuperäisiä tietoja anonymisoituihin tietoihin, näemme, että alkuperäisen tietomallin ROC-käyrän alapuolella on 8, mikä on melko hyvä, mutta anonymisoidun datan ROC-käyrän alapuolella on 6. Tämä tarkoittaa, että menetämme paljon tietoa anonymisoidulla mallilla, joten menetät paljon ennustusvoimaa.

Mutta sitten kysymys kuuluu, entä synteettiset tiedot? Täällä teimme täsmälleen samoin, mutta sen sijaan, että olisimme anonymisoineet tiedot, Syntho syntetisoi tiedot. Nyt näemme sekä alkuperäisen datan että synteettisen datan ROC-käyrän alapuolella olevan alueen 8, joka on hyvin samanlainen. Ei täsmälleen sama vaihtelun vuoksi, mutta hyvin samankaltainen. Tämä tarkoittaa, että synteettisen datan potentiaali on erittäin lupaava – Edwin on tästä erittäin iloinen.

ryhmä hymyileviä ihmisiä

Data on synteettistä, mutta tiimimme on todellinen!

Ota yhteyttä Synthoon ja yksi asiantuntijoistamme ottaa sinuun yhteyttä valon nopeudella selvittääkseen synteettisen datan arvon!