Synteettisten tietojemme ulkopuolinen arviointi SAS:n data-asiantuntijoiden toimesta

Synteettiset tietomme ovat arvioitu ja hyväksytty tietoasiantuntijoiden toimesta SAS

Johdatus synteettisten tietojemme ulkoiseen arviointiin SAS:n data-asiantuntijoiden toimesta

Mitä teimme?

Synthon tuottamaa synteettistä dataa arvioivat, validoivat ja hyväksyvät ulkopuolisesta ja objektiivisesta näkökulmasta SAS:n dataasiantuntijat.

Miksi SAS:n tietoasiantuntijat arvioivat synteettisiä tietojamme ulkoisesti?

Vaikka Syntho on ylpeä voidessaan tarjota käyttäjilleen edistyneen laadunvarmistusraportin, ymmärrämme myös, kuinka tärkeää on saada ulkopuolinen ja objektiivinen arvio synteettisistä tiedoistamme alan johtajilta. Siksi teemme yhteistyötä analytiikan johtavan SAS:n kanssa arvioidaksemme synteettisiä tietojamme.

SAS tekee erilaisia ​​perusteellisia arviointeja Synthon tekoälyn luoman synteettisen datan tietojen tarkkuudesta, yksityisyyden suojasta ja käytettävyydestä verrattuna alkuperäiseen tietoon. Johtopäätöksenä SAS arvioi ja hyväksyi Synthon synteettiset tiedot tarkiksi, turvallisiksi ja käyttökelpoisiksi verrattuna alkuperäisiin tietoihin.

Mitä SAS teki arvioinnin aikana?

Käytimme kohdetietona tietoliikennedataa, jota käytetään "vaihtuvuuden" ennustamiseen. Arvioinnin tavoitteena oli synteettisen datan avulla kouluttaa erilaisia ​​vaihtuvuusennustemalleja ja arvioida kunkin mallin suorituskykyä. Koska vaihtuvuusennuste on luokitustehtävä, SAS valitsi suosittuja luokitusmalleja ennusteiden tekemiseen, mukaan lukien:

  1. Satunnainen metsä
  2. Gradientin tehostaminen
  3. Logistinen regressio
  4. Neuraaliverkko

Ennen synteettisen datan luomista SAS jakoi televiestintätietojoukon satunnaisesti junasarjaksi (mallien kouluttamista varten) ja pitojoukoksi (mallien pisteytystä varten). Erillinen pidätysjoukko pisteytystä varten mahdollistaa puolueettoman arvion siitä, kuinka hyvin luokitusmalli voisi toimia, kun sitä sovelletaan uusiin tietoihin.

Käyttämällä junajoukkoa syötteenä Syntho käytti Syntho Engineään synteettisen tietojoukon luomiseen. Vertailuanalyysiä varten SAS loi myös anonymisoidun version junasarjasta soveltamalla erilaisia ​​anonymisointitekniikoita tietyn kynnyksen (k-anonymiteetin) saavuttamiseksi. Edelliset vaiheet johtivat neljään tietojoukkoon:

  1. Junatietojoukko (eli alkuperäinen tietojoukko miinus holdout-tietojoukko)
  2. Holdout-tietojoukko (eli alkuperäisen tietojoukon osajoukko)
  3. Anonymisoitu tietojoukko (junatietojoukon anonymisoidut tiedot, alkuperäinen tietojoukko miinus holdout-tietojoukko)
  4. Synteettinen tietojoukko (junatietojoukon syntetisoidut tiedot, alkuperäinen tietojoukko miinus pidätystietojoukko)

Tietojoukkoja 1, 3 ja 4 käytettiin kunkin luokitusmallin kouluttamiseen, jolloin saatiin 12 (3 x 4) koulutettua mallia. SAS käytti myöhemmin holdout-tietojoukkoa mitatakseen kunkin mallin tarkkuutta asiakkaiden vaihtuvuuden ennustamisessa.

SAS tekee erilaisia ​​perusteellisia arviointeja Synthon tekoälyn luoman synteettisen datan tietojen tarkkuudesta, yksityisyyden suojasta ja käytettävyydestä verrattuna alkuperäiseen tietoon. Johtopäätöksenä SAS arvioi ja hyväksyi Synthon synteettiset tiedot tarkiksi, turvallisiksi ja käyttökelpoisiksi verrattuna alkuperäisiin tietoihin.

Onko sinulla kysymyksiä?

Keskustele jonkun asiantuntijamme kanssa

SAS:n suorittaman tietojen arvioinnin alustavat tulokset

Synteettisillä tiedoilla opetetut mallit pisteytyvät hyvin samankaltaisesti kuin alkuperäisillä tiedoilla koulutetut mallit

Synthon synteettiset tiedot eivät sisällä vain peruskuvioita, vaan se tallentaa myös syviä "piilotettuja" tilastollisia kuvioita, joita tarvitaan edistyneisiin analytiikkatehtäviin. Jälkimmäinen on esitetty pylväskaaviossa, mikä osoittaa, että synteettiselle datalle opetettujen mallien tarkkuus verrattuna alkuperäisiin tietoihin on samanlainen. Näin ollen synteettistä dataa voidaan käyttää mallien varsinaiseen harjoitteluun. Algoritmien valitsemat syötteet ja muuttuva tärkeys synteettiselle datalle verrattuna alkuperäiseen dataan olivat hyvin samanlaisia. Tästä syystä päätellään, että mallinnusprosessi voidaan tehdä synteettiselle datalle vaihtoehtona todellisen arkaluonteisen tiedon käyttämiselle.

Miksi anonymisoituihin tietoihin koulutetut mallit saavat huonompia tuloksia?

Klassisille anonymisointitekniikoille on yhteistä, että ne käsittelevät alkuperäisiä tietoja henkilöiden jäljittämisen estämiseksi. He manipuloivat tietoja ja tuhoavat tietoja prosessin aikana. Mitä enemmän anonymisoi, sitä paremmin tietosi on suojattu, mutta myös sitä enemmän tietojasi tuhotaan. Tämä on erityisen tuhoisaa tekoäly- ja mallintamistehtävissä, joissa "ennustevoima" on välttämätöntä, koska huonolaatuiset tiedot johtavat huonoihin oivalluksiin tekoälymallista. SAS osoitti tämän käyrän alla olevalla pinta-alalla (AUC*) lähellä 0.5:tä, mikä osoittaa, että anonymisoidulle datalle opetetut mallit toimivat ylivoimaisesti huonoimmin.

SAS:n synteettisten tietojen arvioinnin lisätuloksia

SAS:n synteettisten tietojen arvioinnin lisätuloksia

Muuttujien väliset korrelaatiot ja suhteet säilyivät tarkasti synteettisessä datassa.

Käyrän alla oleva pinta-ala (AUC), mallin suorituskykyä mittaava mittari, pysyi yhtenäisenä.

Lisäksi muuttujan tärkeys, joka osoitti muuttujien ennustusvoimaa mallissa, säilyi ennallaan verrattaessa synteettistä dataa alkuperäiseen tietojoukkoon.

Näiden SAS:n havaintojen ja SAS Viyaa käyttämällä voimme luottavaisesti päätellä, että Syntho Enginen tuottama synteettinen data on todellakin laadultaan todellista dataa vastaava. Tämä validoi synteettisen tiedon käytön mallien kehittämisessä, mikä tasoittaa tietä kehittyneelle analytiikan synteettiselle datalle.

SAS:n data-asiantuntijoiden päätelmät

Sas logo

Synteettiset tietomme ovat hyväksytty SAS:n dataasiantuntijat

Viiteartikkelit

syntho-ohjaimen kansi

Tallenna synteettisten tietojen opas nyt!