FAQ

Usein kysytyt kysymykset synteettisistä tiedoista

Ymmärrettävää! Onneksi meillä on vastaukset ja olemme valmiita auttamaan. Tarkista usein kysytyt kysymyksemme.

Avaa kysymys alla ja napsauta linkkejä saadaksesi lisätietoja. Onko sinulla monimutkaisempi kysymys, jota ei ole esitetty tässä? Kysy suoraan asiantuntijoiltamme!

Eniten kysytyt kysymykset

Synteettisellä datalla tarkoitetaan dataa, joka on keinotekoisesti tuotettu eikä kerätty todellisista lähteistä. Yleisesti ottaen, vaikka alkuperäisiä tietoja kerätään kaikista vuorovaikutuksistasi ihmisten (asiakkaat, potilaat jne.) kanssa ja kaikkien sisäisten prosessiesi kautta, synteettiset tiedot luodaan tietokonealgoritmin avulla.

Synteettistä dataa voidaan käyttää myös mallien testaamiseen ja arvioimiseen valvotussa ympäristössä tai arkaluonteisten tietojen suojaamiseen luomalla tietoja, jotka ovat samanlaisia ​​kuin todelliset tiedot, mutta jotka eivät sisällä arkaluonteisia tietoja. Synteettistä dataa käytetään usein vaihtoehtona tietosuojalle arkaluontoisille tiedoille, ja sitä voidaan käyttää testitietona, analytiikkaan tai koneoppimisen kouluttamiseen.

Lue lisää

Sen takaaminen, että synteettisellä tiedolla on sama datalaatu kuin alkuperäisellä tiedolla, voi olla haastavaa, ja se riippuu usein tietystä käyttötapauksesta ja synteettisen datan luomiseen käytetyistä menetelmistä. Jotkin synteettisen tiedon generointimenetelmät, kuten generatiiviset mallit, voivat tuottaa dataa, joka on hyvin samanlaista kuin alkuperäinen data. Keskeinen kysymys: miten tämä osoitetaan?

Synteettisten tietojen laatu voidaan varmistaa seuraavilla tavoilla:

  • Tietojen laatumittarit tietojen laaturaporttimme kautta: Yksi tapa varmistaa, että synteettisellä tiedolla on sama tiedon laatu kuin alkuperäisillä tiedoilla, on käyttää tietojen laatumittareita vertaamaan synteettistä dataa alkuperäiseen dataan. Näitä mittareita voidaan käyttää mittaamaan esimerkiksi tietojen samankaltaisuutta, tarkkuutta ja täydellisyyttä. Syntho-ohjelmisto sisälsi tiedonlaaturaportin, jossa oli erilaisia ​​tiedonlaatumittareita.
  • Ulkoinen arviointi: Koska synteettisen datan datan laatu verrattuna alkuperäiseen dataan on avainasemassa, teimme äskettäin arvioinnin SAS:n (analytiikan markkinajohtaja) tietoasiantuntijoiden kanssa osoittaaksemme Synthon synteettisten tietojen laadun todelliseen dataan verrattuna. Edwin van Unen, SAS:n analytiikkaasiantuntija, arvioi Synthon luomia synteettisiä tietojoukkoja erilaisten analytics (AI) -arviointien avulla ja jakoi tulokset. Katso lyhyt yhteenveto videosta täältä.
  • Testaus ja arviointi itse: synteettistä dataa voidaan testata ja arvioida vertaamalla sitä todelliseen dataan tai käyttämällä sitä koneoppimismallien koulutukseen ja vertaamalla niiden suorituskykyä todellisen maailman datan pohjalta opetettuihin malleihin. Mikset testaisi synteettisten tietojen laatua itse? Kysy asiantuntijoiltamme tämän mahdollisuuksista täältä

On tärkeää huomata, että synteettiset tiedot eivät voi koskaan taata olevansa 100-prosenttisesti samanlaisia ​​kuin alkuperäiset tiedot, mutta ne voivat olla tarpeeksi lähellä ollakseen hyödyllisiä tietyssä käyttötapauksessa. Tämä erityinen käyttötapaus voi olla jopa edistynyt analytiikka tai koulutus koneoppimismalleja.

Klassinen "anonymisointi" ei ole aina paras ratkaisu, koska:

  1. Yksityisyyden riski – tulee aina olemaan
    tietosuojariski. Niiden soveltaminen
    klassiset anonymisointitekniikat
    tekee siitä vain vaikeampaa, mutta ei
    mahdotonta tunnistaa henkilöitä.
  2. Tietojen tuhoaminen - mitä enemmän sinä
    anonymisoi, sitä paremmin suojaat
    yksityisyytesi, mutta sitä enemmän sinä
    tuhota tietosi. Tämä ei ole mitä
    haluat analytiikkaan, koska
    tuhoutuneiden tietojen seurauksena on huono
    oivalluksia.
  3. Aikaavievä – Se on ratkaisu
    se vie paljon aikaa, koska
    ne tekniikat toimivat eri tavalla
    tietojoukon ja tietotyypin mukaan.

Synteettisellä datalla pyritään ratkaisemaan kaikki nämä puutteet. Ero on niin silmiinpistävä, että teimme siitä videon. Katso sitä täältä.

Usein kysytyt kysymykset

Synteettiset tiedot

Yleensä suurin osa asiakkaistamme käyttää synteettistä dataa:

  • Ohjelmistojen testaus ja kehitys
  • Synteettiset tiedot analytiikkaa, mallinkehitystä ja edistyksellistä analytiikkaa varten (AI & ML)
  • Tuotedemot

Lue lisää ja tutustu käyttötapauksiin.

Synteettinen datakaksoinen on algoritmin luoma kopio reaalimaailman tietojoukosta ja/tai tietokannasta. Synthetic Data Twinillä Syntho pyrkii jäljittelemään alkuperäistä tietojoukkoa tai tietokantaa mahdollisimman lähelle alkuperäistä dataa luodakseen alkuperäisen realistisen esityksen. Synteettisellä datakaksolla pyrimme ylivoimaiseen synteettisen tiedon laatuun verrattuna alkuperäiseen dataan. Teemme tämän synteettisellä dataohjelmistollamme, joka käyttää huippuluokan tekoälymalleja. Nämä tekoälymallit luovat täysin uusia tietopisteitä ja mallintavat niitä siten, että säilytämme alkuperäisen datan ominaisuudet, suhteet ja tilastolliset mallit siinä määrin, että voit käyttää sitä ikään kuin se olisi alkuperäistä dataa.

Sitä voidaan käyttää moniin tarkoituksiin, kuten koneoppimismallien testaamiseen ja kouluttamiseen, tutkimus- ja kehitysskenaarioiden simulointiin sekä virtuaalisten ympäristöjen luomiseen koulutukseen. Synteettisten datakaksosten avulla voidaan luoda realistista ja edustavaa dataa, jota voidaan käyttää todellisen datan sijasta, kun sitä ei ole saatavilla tai kun todellisen tiedon käyttäminen olisi epäkäytännöllistä tai epäeettistä tiukkojen tietosuojamääräysten vuoksi.

Lue lisää.

Kyllä, me teemme. Tarjoamme erilaisia ​​lisäarvoa tuottavia synteettisiä tietojen optimointi- ja lisäysominaisuuksia, mukaan lukien pilkkaajat, jotka vievät tietosi uudelle tasolle.

Lue lisää.

Tekodata ja tekoälyn luoma synteettinen data ovat molemmat synteettisiä datatyyppejä, mutta ne luodaan eri tavoilla ja palvelevat eri tarkoituksia.

Valetieto on synteettistä dataa, joka luodaan manuaalisesti ja jota käytetään usein testaus- ja kehitystarkoituksiin. Sitä käytetään tyypillisesti simuloimaan todellisen datan käyttäytymistä valvotussa ympäristössä, ja sitä käytetään usein järjestelmän tai sovelluksen toimivuuden testaamiseen. Se on usein yksinkertainen, helppo luoda, eikä se vaadi monimutkaisia ​​malleja tai algoritmeja. Usein viittauksissa myös pilkataan tietoja "tyhjäksi tiedoksi" tai "väärennetyksi dataksi".

Tekoälyn tuottamaa synteettistä dataa taas tuotetaan tekoälytekniikoilla, kuten koneoppimisella tai generatiivisilla malleilla. Sitä käytetään luomaan realistisia ja edustavia tietoja, joita voidaan käyttää todellisen datan sijasta, kun todellisen tiedon käyttäminen olisi epäkäytännöllistä tai epäeettistä tiukkojen tietosuojamääräysten vuoksi. Se on usein monimutkaisempi ja vaatii enemmän laskentaresursseja kuin manuaalinen valedata. Tämän seurauksena se on paljon realistisempi ja jäljittelee alkuperäistä dataa mahdollisimman lähellä.

Yhteenvetona voidaan todeta, että valedata luodaan manuaalisesti, ja sitä käytetään tyypillisesti testaamiseen ja kehittämiseen, kun taas tekoälyn luoma synteettinen data luodaan tekoälytekniikoilla, ja sitä käytetään edustavan ja realistisen datan luomiseen.

Lisää kysymyksiä? Kysy asiantuntijoiltamme

Tietojen laatu

Sen takaaminen, että synteettisellä tiedolla on sama datalaatu kuin alkuperäisellä tiedolla, voi olla haastavaa, ja se riippuu usein tietystä käyttötapauksesta ja synteettisen datan luomiseen käytetyistä menetelmistä. Jotkin synteettisen tiedon generointimenetelmät, kuten generatiiviset mallit, voivat tuottaa dataa, joka on hyvin samanlaista kuin alkuperäinen data. Keskeinen kysymys: miten tämä osoitetaan?

Synteettisten tietojen laatu voidaan varmistaa seuraavilla tavoilla:

  • Tietojen laatumittarit tietojen laaturaporttimme kautta: Yksi tapa varmistaa, että synteettisellä tiedolla on sama tiedon laatu kuin alkuperäisillä tiedoilla, on käyttää tietojen laatumittareita vertaamaan synteettistä dataa alkuperäiseen dataan. Näitä mittareita voidaan käyttää mittaamaan esimerkiksi tietojen samankaltaisuutta, tarkkuutta ja täydellisyyttä. Syntho-ohjelmisto sisälsi tiedonlaaturaportin, jossa oli erilaisia ​​tiedonlaatumittareita.
  • Ulkoinen arviointi: Koska synteettisen datan datan laatu verrattuna alkuperäiseen dataan on avainasemassa, teimme äskettäin arvioinnin SAS:n (analytiikan markkinajohtaja) tietoasiantuntijoiden kanssa osoittaaksemme Synthon synteettisten tietojen laadun todelliseen dataan verrattuna. Edwin van Unen, SAS:n analytiikkaasiantuntija, arvioi Synthon luomia synteettisiä tietojoukkoja erilaisten analytics (AI) -arviointien avulla ja jakoi tulokset. Katso lyhyt yhteenveto videosta täältä.
  • Testaus ja arviointi itse: synteettistä dataa voidaan testata ja arvioida vertaamalla sitä todelliseen dataan tai käyttämällä sitä koneoppimismallien koulutukseen ja vertaamalla niiden suorituskykyä todellisen maailman datan pohjalta opetettuihin malleihin. Mikset testaisi synteettisten tietojen laatua itse? Kysy asiantuntijoiltamme tämän mahdollisuuksista täältä

On tärkeää huomata, että synteettiset tiedot eivät voi koskaan taata olevansa 100-prosenttisesti samanlaisia ​​kuin alkuperäiset tiedot, mutta ne voivat olla tarpeeksi lähellä ollakseen hyödyllisiä tietyssä käyttötapauksessa. Tämä erityinen käyttötapaus voi olla jopa edistynyt analytiikka tai koulutus koneoppimismalleja.

Kyllä se on. Synteettiset tiedot sisältävät jopa kuvioita, joista et tiennyt niiden olevan alkuperäisessä tiedossa.

Mutta älä vain ota sanaamme. SAS:n (global market leader in analytics) analytiikkaasiantuntijat tekivät (AI)-arvioinnin synteettisistä tiedoistamme ja vertasivat niitä alkuperäisiin tietoihin. Utelias? Katso koko tapahtuma täällä tai katso lyhyt versio aiheesta tiedon laatu täällä.

Kyllä, me teemme. Alustamme on optimoitu tietokantoille ja siten tietokannan tietojoukkojen välisen viittauksen eheyden säilyttämiselle.

Haluatko tietää lisää tästä?

Kysy suoraan asiantuntijoiltamme.

yksityisyys

Ei meillä. Voimme ottaa Syntho Enginen helposti käyttöön paikan päällä tai yksityisessä pilvessäsi telakointiaseman kautta.

Ei. Optimoimme alustamme siten, että se on helppo ottaa käyttöön asiakkaan luotetussa ympäristössä. Tämä varmistaa, että tiedot eivät koskaan poistu asiakkaan luotetusta ympäristöstä. Käyttöönottovaihtoehdot asiakkaan luotetussa ympäristössä ovat "paikan päällä" ja "asiakkaan pilviympäristössä (yksityinen pilvi)".

Valinnainen: Syntho tukee versiota, jota isännöidään "Syntho-pilvessä".

Ei. Syntho Engine on itsepalvelualusta. Tämän seurauksena synteettisen tiedon luominen Syntho Enginellä on mahdollista tavalla, joka end-to-end Syntho ei koskaan pysty näkemään tietoja, eikä sitä vaadita käsittelemään.

Kyllä, teemme tämän laadunvarmistusraporttimme kautta.

 

Aineistoa syntetisoitaessa on olennaista osoittaa, että yksilöitä ei voida tunnistaa uudelleen. Sisään tämä video, Marijn esittelee laaturaportissamme olevat tietosuojatoimenpiteet tämän osoittamiseksi.

Synthon laadunvarmistusraportti sisältää kolme alan standardi mittareita tietojen yksityisyyden arvioimiseksi. Kunkin näiden mittareiden taustalla oleva idea on seuraava:

  • Synteettiset tiedot (S) on oltava "mahdollisimman lähellä", mutta "ei liian lähellä" kohdetietoja (T).
  • Satunnaisesti valitut säilytystiedot (H) määrittää vertailuarvon "liian lähellä".
  • A täydellinen ratkaisu luo uutta synteettistä dataa, joka käyttäytyy täsmälleen kuten alkuperäinen data, mutta jota ei ole nähty ennen (= H).

Yksi Alankomaiden tietosuojaviranomaisen erityisesti korostamista käyttötapauksista on synteettisten tietojen käyttäminen testitietona.

Lisää löytyy tästä artikkelista.

Syntho moottori

Syntho Engine toimitetaan Docker-säiliössä, ja se voidaan helposti ottaa käyttöön ja liittää valitsemaasi ympäristöön.

Mahdollisia käyttöönottovaihtoehtoja ovat:

  • Yrityksen tiloissa
  • Mikä tahansa (yksityinen) pilvi
  • Mikä tahansa muu ympäristö

Lue lisää.

Synthon avulla voit helposti muodostaa yhteyden tietokantoihin, sovelluksiin, tietoputkiin tai tiedostojärjestelmiin. 

Tuemme erilaisia ​​integroituja liittimiä, jotta voit muodostaa yhteyden lähdeympäristöön (johon alkuperäinen data on tallennettu) ja kohdeympäristöön (johon haluat kirjoittaa synteettiset tietosi) end-to-end integroitu lähestymistapa.

Yhteysominaisuudet, joita tuemme:

  • Plug and play Dockerin kanssa
  • 20+ tietokantaliitintä
  • 20+ tiedostojärjestelmäliitintä

Lue lisää.

Luonnollisesti luontiaika riippuu tietokannan koosta. Keskimäärin alle miljoonan tietueen taulukko syntetisoidaan alle 1 minuutissa.

Synthon koneoppimisalgoritmit voivat yleistää ominaisuuksia paremmin, kun saatavilla on enemmän entiteettitietueita, mikä vähentää tietosuojariskiä. Suositeltava sarake-rivi-suhde on vähintään 1:500. Jos lähdetaulukossasi on esimerkiksi 6 saraketta, sen tulee sisältää vähintään 3000 XNUMX riviä.

Ei lainkaan. Vaikka synteettisten tietojen etujen, toiminnan ja käyttötapausten ymmärtäminen voi vaatia jonkin verran vaivaa, syntetisointiprosessi on hyvin yksinkertainen ja kuka tahansa tietokoneen perustiedot voi tehdä sen. Lisätietoja syntetisointiprosessista on osoitteessa Tämä sivu or pyytää demoa.

Syntho Engine toimii parhaiten jäsenneltyjen, taulukkomuotoisten tietojen (kaiken, joka sisältää rivejä ja sarakkeita) kanssa. Näissä rakenteissa tuemme seuraavia tietotyyppejä:

  • Rakentaa taulukoihin muotoiltuja tietoja (kategorinen, numeerinen jne.)
  • Suorat tunnisteet ja henkilötiedot
  • Suuret tietojoukot ja tietokannat
  • Maantieteellinen sijaintitiedot (kuten GPS)
  • Aikasarjatiedot
  • Usean taulukon tietokannat (viittauksellisella eheydellä)
  • Avaa tekstidata

 

Monimutkainen datatuki
Kaikkien tavallisten taulukkomuotoisten tietojen lisäksi Syntho Engine tukee monimutkaisia ​​tietotyyppejä ja monimutkaisia ​​tietorakenteita.

  • Aikasarja
  • Usean taulukon tietokannat
  • Avaa teksti

Lue lisää.

Ei, optimoimme alustamme minimoimaan laskentavaatimukset (esim. ei tarvita GPU:ta) tinkimättä tietojen tarkkuudesta. Lisäksi tuemme automaattista skaalausta, jotta voidaan syntetisoida valtavia tietokantoja.

Joo. Syntho-ohjelmisto on optimoitu useita taulukoita sisältäville tietokantoille.

Syntho tunnistaa automaattisesti tietotyypit, skeemat ja muodot tietojen tarkkuuden maksimoimiseksi. Monen taulukon tietokannassa tuemme automaattista taulukkosuhteen päättelyä ja synteesiä viitetietojen eheyden säilyttämiseksi.

ryhmä hymyileviä ihmisiä

Data on synteettistä, mutta tiimimme on todellinen!

Ota yhteyttä Synthoon ja yksi asiantuntijoistamme ottaa sinuun yhteyttä valon nopeudella selvittääkseen synteettisen datan arvon!