Mikä on synteettinen data?

Törmäyskurssin synteettiset tiedot

 

 

esittely

Mikä on synteettinen data?

Vastaus on suhteellisen yksinkertainen. Alkuperäiset tiedot kerätään kaikista vuorovaikutuksistasi todellisten henkilöiden kanssa (esim. asiakkaat, potilaat, työntekijät jne.) ja kaikkien sisäisten prosessiesi kautta, kun taas synteettiset tiedot luodaan tietokonealgoritmin avulla. Tämä tietokonealgoritmi luo täysin uusia ja keinotekoisia tietopisteitä.

Ratkaise tietosuojahaasteet

Synteettisesti luotu data koostuu täysin uusista ja keinotekoisista tietopisteistä, joilla ei ole yksi-yhteen-suhdetta alkuperäiseen dataan. Näin ollen yhtäkään synteettisistä tietopisteistä ei voida jäljittää tai palauttaa alkuperäisiin tietoihin. Tämän seurauksena synteettiset tiedot on vapautettu tietosuojasäännöksistä, kuten GDPR, ja ne toimivat ratkaisuna tietosuojahaasteiden ratkaisemiseen ja voittamiseksi.

Lisää ja simuloi

Synteettisen tiedon luomisen generatiivinen puoli mahdollistaa täysin uuden tiedon lisäämisen ja simuloinnin. Tämä toimii ratkaisuna, kun sinulla ei ole tarpeeksi tietoa (tiedon niukkuus), haluat ottaa näytteitä reunatapauksista tai kun sinulla ei ole vielä tietoja.

Tässä Synthon painopiste on strukturoidussa datassa (tiedot, jotka on muotoiltu rivejä ja sarakkeita sisältäviin taulukoihin, kuten näet Excel -taulukot), mutta haluamme aina havainnollistaa synteettisen datan käsitettä kuvien kautta, koska se on houkuttelevampi.

Synteettisten tietojen tyypit

Synteettisen datan sateenvarjossa on kolmen tyyppistä synteettistä dataa. Nämä 3 synteettisen tiedon tyyppiä ovat: valedata, sääntöpohjainen synteettinen data ja tekoälyn luoma synteettinen data. Selitämme lyhyesti, mitkä ovat kolme erilaista synteettistä dataa.

Tyhjä data / valedata

Dummy data on satunnaisesti generoitua dataa (esim. valedatageneraattorilla).

Näin ollen alkuperäisessä tiedossa olevia ominaisuuksia, suhteita ja tilastollisia malleja ei säilytetä, kaapata ja toisteta luoduissa valedatassa. Näin ollen valedatan / valedatan edustavuus on minimaalista alkuperäiseen dataan verrattuna.

  • Milloin sitä käytetään: korvaamaan suoria tunnisteita (PII) tai kun sinulla ei ole tietoja (vielä) etkä halua käyttää aikaa ja energiaa sääntöjen määrittämiseen.

Sääntöpohjainen synteettinen data

Sääntöön perustuva luotu synteettinen data on synteettistä dataa, joka on luotu ennalta määritetyillä säännöillä. Esimerkkejä näistä ennalta määritetyistä säännöistä voivat olla synteettiset tiedot, joilla on tietty vähimmäisarvo, enimmäisarvo tai keskiarvo. Kaikki ominaisuudet, suhteet ja tilastolliset mallit, jotka haluat toistaa sääntöpohjaisessa synteettisessä datassa, on määritettävä ennalta.

Näin ollen tietojen laatu on yhtä hyvä kuin ennalta määritellyt säännöt. Tämä aiheuttaa haasteita, kun tiedon korkea laatu on olennaista. Ensinnäkin voidaan määrittää vain rajoitettu joukko sääntöjä, jotka kaapataan synteettiseen dataan. Lisäksi useiden sääntöjen määrittäminen johtaa yleensä päällekkäisiin ja ristiriitaisiin sääntöihin. Lisäksi et koskaan kata kaikkia asiaankuuluvia sääntöjä. Lisäksi saattaa olla olennaisia ​​sääntöjä, joista et ole edes tietoinen. Ja lopuksi (ei unohda), tämä vie paljon aikaa ja energiaa, mikä johtaa tehottoman ratkaisuun.

  • Milloin sitä käytetään: kun sinulla ei ole tietoja (vielä)

Tekoälyn (AI) tuottama synteettinen data

Kuten nimestä voi odottaa, tekoälyn (AI) tuottama synteettinen data on tekoälyn (AI) algoritmin tuottamaa synteettistä dataa. Tekoälymalli on koulutettu alkuperäisen datan perusteella oppimaan kaikki ominaisuudet, suhteet ja tilastolliset mallit. Tämän jälkeen tämä AI-algoritmi pystyy luomaan täysin uusia tietopisteitä ja mallintamaan ne uudet datapisteet siten, että se toistaa alkuperäisen tietojoukon ominaisuudet, suhteet ja tilastolliset kuviot. Tätä kutsumme synteettiseksi datakaksoisiksi.

Tekoälymalli jäljittelee alkuperäistä dataa synteettisten datakaksosten luomiseksi, joita voidaan käyttää ikään kuin se olisi alkuperäistä dataa. Tämä avaa erilaisia ​​käyttötapauksia, joissa tekoälyn tuottamaa synteettistä dataa voidaan käyttää vaihtoehtona alkuperäisen (arkaluonteisen) datan käytölle, kuten tekoälyn luoman synteettisen datan käyttö testidatana, esittelytietona tai analytiikkana.

Visualisointi kuinka synteettistä dataa luodaan

Verrattuna sääntöpohjaiseen synteettiseen dataan: sen sijaan, että tutkisit ja määrittelet asiaankuuluvia sääntöjä, tekoälyalgoritmi tekee tämän automaattisesti puolestasi. Täällä ei käsitellä vain ominaisuuksia, suhteita ja tilastollisia malleja, joista olet tietoinen, vaan myös ominaisuudet, suhteet ja tilastolliset mallit, joista et ole edes tietoinen.

  • Milloin sitä käytetään: kun sinulla on (jotkin) dataa matkittavaksi tai käytettäväksi älykkäiden tietojen luomisen ja lisäysominaisuuksien lähtökohtana

Millaista synteettistä dataa käytetään?

Käyttötapauksestasi riippuen suositellaan valedatan / valedatan, sääntöpohjaisen synteettisen datan tai tekoälyn (AI) luoman synteettisen tiedon yhdistelmää. Tämä yleiskatsaus antaa sinulle ensimmäisen osoituksen siitä, minkä tyyppistä synteettistä dataa tulee käyttää. Koska Syntho tukee niitä kaikkia, ota rohkeasti yhteyttä asiantuntijoihimme perehtyäksesi käyttötapasi kanssamme.

Tämä kaavio esittää erityyppisiä synteettisiä tietoja

syntho-ohjaimen kansi

Tallenna synteettisten tietojen opas nyt!