Hva er syntetiske data?

Et lynkurs syntetiske data

 

 

Introduksjon

Hva er syntetiske data?

Svaret er relativt enkelt. Mens originaldata samles inn i alle dine interaksjoner med virkelige personer (f.eks. klienter, pasienter, ansatte osv.) og via alle dine interne prosesser, genereres syntetiske data av en datamaskinalgoritme. Denne datamaskinalgoritmen genererer helt nye og kunstige datapunkter.

Løs utfordringer for personvern

Syntetisk genererte data består av helt nye og kunstige datapunkter uten en-til-en-relasjoner til de originale dataene. Derfor kan ingen av de syntetiske datapunktene spores tilbake eller omvendt konstrueres til originale data. Som et resultat er syntetiske data unntatt personvernforskrifter, slik som GDPR, og fungerer som løsning for å løse og overvinne data-personvernutfordringer.

Forsterk og simuler

Det generative aspektet ved syntetisk datagenerering gjør det mulig å utvide og simulere helt nye data. Dette fungerer som en løsning når du ikke har nok data (dataknapphet), ønsker å oppsample edge-cases eller når du ikke har data ennå.

Her er fokuset på Syntho strukturerte data (data formatert i tabeller som inneholder rader og kolonner, som du ser i et Excel -ark), men vi liker alltid å illustrere begrepet syntetiske data via bilder, fordi det er mer tiltalende.

Typer syntetiske data

Tre typer syntetiske data eksisterer innenfor den syntetiske dataparaplyen. Disse 3 typene syntetiske data er: dummydata, regelbasert genererte syntetiske data og syntetiske data generert av kunstig intelligens (AI). Vi forklarer kort hva de 3 forskjellige typene syntetiske data er.

Dummy data / mock data

Dummy-data er tilfeldig genererte data (f.eks. av en falsk datagenerator).

Følgelig blir ikke egenskaper, relasjoner og statistiske mønstre som er i de originale dataene bevart, fanget opp og reprodusert i de genererte dummydataene. Derfor er representativiteten til dummy-data / mock-data minimal sammenlignet med de originale dataene.

  • Når du skal bruke det: for å erstatte direkte identifikatorer (PII) eller når du ikke har data (ennå) og ikke vil bruke tid og energi på å definere regler.

Regelbaserte genererte syntetiske data

Regelbasert genererte syntetiske data er syntetiske data generert av et forhåndsdefinert sett med regler. Eksempler på de forhåndsdefinerte reglene kan være at du ønsker å ha syntetiske data med en viss minimumsverdi, maksimumsverdi eller gjennomsnittsverdi. Alle egenskapene, relasjonene og statistiske mønstrene som du ønsker å ha reprodusert i de regelbaserte genererte syntetiske dataene, må forhåndsdefineres.

Følgelig vil datakvaliteten være like god som det forhåndsdefinerte regelsettet. Dette resulterer i utfordringer når høy datakvalitet er avgjørende. For det første kan man definere bare et begrenset sett med regler som skal fanges opp i de syntetiske dataene. I tillegg vil det å sette opp flere regler vanligvis resultere i overlappende og motstridende regler. Dessuten vil du aldri dekke alle relevante regler fullt ut. Dessuten kan det være relevante regler som du ikke en gang er klar over. Og til slutt (og ikke å glemme), vil dette ta deg mye tid og energi, noe som resulterer i en ikke-effektiv løsning.

  • Når skal du bruke det: når du ikke har data (ennå)

Syntetiske data generert av kunstig intelligens (AI)

Som du forventer av navnet, er syntetiske data generert av kunstig intelligens (AI) syntetiske data generert av en kunstig intelligens (AI) algoritme. AI-modellen er trent på de originale dataene for å lære alle egenskaper, sammenhenger og statistiske mønstre. Deretter er denne AI-algoritmen i stand til å generere helt nye datapunkter og modellere de nye datapunktene på en slik måte at den reproduserer egenskapene, relasjonene og statistiske mønstrene fra det originale datasettet. Dette er det vi kaller en syntetisk datatvilling.

AI-modellen etterligner originaldata for å generere syntetiske datatvillinger som kan brukes som om det er originaldata. Dette låser opp ulike brukstilfeller der AI-genererte syntetiske data kan brukes som alternativ for å bruke originale (sensitive) data, for eksempel bruk av AI-genererte syntetiske data som testdata, demodata eller for analyser.

En visualisering av hvordan syntetiske data lages

Sammenlignet med regelbasert genererte syntetiske data: i stedet for at du studerer og definerer relevante regler, gjør AI-algoritmen dette automatisk for deg. Her vil ikke bare egenskaper, sammenhenger og statistiske mønstre som du kjenner til dekkes, også egenskaper, sammenhenger og statistiske mønstre som du ikke en gang er klar over vil bli dekket.

  • Når du skal bruke det: når du har (noen) data som input for å etterligne eller å bruke som utgangspunkt for smart datagenerering og utvidelsesfunksjoner

Hvilken type syntetiske data skal brukes?

Avhengig av din brukssituasjon, anbefales en kombinasjon av dummy-data / mock-data, regelbasert genererte syntetiske data eller syntetiske data generert av kunstig intelligens (AI). Denne oversikten gir deg en første indikasjon på hvilken type syntetisk data du skal bruke. Siden Syntho støtter dem alle, ta gjerne kontakt med våre eksperter for å få en dypdykk i brukssaken med oss.

Dette diagrammet viser ulike typer syntetiske data

syntho guidedeksel

Lagre din syntetiske dataguide nå!