Hva er syntetiske data?
Svaret er relativt enkelt. Mens originaldata samles inn i alle dine interaksjoner med virkelige personer (f.eks. klienter, pasienter, ansatte osv.) og via alle dine interne prosesser, genereres syntetiske data av en datamaskinalgoritme. Denne datamaskinalgoritmen genererer helt nye og kunstige datapunkter.
Løs utfordringer for personvern
Syntetisk genererte data består av helt nye og kunstige datapunkter uten en-til-en-relasjoner til de originale dataene. Derfor kan ingen av de syntetiske datapunktene spores tilbake eller omvendt konstrueres til originale data. Som et resultat er syntetiske data unntatt personvernforskrifter, slik som GDPR, og fungerer som løsning for å løse og overvinne data-personvernutfordringer.
Forsterk og simuler
Det generative aspektet ved syntetisk datagenerering gjør det mulig å utvide og simulere helt nye data. Dette fungerer som en løsning når du ikke har nok data (dataknapphet), ønsker å oppsample edge-cases eller når du ikke har data ennå.
Her er fokuset på Syntho strukturerte data (data formatert i tabeller som inneholder rader og kolonner, som du ser i et Excel -ark), men vi liker alltid å illustrere begrepet syntetiske data via bilder, fordi det er mer tiltalende.
Tre typer syntetiske data eksisterer innenfor den syntetiske dataparaplyen. Disse 3 typene syntetiske data er: dummydata, regelbasert genererte syntetiske data og syntetiske data generert av kunstig intelligens (AI). Vi forklarer kort hva de 3 forskjellige typene syntetiske data er.
Dummy-data er tilfeldig genererte data (f.eks. av en falsk datagenerator).
Følgelig blir ikke egenskaper, relasjoner og statistiske mønstre som er i de originale dataene bevart, fanget opp og reprodusert i de genererte dummydataene. Derfor er representativiteten til dummy-data / mock-data minimal sammenlignet med de originale dataene.
Regelbasert genererte syntetiske data er syntetiske data generert av et forhåndsdefinert sett med regler. Eksempler på de forhåndsdefinerte reglene kan være at du ønsker å ha syntetiske data med en viss minimumsverdi, maksimumsverdi eller gjennomsnittsverdi. Alle egenskapene, relasjonene og statistiske mønstrene som du ønsker å ha reprodusert i de regelbaserte genererte syntetiske dataene, må forhåndsdefineres.
Følgelig vil datakvaliteten være like god som det forhåndsdefinerte regelsettet. Dette resulterer i utfordringer når høy datakvalitet er avgjørende. For det første kan man definere bare et begrenset sett med regler som skal fanges opp i de syntetiske dataene. I tillegg vil det å sette opp flere regler vanligvis resultere i overlappende og motstridende regler. Dessuten vil du aldri dekke alle relevante regler fullt ut. Dessuten kan det være relevante regler som du ikke en gang er klar over. Og til slutt (og ikke å glemme), vil dette ta deg mye tid og energi, noe som resulterer i en ikke-effektiv løsning.
Som du forventer av navnet, er syntetiske data generert av kunstig intelligens (AI) syntetiske data generert av en kunstig intelligens (AI) algoritme. AI-modellen er trent på de originale dataene for å lære alle egenskaper, sammenhenger og statistiske mønstre. Deretter er denne AI-algoritmen i stand til å generere helt nye datapunkter og modellere de nye datapunktene på en slik måte at den reproduserer egenskapene, relasjonene og statistiske mønstrene fra det originale datasettet. Dette er det vi kaller en syntetisk datatvilling.
AI-modellen etterligner originaldata for å generere syntetiske datatvillinger som kan brukes som om det er originaldata. Dette låser opp ulike brukstilfeller der AI-genererte syntetiske data kan brukes som alternativ for å bruke originale (sensitive) data, for eksempel bruk av AI-genererte syntetiske data som testdata, demodata eller for analyser.
Sammenlignet med regelbasert genererte syntetiske data: i stedet for at du studerer og definerer relevante regler, gjør AI-algoritmen dette automatisk for deg. Her vil ikke bare egenskaper, sammenhenger og statistiske mønstre som du kjenner til dekkes, også egenskaper, sammenhenger og statistiske mønstre som du ikke en gang er klar over vil bli dekket.
Avhengig av din brukssituasjon, anbefales en kombinasjon av dummy-data / mock-data, regelbasert genererte syntetiske data eller syntetiske data generert av kunstig intelligens (AI). Denne oversikten gir deg en første indikasjon på hvilken type syntetisk data du skal bruke. Siden Syntho støtter dem alle, ta gjerne kontakt med våre eksperter for å få en dypdykk i brukssaken med oss.