FAQ

Ofte stilte spørsmål om syntetiske data

Forståelig! Heldigvis har vi svarene, og vi er her for å hjelpe. Sjekk våre vanlige spørsmål.

Åpne et spørsmål nedenfor og klikk på lenkene for å finne mer informasjon. Har du et mer komplisert spørsmål som ikke er oppgitt her? Spør ekspertene våre direkte!

De mest stilte spørsmålene

Syntetiske data refererer til data som er kunstig generert i stedet for samlet inn fra virkelige kilder. Generelt, mens originaldata samles inn i alle dine interaksjoner med personer (klienter, pasienter, etc.) og via alle interne prosesser, genereres syntetiske data av en datamaskinalgoritme.

Syntetiske data kan også brukes til å teste og evaluere modeller i et kontrollert miljø, eller for å beskytte sensitiv informasjon ved å generere data som ligner på virkelige data, men som ikke inneholder noen sensitiv informasjon. Syntetiske data brukes ofte som alternativ for personvernsensitive data og kan brukes som testdata, for analyser eller for å trene maskinlæring.

Les mer

Å garantere at syntetiske data har samme datakvalitet som de originale dataene kan være utfordrende, og avhenger ofte av den spesifikke brukssaken og metodene som brukes for å generere de syntetiske dataene. Noen metoder for å generere syntetiske data, for eksempel generative modeller, kan produsere data som er svært lik de originale dataene. Hovedspørsmål: hvordan demonstrere dette?

Det er noen måter å sikre kvaliteten på syntetiske data på:

  • Datakvalitetsmålinger via vår datakvalitetsrapport: En måte å sikre at syntetiske data har samme datakvalitet som de originale dataene er å bruke datakvalitetsmålinger for å sammenligne de syntetiske dataene med de originale dataene. Disse beregningene kan brukes til å måle ting som likhet, nøyaktighet og fullstendighet av dataene. Syntho-programvaren inkluderte en datakvalitetsrapport med ulike datakvalitetsmålinger.
  • Ekstern evaluering: siden datakvaliteten til syntetiske data sammenlignet med originaldata er nøkkelen, gjorde vi nylig en vurdering med dataekspertene til SAS (markedsleder innen analyse) for å demonstrere datakvaliteten til syntetiske data fra Syntho sammenlignet med de virkelige dataene. Edwin van Unen, analyseekspert fra SAS, evaluerte genererte syntetiske datasett fra Syntho via ulike analysevurderinger (AI) og delte resultatene. Se en kort oppsummering av videoen her.
  • Testing og evaluering selv: syntetiske data kan testes og evalueres ved å sammenligne dem med virkelige data eller ved å bruke dem til å trene maskinlæringsmodeller og sammenligne ytelsen deres med modeller som er trent på data fra den virkelige verden. Hvorfor ikke teste datakvaliteten til syntetiske data selv? Spør våre eksperter om mulighetene for dette her

Det er viktig å merke seg at syntetiske data aldri kan garantere å være 100 % lik de originale dataene, men de kan være nærme nok til å være nyttige for en spesifikk brukstilfelle. Denne spesifikke brukssaken kan til og med være avansert analyse eller opplæring av maskinlæringsmodeller.

Klassisk "anonymisering" er ikke alltid den beste løsningen, fordi:

  1. Personvernrisiko – du vil alltid ha det
    en personvernrisiko. Bruker disse
    klassiske anonymiseringsteknikker
    gjør det bare vanskeligere, men ikke
    umulig å identifisere enkeltpersoner.
  2. Ødelegge data – jo mer du
    anonymiser, jo bedre beskytter du
    ditt privatliv, men jo mer du
    ødelegge dataene dine. Dette er ikke hva
    du ønsker for analyser, fordi
    ødelagt data vil resultere i dårlig
    innsikt.
  3. Tidkrevende – Det er en løsning
    det tar mye tid, fordi
    disse teknikkene fungerer annerledes
    per datasett og per datatype.

Syntetiske data har som mål å løse alle disse manglene. Forskjellen er så slående at vi laget en video om det. Se det her.

Ofte Stilte Spørsmål

Syntetiske data

Generelt bruker de fleste av våre kunder syntetiske data for:

  • Programvaretesting og utvikling
  • Syntetiske data for analyse, modellutvikling og avansert analyse (AI & ML)
  • Produktdemoer

Les mer og utforsk brukstilfeller.

En syntetisk datatvilling er en algoritmegenerert kopi av et datasett og/eller database fra den virkelige verden. Med en Synthetic Data Twin har Syntho som mål å etterligne et originalt datasett eller database så nært som mulig til de originale dataene for å skape en realistisk representasjon av originalen. Med en syntetisk datatvilling tar vi sikte på overlegen syntetisk datakvalitet sammenlignet med de originale dataene. Dette gjør vi med vår syntetiske dataprogramvare som bruker toppmoderne AI-modeller. Disse AI-modellene genererer helt nye datapunkter og modellerer dem på en slik måte at vi bevarer egenskapene, relasjonene og statistiske mønstrene til de originale dataene i en slik grad at du kan bruke dem som om det er originaldata.

Dette kan brukes til en rekke formål, som å teste og trene maskinlæringsmodeller, simulere scenarier for forskning og utvikling, og lage virtuelle miljøer for opplæring og utdanning. Syntetiske datatvillinger kan brukes til å lage realistiske og representative data som kan brukes i stedet for data fra den virkelige verden når de ikke er tilgjengelige eller når bruk av data fra den virkelige verden ville være upraktisk eller uetisk på grunn av strenge regler for personvern.

Les mer.

Ja det gjør vi. Vi tilbyr ulike verdiøkende syntetiske dataoptimaliserings- og utvidelsesfunksjoner, inkludert spottere, for å ta dataene dine til neste nivå.

Les mer.

Mock-data og AI-genererte syntetiske data er begge typer syntetiske data, men de genereres på forskjellige måter og tjener forskjellige formål.

Mock-data er en type syntetiske data som lages manuelt og som ofte brukes til test- og utviklingsformål. Det brukes vanligvis til å simulere atferden til virkelige data i et kontrollert miljø og brukes ofte til å teste funksjonaliteten til et system eller en applikasjon. Det er ofte enkelt, lett å generere, og krever ikke komplekse modeller eller algoritmer. Ofte refererer man også til falske data som "dummy data" eller "falske data".

AI-genererte syntetiske data genereres på den annen side ved hjelp av kunstig intelligens-teknikker, for eksempel maskinlæring eller generative modeller. Den brukes til å lage realistiske og representative data som kan brukes i stedet for virkelige data når bruk av data fra den virkelige verden ville være upraktisk eller uetisk på grunn av strenge personvernregler. Det er ofte mer komplekst og krever flere beregningsressurser enn manuelle mock-data. Som et resultat er det mye mer realistisk og etterligner de originale dataene så nært som mulig.

Oppsummert, mock-data lages manuelt og brukes vanligvis til testing og utvikling, mens AI-genererte syntetiske data lages ved hjelp av kunstig intelligens-teknikker og brukes til å lage representative og realistiske data.

Flere spørsmål? Spør våre eksperter

Datakvalitet

Å garantere at syntetiske data har samme datakvalitet som de originale dataene kan være utfordrende, og avhenger ofte av den spesifikke brukssaken og metodene som brukes for å generere de syntetiske dataene. Noen metoder for å generere syntetiske data, for eksempel generative modeller, kan produsere data som er svært lik de originale dataene. Hovedspørsmål: hvordan demonstrere dette?

Det er noen måter å sikre kvaliteten på syntetiske data på:

  • Datakvalitetsmålinger via vår datakvalitetsrapport: En måte å sikre at syntetiske data har samme datakvalitet som de originale dataene er å bruke datakvalitetsmålinger for å sammenligne de syntetiske dataene med de originale dataene. Disse beregningene kan brukes til å måle ting som likhet, nøyaktighet og fullstendighet av dataene. Syntho-programvaren inkluderte en datakvalitetsrapport med ulike datakvalitetsmålinger.
  • Ekstern evaluering: siden datakvaliteten til syntetiske data sammenlignet med originaldata er nøkkelen, gjorde vi nylig en vurdering med dataekspertene til SAS (markedsleder innen analyse) for å demonstrere datakvaliteten til syntetiske data fra Syntho sammenlignet med de virkelige dataene. Edwin van Unen, analyseekspert fra SAS, evaluerte genererte syntetiske datasett fra Syntho via ulike analysevurderinger (AI) og delte resultatene. Se en kort oppsummering av videoen her.
  • Testing og evaluering selv: syntetiske data kan testes og evalueres ved å sammenligne dem med virkelige data eller ved å bruke dem til å trene maskinlæringsmodeller og sammenligne ytelsen deres med modeller som er trent på data fra den virkelige verden. Hvorfor ikke teste datakvaliteten til syntetiske data selv? Spør våre eksperter om mulighetene for dette her

Det er viktig å merke seg at syntetiske data aldri kan garantere å være 100 % lik de originale dataene, men de kan være nærme nok til å være nyttige for en spesifikk brukstilfelle. Denne spesifikke brukssaken kan til og med være avansert analyse eller opplæring av maskinlæringsmodeller.

Ja, det er det. De syntetiske dataene inneholder til og med mønstre som du ikke visste at de var til stede i de originale dataene.

Men ikke bare ta vårt ord for det. Analyseekspertene til SAS (global markedsleder innen analyse) gjorde en (AI) vurdering av våre syntetiske data og sammenlignet dem med de originale dataene. Nysgjerrig? Se på hele arrangementet her eller se kortversjonen om datakvalitet her.

Ja det gjør vi. Plattformen vår er optimalisert for databaser og dermed bevaring av referanseintegritet mellom datasett i databasen.

Nysgjerrig på å finne ut mer om dette?

Spør våre eksperter direkte.

Privatliv

Nei, det gjør vi ikke. Vi kan enkelt distribuere Syntho Engine on-premise eller i din private sky via docker.

Nei. Vi optimaliserte plattformen vår på en slik måte at den enkelt kan distribueres i det pålitelige miljøet til kunden. Dette sikrer at data aldri forlater det pålitelige miljøet til kunden. Implementeringsalternativer for det pålitelige miljøet til kunden er "on-premise" og i "skymiljøet til kunden (privat sky)".

Valgfritt: Syntho støtter en versjon som er vert i "Syntho-skyen".

Nei. Syntho Engine er en selvbetjent plattform. Som et resultat er det mulig å generere syntetiske data med Syntho Engine på en måte som i end-to-end prosess, Syntho er aldri i stand til å se og aldri nødvendig å behandle data.

Ja, vi gjør dette via vår QA-rapport.

 

Når man syntetiserer et datasett, er det viktig å demonstrere at man ikke er i stand til å re-identifisere individer. I denne videoen, introduserer Marijn personverntiltak som er i vår kvalitetsrapport for å demonstrere dette.

Synthos QA-rapport inneholder tre industristandard beregninger for å evaluere personvernet. Ideen bak hver av disse beregningene er som følger:

  • Syntetiske data (S) skal være "så nær som mulig", men "ikke for nær" måldataene (T).
  • Tilfeldig valgte holdout-data (H) bestemmer referansen for "for nært".
  • A perfekt løsning genererer nye syntetiske data som oppfører seg nøyaktig som de originale dataene, men som ikke har blitt sett før (= H).

En av brukstilfellene som er spesielt fremhevet av den nederlandske datatilsynet er bruk av syntetiske data som testdata.

Mer finner du i denne artikkelen.

Syntho-motor

Syntho-motoren sendes i en Docker-beholder og kan enkelt distribueres og kobles til ditt foretrukne miljø.

Mulige distribusjonsalternativer inkluderer:

  • On-premisset
  • Enhver (privat) sky
  • Ethvert annet miljø

Les mer.

Syntho lar deg enkelt koble til databaser, applikasjoner, datapipelines eller filsystemer. 

Vi støtter ulike integrerte koblinger slik at du kan koble deg til kildemiljøet (hvor de originale dataene er lagret) og destinasjonsmiljøet (hvor du vil skrive de syntetiske dataene dine til) for en end-to-end integrert tilnærming.

Tilkoblingsfunksjoner som vi støtter:

  • Plug-and-play med Docker
  • 20+ databasekoblinger
  • 20+ filsystemkoblinger

Les mer.

Naturligvis avhenger generasjonstiden av størrelsen på databasen. I gjennomsnitt syntetiseres en tabell med mindre enn 1 million poster på mindre enn 5 minutter.

Synthos maskinlæringsalgoritmer kan bedre generalisere funksjonene med flere tilgjengelige enhetsposter, noe som reduserer personvernrisikoen. Et minimum kolonne-til-rad-forhold på 1:500 anbefales. For eksempel, hvis kildetabellen din har 6 kolonner, bør den inneholde minimum 3000 rader.

Ikke i det hele tatt. Selv om det kan kreve litt innsats for å fullt ut forstå fordelene, virkemåten og bruken av syntetiske data, er synteseprosessen veldig enkel og alle med grunnleggende datakunnskaper kan gjøre det. For mer informasjon om synteseprosessen, sjekk ut denne siden or Be om en demo.

Syntho Engine fungerer best på strukturerte, tabellformede data (alt som inneholder rader og kolonner). Innenfor disse strukturene støtter vi følgende datatyper:

  • Strukturerer data formatert i tabeller (kategoriske, numeriske, etc.)
  • Direkte identifikatorer og PII
  • Store datasett og databaser
  • Geografiske posisjonsdata (som GPS)
  • Tidsseriedata
  • Multi-tabell databaser (med referanseintegritet)
  • Åpne tekstdata

 

Kompleks datastøtte
Ved siden av alle vanlige typer tabelldata støtter Syntho Engine komplekse datatyper og komplekse datastrukturer.

  • Tidsserier
  • Multi-tabell databaser
  • Åpen tekst

Les mer.

Nei, vi optimaliserte plattformen vår for å minimere beregningskrav (f.eks. ingen GPU nødvendig), uten å gå på akkord med datanøyaktigheten. I tillegg støtter vi automatisk skalering, slik at man kan syntetisere enorme databaser.

Ja. Syntho-programvaren er optimalisert for databaser som inneholder flere tabeller.

Når det gjelder dette, oppdager Syntho automatisk datatyper, skjemaer og formater for å maksimere datanøyaktigheten. For flertabellsdatabaser støtter vi automatisk tabellrelasjonsslutning og syntese for å bevare referanseintegritet.

gruppe mennesker som smiler

Data er syntetiske, men teamet vårt er ekte!

Kontakt Syntho og en av våre eksperter vil kontakte deg med lysets hastighet for å utforske verdien av syntetiske data!