FAQ

Ofte stillede spørgsmål om syntetiske data

Forståelig! Heldigvis har vi svarene, og vi er her for at hjælpe. Tjek vores ofte stillede spørgsmål.

Åbn et spørgsmål nedenfor og klik på linkene for at finde mere information. Har du et mere kompliceret spørgsmål, som ikke er nævnt her? Spørg vores eksperter direkte!

De mest stillede spørgsmål

Syntetiske data refererer til data, der er kunstigt genereret i stedet for indsamlet fra virkelige kilder. Generelt, mens originale data indsamles i alle dine interaktioner med personer (klienter, patienter osv.) og via alle dine interne processer, genereres syntetiske data af en computeralgoritme.

Syntetiske data kan også bruges til at teste og evaluere modeller i et kontrolleret miljø eller til at beskytte følsomme oplysninger ved at generere data, der ligner virkelige data, men som ikke indeholder nogen følsomme oplysninger. Syntetiske data bruges ofte som alternativ til privatlivsfølsomme data og kan bruges som testdata, til analyser eller til at træne maskinlæring.

Læs mere

Det kan være udfordrende at garantere, at syntetiske data har samme datakvalitet som de originale data, og det afhænger ofte af den specifikke use case og de metoder, der bruges til at generere de syntetiske data. Nogle metoder til generering af syntetiske data, såsom generative modeller, kan producere data, der er meget lig de originale data. Nøglespørgsmål: hvordan demonstrerer man dette?

Der er nogle måder at sikre kvaliteten af ​​syntetiske data på:

  • Datakvalitetsmålinger via vores datakvalitetsrapport: En måde at sikre, at syntetiske data har samme datakvalitet som de originale data, er at bruge datakvalitetsmålinger til at sammenligne de syntetiske data med de originale data. Disse målinger kan bruges til at måle ting som lighed, nøjagtighed og fuldstændighed af dataene. Syntho-software inkluderede en datakvalitetsrapport med forskellige datakvalitetsmålinger.
  • Ekstern evaluering: Da datakvaliteten af ​​syntetiske data i sammenligning med originale data er nøglen, har vi for nylig lavet en vurdering med dataeksperterne fra SAS (markedsleder inden for analytics) for at demonstrere datakvaliteten af ​​syntetiske data fra Syntho i sammenligning med de rigtige data. Edwin van Unen, analyseekspert fra SAS, evaluerede genererede syntetiske datasæt fra Syntho via forskellige analytiske (AI) vurderinger og delte resultaterne. Se en kort opsummering af videoen her.
  • Test og evaluering selv: syntetiske data kan testes og evalueres ved at sammenligne dem med virkelige data eller ved at bruge dem til at træne maskinlæringsmodeller og sammenligne deres ydeevne med modeller trænet på data fra den virkelige verden. Hvorfor ikke selv teste datakvaliteten af ​​syntetiske data? Spørg vores eksperter om mulighederne for dette her

Det er vigtigt at bemærke, at syntetiske data aldrig kan garantere, at de ligner de originale data 100 %, men de kan være tæt nok på til at være nyttige til en specifik brugssituation. Denne specifikke use case kan endda være avanceret analyse eller træning af maskinlæringsmodeller.

Klassisk 'anonymisering' er ikke altid den bedste løsning, fordi:

  1. Privatlivsrisiko – det vil du altid have
    en privatlivsrisiko. Anvender dem
    klassiske anonymiseringsteknikker
    gør det kun sværere, men ikke
    umuligt at identificere personer.
  2. At ødelægge data – jo mere du
    anonymiser, jo bedre beskytter du
    dit privatliv, men jo mere du
    ødelægge dine data. Dette er ikke hvad
    du ønsker til analyser, fordi
    ødelagte data vil resultere i dårlige
    indsigt.
  3. Tidskrævende – det er en løsning
    det tager meget tid, fordi
    disse teknikker virker anderledes
    pr. datasæt og pr. datatype.

Syntetiske data har til formål at løse alle disse mangler. Forskellen er så slående, at vi lavede en video om det. Se det her.

Ofte stillede spørgsmål

Syntetiske data

Generelt bruger de fleste af vores kunder syntetiske data til:

  • Software test og udvikling
  • Syntetiske data til analyse, modeludvikling og avanceret analyse (AI & ML)
  • Produktdemoer

Læs mere og udforsk use cases.

En syntetisk datatvilling er en algoritme-genereret replika af et datasæt og/eller database i den virkelige verden. Med en Synthetic Data Twin sigter Syntho efter at efterligne et originalt datasæt eller database så tæt som muligt på de originale data for at skabe en realistisk repræsentation af originalen. Med en syntetisk datatvilling sigter vi efter overlegen syntetisk datakvalitet i forhold til de originale data. Det gør vi med vores syntetiske datasoftware, der bruger avancerede AI-modeller. Disse AI-modeller genererer helt nye datapunkter og modellerer dem på en sådan måde, at vi bevarer de originale datas karakteristika, relationer og statistiske mønstre i en sådan grad, at du kan bruge dem, som om det var originale data.

Dette kan bruges til en række forskellige formål, såsom test og træning af maskinlæringsmodeller, simulering af scenarier for forskning og udvikling og skabelse af virtuelle miljøer til træning og uddannelse. Syntetiske datatvillinger kan bruges til at skabe realistiske og repræsentative data, der kan bruges i stedet for data fra den virkelige verden, når de ikke er tilgængelige, eller når brugen af ​​data fra den virkelige verden ville være upraktisk eller uetisk på grund af strenge regler om databeskyttelse.

Læs mere.

Ja vi gør. Vi tilbyder forskellige værdiskabende syntetiske dataoptimerings- og forstærkningsfunktioner, herunder spottere, for at tage dine data til næste niveau.

Læs mere.

Mock-data og AI-genererede syntetiske data er begge typer syntetiske data, men de genereres på forskellige måder og tjener forskellige formål.

Mock-data er en type syntetiske data, der er manuelt oprettet og ofte bruges til test- og udviklingsformål. Det bruges typisk til at simulere adfærden af ​​virkelige data i et kontrolleret miljø og bruges ofte til at teste funktionaliteten af ​​et system eller en applikation. Det er ofte enkelt, nemt at generere og kræver ikke komplekse modeller eller algoritmer. Ofte henviser man også til hånedata som "dummy data" eller "falske data".

AI-genererede syntetiske data er på den anden side genereret ved hjælp af kunstig intelligens-teknikker, såsom maskinlæring eller generative modeller. Det bruges til at skabe realistiske og repræsentative data, der kan bruges i stedet for data fra den virkelige verden, når brug af data fra den virkelige verden ville være upraktisk eller uetisk på grund af strenge regler om privatliv. Det er ofte mere komplekst og kræver flere beregningsressourcer end manuelle mock-data. Som et resultat er det meget mere realistisk og efterligner de originale data så tæt som muligt.

Sammenfattende oprettes mock-data manuelt og bruges typisk til test og udvikling, mens AI-genererede syntetiske data er skabt ved hjælp af kunstig intelligens-teknikker og bruges til at skabe repræsentative og realistiske data.

Flere spørgsmål? Spørg vores eksperter

Datakvalitet

Det kan være udfordrende at garantere, at syntetiske data har samme datakvalitet som de originale data, og det afhænger ofte af den specifikke use case og de metoder, der bruges til at generere de syntetiske data. Nogle metoder til generering af syntetiske data, såsom generative modeller, kan producere data, der er meget lig de originale data. Nøglespørgsmål: hvordan demonstrerer man dette?

Der er nogle måder at sikre kvaliteten af ​​syntetiske data på:

  • Datakvalitetsmålinger via vores datakvalitetsrapport: En måde at sikre, at syntetiske data har samme datakvalitet som de originale data, er at bruge datakvalitetsmålinger til at sammenligne de syntetiske data med de originale data. Disse målinger kan bruges til at måle ting som lighed, nøjagtighed og fuldstændighed af dataene. Syntho-software inkluderede en datakvalitetsrapport med forskellige datakvalitetsmålinger.
  • Ekstern evaluering: Da datakvaliteten af ​​syntetiske data i sammenligning med originale data er nøglen, har vi for nylig lavet en vurdering med dataeksperterne fra SAS (markedsleder inden for analytics) for at demonstrere datakvaliteten af ​​syntetiske data fra Syntho i sammenligning med de rigtige data. Edwin van Unen, analyseekspert fra SAS, evaluerede genererede syntetiske datasæt fra Syntho via forskellige analytiske (AI) vurderinger og delte resultaterne. Se en kort opsummering af videoen her.
  • Test og evaluering selv: syntetiske data kan testes og evalueres ved at sammenligne dem med virkelige data eller ved at bruge dem til at træne maskinlæringsmodeller og sammenligne deres ydeevne med modeller trænet på data fra den virkelige verden. Hvorfor ikke selv teste datakvaliteten af ​​syntetiske data? Spørg vores eksperter om mulighederne for dette her

Det er vigtigt at bemærke, at syntetiske data aldrig kan garantere, at de ligner de originale data 100 %, men de kan være tæt nok på til at være nyttige til en specifik brugssituation. Denne specifikke use case kan endda være avanceret analyse eller træning af maskinlæringsmodeller.

Ja det er. De syntetiske data indeholder endda mønstre, som du ikke vidste, at de var til stede i de originale data.

Men tag ikke bare vores ord for det. Analyseeksperterne fra SAS (global markedsleder inden for analyse) lavede en (AI) vurdering af vores syntetiske data og sammenlignede dem med de originale data. Nysgerrig? Hold øje med hele arrangementet her eller se den korte version om datakvalitet her.

Ja vi gør. Vores platform er optimeret til databaser og dermed bevarelse af referentiel integritet mellem datasæt i databasen.

Nysgerrig efter at finde ud af mere om dette?

Spørg vores eksperter direkte.

Privatliv

Nej det gør vi ikke. Vi kan nemt implementere Syntho Engine on-premise eller i din private sky via docker.

Nej. Vi har optimeret vores platform på en sådan måde, at den nemt kan implementeres i kundens betroede miljø. Dette sikrer, at data aldrig forlader kundens betroede miljø. Implementeringsmuligheder for kundens betroede miljø er "on-premise" og i "kundens skymiljø (privat sky)".

Valgfrit: Syntho understøtter en version, der er hostet i "Syntho-skyen".

Nej. Syntho Engine er en selvbetjeningsplatform. Som et resultat er det muligt at generere syntetiske data med Syntho Engine på en måde, som i end-to-end proces, Syntho er aldrig i stand til at se og aldrig forpligtet til at behandle data.

Ja, det gør vi via vores QA-rapport.

 

Når man syntetiserer et datasæt, er det vigtigt at demonstrere, at man ikke er i stand til at genidentificere individer. I denne video, introducerer Marijn privatlivsforanstaltninger, der er i vores kvalitetsrapport for at demonstrere dette.

Synthos QA-rapport indeholder tre industristandard målinger til evaluering af databeskyttelse. Idéen bag hver af disse metrics er som følger:

  • Syntetiske data (S) skal være "så tæt som muligt", men "ikke for tæt" på måldataene (T).
  • Tilfældigt udvalgte holdout-data (H) bestemmer benchmark for "for tæt".
  • A perfekt løsning genererer nye syntetiske data, der opfører sig nøjagtigt som de originale data, men som ikke er set før (= H).

En af de use cases, der specifikt fremhæves af den hollandske databeskyttelsesmyndighed, er at bruge syntetiske data som testdata.

Mere kan findes i denne artikel.

Syntho motor

Syntho-motoren sendes i en Docker-container og kan nemt installeres og tilsluttes dit foretrukne miljø.

Mulige implementeringsmuligheder omfatter:

  • På forudsætning
  • Enhver (privat) sky
  • Ethvert andet miljø

Læs mere.

Syntho giver dig mulighed for nemt at oprette forbindelse til dine databaser, applikationer, datapipelines eller filsystemer. 

Vi understøtter forskellige integrerede stik, så du kan oprette forbindelse til kildemiljøet (hvor de originale data er gemt) og destinationsmiljøet (hvor du vil skrive dine syntetiske data til) for en end-to-end integreret tilgang.

Forbindelsesfunktioner, som vi understøtter:

  • Plug-and-play med Docker
  • 20+ databaseforbindelser
  • 20+ filsystemstik

Læs mere.

Genereringstiden afhænger naturligvis af størrelsen af ​​databasen. I gennemsnit syntetiseres en tabel med mindre end 1 million poster på mindre end 5 minutter.

Synthos maskinlæringsalgoritmer kan bedre generalisere funktionerne med flere tilgængelige entitetsregistreringer, hvilket mindsker privatlivsrisikoen. Et minimumsforhold mellem kolonne og række på 1:500 anbefales. For eksempel, hvis din kildetabel har 6 kolonner, skal den indeholde minimum 3000 rækker.

Slet ikke. Selvom det kan tage en vis indsats for fuldt ud at forstå fordelene, virkemåden og anvendelsen af ​​syntetiske data, er synteseprocessen meget enkel, og alle med grundlæggende computerviden kan gøre det. For mere information om synteseprocessen, tjek ud denne side or anmode om en demo.

Syntho Engine fungerer bedst på strukturerede, tabelformede data (alt, der indeholder rækker og kolonner). Inden for disse strukturer understøtter vi følgende datatyper:

  • Strukturerer data formateret i tabeller (kategoriske, numeriske osv.)
  • Direkte identifikatorer og PII
  • Store datasæt og databaser
  • Geografiske placeringsdata (som GPS)
  • Tidsseriedata
  • Multi-table databaser (med referenceintegritet)
  • Åbn tekstdata

 

Kompleks datastøtte
Udover alle almindelige typer tabeldata understøtter Syntho Engine komplekse datatyper og komplekse datastrukturer.

  • Tidsserier
  • Multi-table databaser
  • Åben tekst

Læs mere.

Nej, vi har optimeret vores platform for at minimere beregningskrav (f.eks. ingen GPU påkrævet), uden at gå på kompromis med datanøjagtigheden. Derudover understøtter vi automatisk skalering, så man kan syntetisere enorme databaser.

Ja. Syntho-software er optimeret til databaser, der indeholder flere tabeller.

Hvad dette angår, registrerer Syntho automatisk datatyperne, skemaerne og formaterne for at maksimere datanøjagtigheden. For multi-table databaser understøtter vi automatisk tabelrelationsinferens og syntese for at bevare referentiel integritet.

gruppe mennesker smilende

Data er syntetiske, men vores team er ægte!

Kontakt Syntho og en af ​​vores eksperter vil komme i kontakt med dig med lysets hastighed for at udforske værdien af ​​syntetiske data!