FAQ

Vanliga frågor om syntetisk data

Begriplig! Som tur är har vi svaren och vi är här för att hjälpa dig. Kolla våra vanliga frågor.

Öppna en fråga nedan och klicka på länkarna för att hitta mer information. Har du en mer komplicerad fråga som inte står här? Fråga våra experter direkt!

De mest ställda frågorna

Syntetisk data avser data som är artificiellt genererad snarare än insamlad från verkliga källor. I allmänhet, medan originaldata samlas in i all din interaktion med personer (klienter, patienter, etc.) och via alla dina interna processer, genereras syntetisk data av en datoralgoritm.

Syntetisk data kan också användas för att testa och utvärdera modeller i en kontrollerad miljö, eller för att skydda känslig information genom att generera data som liknar verkliga data men som inte innehåller någon känslig information. Syntetisk data används ofta som alternativ för integritetskänslig data och kan användas som testdata, för analys eller för att träna maskininlärning.

Läs mer

Att garantera att syntetisk data håller samma datakvalitet som originaldata kan vara utmanande och beror ofta på det specifika användningsfallet och de metoder som används för att generera syntetiska data. Vissa metoder för att generera syntetisk data, såsom generativa modeller, kan producera data som i hög grad liknar originaldata. Nyckelfråga: hur visar man detta?

Det finns några sätt att säkerställa kvaliteten på syntetiska data:

  • Datakvalitetsstatistik via vår datakvalitetsrapport: Ett sätt att säkerställa att syntetiska data håller samma datakvalitet som originaldata är att använda datakvalitetsmått för att jämföra syntetiska data med originaldata. Dessa mätvärden kan användas för att mäta saker som likhet, noggrannhet och fullständighet av data. Syntho-mjukvaran inkluderade en datakvalitetsrapport med olika datakvalitetsmått.
  • Extern utvärdering: eftersom datakvaliteten för syntetiska data i jämförelse med originaldata är nyckeln, gjorde vi nyligen en bedömning med dataexperterna från SAS (marknadsledare inom analys) för att visa datakvaliteten för syntetisk data från Syntho i jämförelse med verklig data. Edwin van Unen, analytikerexpert från SAS, utvärderade genererade syntetiska datamängder från Syntho via olika analysanalyser (AI) och delade med sig av resultaten. Se en kort sammanfattning av den videon här.
  • Testa och utvärdera själv: syntetiska data kan testas och utvärderas genom att jämföra dem med verkliga data eller genom att använda dem för att träna maskininlärningsmodeller och jämföra deras prestanda med modeller tränade på verkliga data. Varför inte testa datakvaliteten för syntetisk data själv? Fråga våra experter om möjligheterna till detta här

Det är viktigt att notera att syntetisk data aldrig kan garantera att den liknar originaldata till 100 %, men den kan vara tillräckligt nära för att vara användbar för ett specifikt användningsfall. Detta specifika användningsfall kan till och med vara avancerad analys eller utbildning av maskininlärningsmodeller.

Klassisk "anonymisering" är inte alltid den bästa lösningen, eftersom:

  1. Sekretessrisk – du kommer alltid att ha
    en integritetsrisk. Att tillämpa dessa
    klassiska anonymiseringstekniker
    gör det bara svårare, men inte
    omöjligt att identifiera individer.
  2. Förstör data – ju mer du
    anonymisera, desto bättre skyddar du
    din integritet, men ju mer du
    förstöra dina uppgifter. Detta är inte vad
    du vill ha för analys, eftersom
    förstörda data kommer att resultera i dålig
    insikter.
  3. Tidskrävande – det är en lösning
    det tar mycket tid, för
    dessa tekniker fungerar annorlunda
    per datamängd och per datatyp.

Syntetisk data syftar till att lösa alla dessa brister. Skillnaden är så slående att vi gjorde en video om den. Titta på det här.

Vanliga frågor

Syntetiska data

I allmänhet använder de flesta av våra kunder syntetisk data för:

  • Mjukvarutestning och utveckling
  • Syntetisk data för analys, modellutveckling och avancerad analys (AI & ML)
  • Produktdemos

Läs mer och utforska användningsfall.

En syntetisk datatvilling är en algoritmgenererad kopia av en datauppsättning och/eller databas i verkligheten. Med en Synthetic Data Twin strävar Syntho efter att efterlikna en originaldatauppsättning eller databas så nära originaldata som möjligt för att skapa en realistisk representation av originalet. Med en syntetisk datatvilling strävar vi efter överlägsen syntetisk datakvalitet i jämförelse med originaldata. Detta gör vi med vår mjukvara för syntetiska data som använder toppmoderna AI-modeller. Dessa AI-modeller genererar helt nya datapunkter och modellerar dem på ett sådant sätt att vi bevarar egenskaperna, sambanden och statistiska mönstren för originaldata i en sådan utsträckning att du kan använda det som om det är originaldata.

Detta kan användas för en mängd olika ändamål, såsom att testa och träna maskininlärningsmodeller, simulera scenarier för forskning och utveckling och skapa virtuella miljöer för träning och utbildning. Syntetiska datatvillingar kan användas för att skapa realistiska och representativa data som kan användas i stället för verkliga data när de inte är tillgängliga eller när användning av verklig data skulle vara opraktisk eller oetisk på grund av strikta datasekretessbestämmelser.

Läs mer.

Ja det gör vi. Vi erbjuder olika värdeskapande syntetiska dataoptimerings- och förstärkningsfunktioner, inklusive spottare, för att ta din data till nästa nivå.

Läs mer.

Mock data och AI-genererad syntetisk data är båda typer av syntetisk data, men de genereras på olika sätt och tjänar olika syften.

Mock-data är en typ av syntetisk data som skapas manuellt och som ofta används för test- och utvecklingsändamål. Det används vanligtvis för att simulera beteendet hos verkliga data i en kontrollerad miljö och används ofta för att testa funktionaliteten hos ett system eller en applikation. Det är ofta enkelt, lätt att generera och kräver inga komplexa modeller eller algoritmer. Ofta hänvisar man också till skendata som "dummy data" eller "falsk data".

AI-genererad syntetisk data, å andra sidan, genereras med hjälp av artificiell intelligens, såsom maskininlärning eller generativa modeller. Den används för att skapa realistiska och representativa data som kan användas i stället för verkliga data när användning av verklig data skulle vara opraktisk eller oetiskt på grund av strikta integritetsbestämmelser. Det är ofta mer komplext och kräver mer beräkningsresurser än manuella skendata. Som ett resultat är det mycket mer realistiskt och efterliknar originaldata så nära som möjligt.

Sammanfattningsvis skapas skendata manuellt och används vanligtvis för testning och utveckling, medan AI-genererad syntetisk data skapas med artificiell intelligens och används för att skapa representativa och realistiska data.

Fler frågor? Fråga våra experter

Datakvalitet

Att garantera att syntetisk data håller samma datakvalitet som originaldata kan vara utmanande och beror ofta på det specifika användningsfallet och de metoder som används för att generera syntetiska data. Vissa metoder för att generera syntetisk data, såsom generativa modeller, kan producera data som i hög grad liknar originaldata. Nyckelfråga: hur visar man detta?

Det finns några sätt att säkerställa kvaliteten på syntetiska data:

  • Datakvalitetsstatistik via vår datakvalitetsrapport: Ett sätt att säkerställa att syntetiska data håller samma datakvalitet som originaldata är att använda datakvalitetsmått för att jämföra syntetiska data med originaldata. Dessa mätvärden kan användas för att mäta saker som likhet, noggrannhet och fullständighet av data. Syntho-mjukvaran inkluderade en datakvalitetsrapport med olika datakvalitetsmått.
  • Extern utvärdering: eftersom datakvaliteten för syntetiska data i jämförelse med originaldata är nyckeln, gjorde vi nyligen en bedömning med dataexperterna från SAS (marknadsledare inom analys) för att visa datakvaliteten för syntetisk data från Syntho i jämförelse med verklig data. Edwin van Unen, analytikerexpert från SAS, utvärderade genererade syntetiska datamängder från Syntho via olika analysanalyser (AI) och delade med sig av resultaten. Se en kort sammanfattning av den videon här.
  • Testa och utvärdera själv: syntetiska data kan testas och utvärderas genom att jämföra dem med verkliga data eller genom att använda dem för att träna maskininlärningsmodeller och jämföra deras prestanda med modeller tränade på verkliga data. Varför inte testa datakvaliteten för syntetisk data själv? Fråga våra experter om möjligheterna till detta här

Det är viktigt att notera att syntetisk data aldrig kan garantera att den liknar originaldata till 100 %, men den kan vara tillräckligt nära för att vara användbar för ett specifikt användningsfall. Detta specifika användningsfall kan till och med vara avancerad analys eller utbildning av maskininlärningsmodeller.

Ja det är det. Den syntetiska datan innehåller till och med mönster som du inte visste att de fanns i originaldatan.

Men ta inte bara vårt ord för det. Analysexperterna från SAS (global marknadsledare inom analys) gjorde en (AI) bedömning av vår syntetiska data och jämförde den med originaldata. Nyfiken? Titta på hela evenemanget här eller se kortversionen om datakvalitet här.

Ja det gör vi. Vår plattform är optimerad för databaser och följaktligen bevarandet av referensintegritet mellan datamängder i databasen.

Nyfiken på att veta mer om detta?

Fråga våra experter direkt.

Integritetspolicy

Nej det gör vi inte. Vi kan enkelt distribuera Syntho Engine på plats eller i ditt privata moln via docker.

Nej. Vi har optimerat vår plattform på ett sådant sätt att den enkelt kan distribueras i kundens pålitliga miljö. Detta säkerställer att data aldrig lämnar kundens pålitliga miljö. Implementeringsalternativ för kundens betrodda miljö är "på plats" och i "kundens molnmiljö (privat moln)".

Valfritt: Syntho stöder en version som är värd i "Syntho-molnet".

Nej. Syntho Engine är en självbetjäningsplattform. Som ett resultat är det möjligt att generera syntetisk data med Syntho Engine på ett sätt som i end-to-end Syntho kan aldrig se och behöver aldrig behandla data.

Ja, vi gör detta via vår QA-rapport.

 

När man syntetiserar en datauppsättning är det viktigt att visa att man inte kan återidentifiera individer. I denna video, introducerar Marijn integritetsåtgärder som finns i vår kvalitetsrapport för att visa detta.

Synthos QA-rapport innehåller tre industristandard mätvärden för att utvärdera datasekretess. Tanken bakom var och en av dessa mätvärden är följande:

  • Syntetisk data (S) ska vara "så nära som möjligt", men "inte för nära" måldata (T).
  • Slumpmässigt utvalda data (H) bestämmer riktmärket för "för nära".
  • A perfekt lösning genererar nya syntetiska data som beter sig exakt som originaldata, men som inte har setts tidigare (= H).

Ett av de användningsfall som specifikt lyfts fram av den nederländska dataskyddsmyndigheten är att använda syntetiska data som testdata.

Mer kan hittas i den här artikeln.

Syntho motor

Syntho Engine levereras i en Docker-container och kan enkelt distribueras och kopplas in i din valda miljö.

Möjliga distributionsalternativ inkluderar:

  • Under förutsättning
  • Alla (privata) moln
  • Vilken annan miljö som helst

Läs mer.

Syntho gör att du enkelt kan ansluta till dina databaser, applikationer, datapipelines eller filsystem. 

Vi stöder olika integrerade kontakter så att du kan ansluta till källmiljön (där originaldata lagras) och destinationsmiljön (där du vill skriva din syntetiska data till) för en end-to-end integrerad strategi.

Anslutningsfunktioner som vi stöder:

  • Plug-and-play med Docker
  • 20+ databasanslutningar
  • 20+ filsystemanslutningar

Läs mer.

Genereringstiden beror givetvis på databasens storlek. I genomsnitt syntetiseras en tabell med mindre än 1 miljon poster på mindre än 5 minuter.

Synthos maskininlärningsalgoritmer kan bättre generalisera funktionerna med fler entitetsposter tillgängliga, vilket minskar integritetsrisken. Ett minsta kolumn-till-rad-förhållande på 1:500 rekommenderas. Till exempel, om din källtabell har 6 kolumner, bör den innehålla minst 3000 rader.

Inte alls. Även om det kan ta lite ansträngning att till fullo förstå fördelarna, funktionerna och användningsfallen med syntetisk data, är processen att syntetisera mycket enkel och alla med grundläggande datorkunskaper kan göra det. För mer information om syntesprocessen, kolla in denna sida or begära en demo.

Syntho Engine fungerar bäst på strukturerad data i tabellform (allt som innehåller rader och kolumner). Inom dessa strukturer stöder vi följande datatyper:

  • Strukturerar data formaterade i tabeller (kategoriska, numeriska, etc.)
  • Direkta identifierare och PII
  • Stora datamängder och databaser
  • Geografisk platsdata (som GPS)
  • Tidsseriedata
  • Flerbordsdatabaser (med referensintegritet)
  • Öppna textdata

 

Komplex datastöd
Utöver alla vanliga typer av tabelldata stöder Syntho Engine komplexa datatyper och komplexa datastrukturer.

  • Tidsföljder
  • Flerbordsdatabaser
  • Öppen text

Läs mer.

Nej, vi har optimerat vår plattform för att minimera beräkningskrav (t.ex. ingen GPU krävs), utan att kompromissa med datanoggrannheten. Dessutom stöder vi automatisk skalning, så att man kan syntetisera enorma databaser.

Ja. Syntho-mjukvaran är optimerad för databaser som innehåller flera tabeller.

När det gäller detta upptäcker Syntho automatiskt datatyperna, schemana och formaten för att maximera datanoggrannheten. För flertabellsdatabas stöder vi automatisk tabellrelationsinferens och syntes för att bevara referensintegriteten.

grupp människor ler

Data är syntetisk, men vårt team är verkligt!

Kontakta Syntho och en av våra experter kommer att kontakta dig med ljusets hastighet för att utforska värdet av syntetiska data!