Guide till generering av syntetisk data: definition, typer och tillämpningar

Det är ingen hemlighet att företag står inför utmaningar när det gäller att skaffa och dela data av hög kvalitet. Syntetisk datagenerering är en praktisk lösning som hjälper till att producera stora artificiella datauppsättningar och högkvalitativa testdata utan integritetsrisker eller byråkrati.

Syntetiska datamängder kan skapas med en mängd olika metoder, och erbjuder olika applikationer. När de är korrekt utvärderade hjälper syntetiska datauppsättningar genererade med hjälp av avancerade algoritmer organisationer att påskynda sin analys, forskning och testning. Så låt oss ta en närmare titt.

Den här artikeln introducerar dig för syntetiska data, inklusive huvudtyperna, skillnader från anonymiserade datauppsättningar och nyanser i regleringen. Du kommer att lära dig hur artificiellt genererad data löser kritiska dataproblem och minimerar vissa risker. Vi kommer också att diskutera dess tillämpningar över branscher, tillsammans med exempel från våra fallstudier.

Innehållsförteckning

Syntetiska data: definition och marknadsstatistik

Syntetiska data är artificiellt genererad information utan konfidentiellt innehåll, och den fungerar som ett alternativ till riktiga datamängder. Dataforskare ringer ofta AI-genererad syntetisk data en syntetisk datatvilling på grund av dess höga statistiska noggrannhet i att efterlikna verkliga data.

Artificiella datauppsättningar skapas med hjälp av artificiell intelligens (AI) algoritmer och simuleringar som upprätthåller mönstren och korrelationerna för originaldata. Dessa data kan innehålla text, tabeller och bilder. Algoritmerna ersätter personligt identifierbar information (PII) med låtsasdata.

Syntetisk dataplattform Syntho med graf för alla lösningar

Grand View Research-prognoser att marknaden för syntetisk datagenerering med Generativ AI kommer att växa från 1.63 miljarder USD 2022 till cirka 13.5 miljarder USD 2030 vid en CAGR på 35 %. Enligt Gartner, 60 % av data som används för AI 2024 kommer att vara syntetisk – det är 60 gånger fler än 2021.

Syntetiska dataplattformar är också på frammarsch. Market Statesville förväntar sig den globala marknaden för syntetiska dataplattformar att växa från 218 miljoner USD 2022 till 3.7 miljarder USD 2033.

Varför ökar artificiell data? En drivande faktor är friheten från regulatorisk tillsyn.

Reglerar integritetslagar AI-genererad syntetisk data?

Många USA och EU datasäkerhet och integritet regler gäller identifierbara personuppgifter. 

Men de reglerna gäller inte syntetiska data — syntetiska data behandlas på liknande sätt som anonymiserad data. De utgör den så kallade "kärnan" i andra rättsregler.

Till exempel, skäl 26 i GDPR säger att integritetsskyddsreglerna endast gäller uppgifter som avser en identifierbar person. Om din syntetiska data genereras så att den inte kan spåras tillbaka till identifierbara individer, är den undantagen från regulatorisk tillsyn. Bortsett från regulatorisk tillsyn finns det andra hinder för att använda verklig data som driver företag att generera syntetisk data.

Viktiga utmaningar med att använda verklig data

Många företag har svårt att hitta och använda relevant data av hög kvalitet, särskilt i tillräckliga mängder för AI-algoritmträning. Även när de hittar det kan det vara svårt att dela eller använda datamängderna på grund av integritetsrisker och kompatibilitetsproblem. Det här avsnittet beskriver nyckeln utmanar syntetisk data kan lösa.

Integritetsrisker hindrar dataanvändning och delning

Datasäkerhets- och integritetsbestämmelser, såsom GDPR och HIPAA, introducerar byråkratiska hinder för datadelning och användning. I branscher som sjukvård kan till och med dela PII mellan avdelningar inom samma organisation vara tidskrävande på grund av styrningskontroller. Att dela data med externa enheter är ännu mer utmanande och medför fler säkerhetsrisker.

forskning från Fortune Business Insights identifierar ökande integritetsrisker som en primär katalysator för att anta metoder för syntetisk data. Ju mer data du lagrar, desto mer riskerar du att äventyra integriteten. Enligt 2023 års IBM-säkerhetskostnad för en dataintrångsrapport, den genomsnittliga kostnaden för dataintrång i USA var 9.48 miljoner USD. I hela världen var den genomsnittliga kostnaden 4.45 miljoner dollar; företag med mindre än 500 anställda förlorar 3.31 miljoner dollar per intrång. Och det tar inte hänsyn till skada på ryktet.

Svårigheter att hitta data av hög kvalitet

En 2022-undersökning av 500 dataproffs avslöjade att 77 % av ingenjörer, analytiker och datavetare hade problem med datakvaliteten. Enligt rapporten hindrar datakvalitet ett företags ekonomiska prestanda och produktivitet och gör det knappast möjligt att få en helhetssyn på sina tjänster.

Företag kan sakna tillräckligt med data från specifik demografi för att träna sina maskininlärningsmodeller (ML) ordentligt. Och datamängder innehåller ofta inkonsekvenser, felaktigheter och saknade värden. Om du tränar dina AI-plattformar med maskininlärningsmodeller på data av låg kvalitet som saknar demografisk mångfald kommer den att göra felaktiga, partiska förutsägelser. Liksom anonymiserad datagenerering kan oraffinerade algoritmer producera opålitliga artificiella datauppsättningar som påverkar resultatet av dataanalys.

Uppsampling med syntetiska data kan förbättra datakvaliteten genom att åtgärda obalanser i datamängder. Detta säkerställer att underrepresenterade klasser får mer proportionell representation och minskar partiskhet. En mer robust och representativ datauppsättning ger förbättrade analysresultat och modellträning.

Datauppsättningsinkompatibilitet

Datauppsättningar som kommer från olika ursprung eller inom multi-table-databaser kan introducera inkompatibiliteter, skapa komplexitet i databearbetning och analys och hindra innovation.

Till exempel involverar dataaggregering inom hälso- och sjukvården elektroniska hälsojournaler (EHR), wearables, proprietär programvara och tredjepartsverktyg. Varje källa kan använda distinkta dataformat och informationssystem, vilket leder till skillnader i dataformat, strukturer eller enheter under integration. Användningen av syntetiska data kan hantera denna utmaning, säkerställa kompatibilitet och tillåta generera data i önskat format.

Anonymisering är otillräcklig

Anonymiseringstekniker räcker inte för att övervinna integritetsrisker eller datakvalitetsproblem. Dessutom, maskering eller borttagning av identifierare kan ta bort detaljer som behövs för en djupgående analys i stora datamängder.

Dessutom kan anonymiserad data återidentifieras och spåras tillbaka till individer. Skadliga aktörer kan använda avancerad analys för att avslöja tidsbaserade mönster som äventyrar anonymiteten hos till synes avidentifierade data. Syntetisk data är överlägsen anonymiserad data i det avseendet.

Till skillnad från anonymisering, syntetisk data ändrar inte befintliga datauppsättningar utan genererar ny data som liknar egenskaperna och strukturen hos rådata, bevara dess användbarhet. Det är en helt ny datauppsättning som inte innehåller någon personligt identifierbar information.

Men det är mer nyanserat än så. Det finns flera typer av syntetiska datagenereringsmetoder.

Typer av syntetisk datagenerering

Syntetisk dataskapande processer varierar beroende på vilken typ av data som krävs. Syntetiska datatyper inkluderar helt AI-genererad, regelbaserad och låtsasdata – var och en tillgodoser olika behov.

Helt AI-genererad syntetisk data

Denna typ av syntetiska data är byggd från grunden med hjälp av ML-algoritmer. De maskininlärningsmodell tåg vidare faktiska data för att lära dig om datas struktur, mönster och samband. Generativ AI använder sedan denna kunskap för att generera ny data som nära liknar originalets statistiska egenskaper (igen, samtidigt som den gör den oidentifierbar).

Denna typ av helt syntetiska data är användbar för AI-modellträning och är tillräckligt bra för att användas som om det vore riktiga data. Det är särskilt fördelaktigt när du inte kan dela dina datauppsättningar på grund av avtalsenliga sekretessavtal. Men för att generera syntetisk data behöver du en betydande mängd originaldata som utgångspunkt för maskininlärningsmodell utbildning.

Syntetisk låtsasdata

Denna syntetiska data typ hänvisar till artificiellt skapade data som imiterar strukturen och formatet av verkliga data men som inte nödvändigtvis återspeglar faktisk information. Det hjälper utvecklare att säkerställa att deras applikationer kan hantera olika input och scenarier utan att använda äkta, privat eller känsliga uppgifter och, viktigast av allt, utan att förlita sig på verkliga data. Denna praxis är väsentlig för att testa funktionalitet och förfina mjukvaruapplikationer på ett kontrollerat och säkert sätt.

När du ska använda den: För att ersätta direkta identifierare (PII) eller när du för närvarande saknar data och föredrar att inte investera tid och energi på att definiera regler. Utvecklare använder vanligtvis skendata för att utvärdera funktionaliteten och utseendet på applikationer under de tidiga utvecklingsstadierna, vilket gör att de kan identifiera potentiella problem eller designfel. 

Även om skendata saknar äktheten av verklig information, förblir det ett värdefullt verktyg för att säkerställa att systemen fungerar korrekt och visuell representation innan faktisk dataintegrering. 

Obs: Syntetiska hånade data kallas ofta "falska data,' även om vi inte rekommenderar att dessa termer används omväxlande eftersom de kan skilja sig åt i konnotationer. 

Syntetisk mock-data

Regelbaserad syntetisk data

Regelbaserad syntetisk data är ett användbart verktyg för att generera anpassade datauppsättningar baserat på fördefinierade regler, begränsningar och logik. Denna metod ger flexibilitet genom att tillåta användare att konfigurera datautmatning enligt specifika affärsbehov, justera parametrar som minimi-, max- och medelvärden. Till skillnad från helt AI-genererad data, som saknar anpassning, erbjuder regelbaserad syntetisk data en skräddarsydd lösning för att möta distinkta operativa krav. Detta syntetisk datagenereringsprocess visar sig vara särskilt användbar vid testning, utveckling och analys, där exakt och kontrollerad datagenerering är avgörande.

Varje syntetisk datagenereringsmetod har olika applikationer. Synthos plattform sticker ut genom att skapa syntetiska datatvillingar med liten eller ingen ansträngning från din sida. Du får statistiskt korrekt, syntetiska data av hög kvalitet för dina behov som är fri från compliance-overhead.

Syntetiska data i tabellform

Uttrycket syntetiska data i tabellform avser skapa artificiell data delmängder som efterliknar strukturen och statistiska egenskaper i den verkliga världen tabelldata, till exempel data som lagras i tabeller eller kalkylblad. Detta syntetiska data skapas med hjälp av syntetiska datagenereringsalgoritmer och tekniker utformade för att replikera egenskaperna hos källdata samtidigt som man säkerställer att konfidentiell eller känsliga uppgifter avslöjas inte.

Tekniker att generera tabell syntetiska data involverar vanligtvis statistisk modellering, maskininlärningsmodeller, eller generativa modeller som generativa motstridiga nätverk (GAN) och variationella autoencoders (VAEs). Dessa verktyg för att generera syntetiska data analysera mönster, fördelningar och korrelationer som finns i riktig datauppsättning och generera sedan nytt datapunkter den där liknar verkliga data men innehåller ingen riktig information.

Typisk tabell användningsfall för syntetisk data inkluderar att ta itu med integritetsproblem, öka datatillgängligheten och underlätta forskning och innovation i datadrivna applikationer. Det är dock viktigt att se till att syntetiska data fångar exakt de underliggande mönstren och fördelningarna av originaldata att underhålla dataverktyg och giltighet för nedströmsuppgifter.

regelbaserad syntetisk datagraf

Mest populära syntetiska dataapplikationer

Artificiellt genererad data öppnar innovationsmöjligheter för sjukvård, detaljhandel, tillverkning, finans och andra industrier. Den primära använd fall inkluderar dataupptagning, analys, testning och delning.

Uppsampling för att förbättra datauppsättningar

Uppsampling innebär att generera större datamängder från mindre för skalning och diversifiering. Denna metod används när verklig data är knapp, obalanserad eller ofullständig.

Betrakta några exempel. För finansiella institutioner kan utvecklare förbättra noggrannheten hos modeller för bedrägeriupptäckt genom att sampla sällsynta observationer och aktivitetsmönster i finansiella data. På liknande sätt kan en marknadsföringsbyrå utöka urvalet för att utöka data relaterade till underrepresenterade grupper, vilket förbättrar segmenteringsnoggrannheten.

Avancerad analys med AI-genererad data

Företag kan utnyttja AI-genererad syntetisk data av hög kvalitet för datamodellering, affärsanalys och klinisk forskning. Syntetisera data visar sig vara ett gångbart alternativ när det antingen är för dyrt eller tidskrävande att skaffa riktiga datamängder.

Syntetiska data ger forskare möjlighet att genomföra djupgående analyser utan att kompromissa med patientens konfidentialitet. Datavetare och forskare får tillgång till patientdata, information om kliniska tillstånd och behandlingsdetaljer, och får insikter som skulle vara betydligt mer tidskrävande med verkliga data. Dessutom kan tillverkare fritt dela data med leverantörer, inkorporera manipulerad GPS och platsdata för att skapa algoritmer för prestandatestning eller förbättra prediktivt underhåll.

Emellertid syntetisk datautvärdering är kritisk. Syntho Engines utdata valideras av ett internt kvalitetssäkringsteam och externa experter från SAS Institutet. I en studie av prediktiv modellering tränade vi fyra maskininlärningsmodeller på verklig, anonymiserad och syntetisk data. Resultaten visade att modeller som tränats på våra syntetiska datauppsättningar hade samma noggrannhetsnivå som de som tränades på riktiga datauppsättningar, medan anonymiserade data minskade modellernas användbarhet.

Extern och intern datadelning

Syntetisk data förenklar datadelning inom och mellan organisationer. Du kan använda syntetiska data till utbyta information utan att riskera integritetsintrång eller bristande efterlevnad av bestämmelser. Fördelarna med syntetisk data inkluderar accelererade forskningsresultat och effektivare samarbete.

Detaljhandelsföretag kan dela insikter med leverantörer eller distributörer med hjälp av syntetiska data som återspeglar kundbeteende, lagernivåer eller andra nyckeltal. Men för att säkerställa den högsta nivån av dataintegritet, känslig kunddata och företagshemligheter hålls konfidentiella.

Syntho vann 2023 Global SAS Hackathon för vår förmåga att generera och dela aexakta syntetiska data effektivt och riskfritt. Vi syntetiserade patientdata för flera sjukhus med olika patientpopulationer för att visa effektiviteten av prediktiva modeller. Att använda de kombinerade syntetiska datamängderna visade sig vara lika exakt som att använda riktiga data.

Syntetiska testdata

Syntetisk testdata är artificiellt genererad data designad för att simulera datatestning miljöer för mjukvaruutveckling. Förutom att minska integritetsrisker, gör syntetiska testdata det möjligt för utvecklare att noggrant bedöma applikationers prestanda, säkerhet och funktionalitet över en rad potentiella scenarier utan att påverka det verkliga systemet.

Vårt samarbete med en av de största holländska bankerna montrar syntetiska datafördelar för mjukvarutestning. Testa datagenerering med Syntho Engine resulterade i produktionsliknande datauppsättningar som hjälpte banken att påskynda mjukvaruutveckling och feldetektering, vilket ledde till snabbare och säkrare programvaruversioner.

Tekniker att generera tabell syntetiska data involverar vanligtvis statistisk modellering, maskininlärningsmodeller, eller generativa modeller som generativa motstridiga nätverk (GAN) och variationella autoencoders (VAEs). Dessa verktyg för att generera syntetiska data analysera mönster, fördelningar och korrelationer som finns i riktig datauppsättning och generera sedan nytt datapunkter den där liknar verkliga data men innehåller ingen riktig information.

Typisk tabell användningsfall för syntetisk data inkluderar att ta itu med integritetsproblem, öka datatillgängligheten och underlätta forskning och innovation i datadrivna applikationer. Det är dock viktigt att se till att syntetiska data fångar exakt de underliggande mönstren och fördelningarna av originaldata att underhålla dataverktyg och giltighet för nedströmsuppgifter.

Synthos plattform för generering av syntetisk data

Syntho tillhandahåller en smart plattform för generering av syntetisk data, som ger organisationer möjlighet att på ett intelligent sätt omvandla data till en konkurrensfördel. Genom att tillhandahålla alla syntetiska datagenereringsmetoder i en plattform erbjuder Syntho en heltäckande lösning för organisationer som strävar efter att använda data som täcker:

  • AI-genererad syntetisk data som efterliknar statistiska mönster av originaldata i syntetiska data med kraften av artificiell intelligens.
  • Smart avidentifikation för att skydda känsliga uppgifter genom att ta bort eller ändra personligt identifierbar information (PII).
  • Test data management som möjliggör skapa, underhålla och kontrollera representativa testdata för icke-produktionsmiljöer.

Våra plattformar integreras i alla moln eller lokal miljö. Dessutom tar vi hand om planering och driftsättning. Vårt team kommer att utbilda dina anställda att använda Syntho motor effektivt, och vi kommer att tillhandahålla kontinuerlig support efter implementeringen.

Du kan läsa mer om funktionerna hos Synthos syntetiska data generationsplattform i Lösningssektionen på vår webbplats.

Vad händer i framtiden för syntetisk data?

Syntetisk datagenerering med generativ AI hjälper till att skapa och dela höga volymer av relevant data, kringgå problem med formatkompatibilitet, regulatoriska begränsningar och risken för dataintrång.

Till skillnad från anonymisering, generera syntetiska data gör det möjligt att bevara strukturella samband i data. Detta gör syntetisk data lämplig för avancerad analys, forskning och utveckling, diversifiering och testning.

Användningen av syntetiska datauppsättningar kommer bara att expandera över branscher. Företag är redo att skapa syntetiska data, utökar dess räckvidd till komplexa bilder, ljud och videoinnehåll. Företag kommer att utöka användningen av maskininlärningsmodeller till mer avancerade simuleringar och tillämpningar.

Vill du lära dig mer praktiska tillämpningar av syntetiska data? Känn dig fri att schemalägg en demo vår hemsida.

Om Syntho

Syntho ger en smart generering av syntetisk data plattform, utnyttjande flera syntetiska dataformulär och genereringsmetoder, som ger organisationer möjlighet att på ett intelligent sätt omvandla data till en konkurrensfördel. Vår AI-genererade syntetiska data efterliknar statistiska mönster av originaldata, vilket säkerställer noggrannhet, integritet och hastighet, som bedömts av externa experter som SAS. Med smarta avidentifieringsfunktioner och konsekvent kartläggning skyddas känslig information samtidigt som referensintegriteten bevaras. Vår plattform möjliggör skapande, hantering och kontroll av testdata för icke-produktionsmiljöer, med hjälp av regelbaserade syntetiska datagenereringsmetoder för riktade scenarier. Dessutom kan användare generera syntetiska data programmatiskt och få realistiska testdata att utveckla heltäckande test- och utvecklingsscenarier med lätthet.

Om författaren

Foto headshot av VD och medgrundare av Syntho, Wim Kees Jannsen

Wim Kees Janssen

VD & grundare

Syntho, uppskalningen som stör dataindustrin med AI-genererad syntetisk data. Wim Kees har bevisat med Syntho att han kan låsa upp integritetskänslig data för att göra data smartare och snabbare tillgänglig så att organisationer kan realisera datadriven innovation. Som ett resultat vann Wim Kees och Syntho det prestigefyllda Philips Innovation Award, vann SAS globala hackathon inom hälsovård och life science, och har valts ut som ledande generativ AI Scale-Up av NVIDIA.

publicerade
Februari 19, 2024