Guide til generering af syntetiske data: definition, typer og applikationer

Det er ingen hemmelighed, at virksomheder står over for udfordringer med at erhverve og dele data af høj kvalitet. Syntetisk datagenerering er en praktisk løsning, der hjælper med at producere store kunstige datasæt og testdata af høj kvalitet uden privatlivsrisici eller bureaukrati.

Syntetiske datasæt kan oprettes ved hjælp af en række forskellige metoder, der tilbyder forskellige applikationer. Når de er korrekt evalueret, hjælper syntetiske datasæt genereret ved hjælp af avancerede algoritmer organisationer med at fremskynde deres analyser, forskning og test. Så lad os se nærmere.

Denne artikel introducerer dig til syntetiske data, herunder hovedtyperne, forskelle fra anonymiserede datasæt og regulatoriske nuancer. Du lærer, hvordan kunstigt genererede data løser kritiske dataproblemer og minimerer visse risici. Vi vil også diskutere dets anvendelser på tværs af brancher, ledsaget af eksempler fra vores casestudier.

Indholdsfortegnelse

Syntetiske data: definition og markedsstatistik

Syntetiske data er kunstigt genereret information blottet for fortroligt indhold, og det fungerer som et alternativ til rigtige datasæt. Dataforskere ringer ofte AI-genererede syntetiske data en syntetisk datatvilling på grund af dens høje statistiske nøjagtighed i at efterligne rigtige data.

Kunstige datasæt oprettes ved hjælp af kunstig intelligens (AI) algoritmer og simuleringer, der vedligeholder mønstrene og korrelationerne af de originale data. Disse data kan omfatte tekst, tabeller og billeder. Algoritmerne erstatter personligt identificerbare oplysninger (PII) med hånlige data.

Syntetisk dataplatform Syntho med graf for alle løsninger

Grand View Research-prognoser at markedet for syntetisk datagenerering med Generativ AI vil vokse fra $1.63 milliarder i 2022 til omkring $13.5 milliarder i 2030 ved en CAGR på 35%. Ifølge Gartner, 60 % af de data, der bruges til kunstig intelligens i 2024, vil være syntetiske - det er 60 gange mere end i 2021.

Syntetiske dataplatforme er også i fremgang. Market Statesville forventer det globale marked for syntetiske dataplatforme til at vokse fra $218 millioner i 2022 til $3.7 milliarder i 2033.

Hvorfor er kunstige data stigende? En drivende faktor er frihed fra lovgivningsmæssigt tilsyn.

Regler privatlivslovgivningen AI-genererede syntetiske data?

Mange USA og EU datasikkerhed og privatliv regler gælder for identificerbare personoplysninger. 

Men disse regler gælder ikke for syntetiske data — syntetiske data behandles på samme måde som anonymiserede data. De udgør den såkaldte "kerne" af andre juridiske regler.

For eksempel: betragtning 26 i GDPR siger, at reglerne om beskyttelse af privatlivets fred kun gælder for data, der vedrører en identificerbar person. Hvis dine syntetiske data er genereret på en sådan måde, at de ikke kan spores tilbage til identificerbare personer, er de undtaget fra lovgivningsmæssigt tilsyn. Bortset fra lovgivningsmæssigt tilsyn er der andre hindringer for at bruge rigtige data, der driver virksomheder til at generere syntetiske data.

Nøgleudfordringer ved at bruge rigtige data

Mange virksomheder har svært ved at finde og bruge relevante data af høj kvalitet, især i tilstrækkelige mængder til AI-algoritmetræning. Selv når de finder det, kan deling eller brug af datasættene være udfordrende på grund af privatlivsrisici og kompatibilitetsproblemer. Dette afsnit skitserer nøglen udfordrer syntetiske data kan løse.

Privatlivsrisici hindrer databrug og -deling

Datasikkerhed og privatlivsbestemmelser, såsom GDPR og HIPAA, indfører bureaukratiske hindringer for datadeling og -anvendelse. I brancher som sundhedsvæsenet kan selv deling af PII mellem afdelinger inden for den samme organisation være tidskrævende på grund af styringskontrol. At dele data med eksterne enheder er endnu mere udfordrende og indebærer flere sikkerhedsrisici.

Forskning fra Fortune Business Insights identificerer stigende privatlivsrisici som en primær katalysator for at indføre syntetiske datapraksis. Jo flere data du gemmer, jo mere risikerer du at kompromittere privatlivets fred. Ifølge IBM-sikkerhedsomkostningerne for en databrudsrapport for 2023, var den gennemsnitlige pris for databrud i USA $9.48 millioner. På verdensplan var de gennemsnitlige omkostninger $4.45 millioner; virksomheder med mindre end 500 arbejdere mister 3.31 millioner dollars pr. overtrædelse. Og det tager ikke højde for skade på omdømmet.

Vanskeligheder med at finde data af høj kvalitet

En undersøgelse i 2022 af 500 dataprofessionelle afslørede, at 77 % af ingeniører, analytikere og dataforskere stod over for problemer med datakvalitet. Ifølge rapporten hæmmer datakvalitet en virksomheds økonomiske præstation og produktivitet og gør det næppe opnåeligt at opnå et holistisk syn på sine tjenester.

Virksomheder mangler muligvis nok data fra specifikke demografiske oplysninger til at træne deres maskinlæringsmodeller (ML) ordentligt. Og datasæt indeholder ofte uoverensstemmelser, unøjagtigheder og manglende værdier. Hvis du træner dine AI-platforme med maskinlæringsmodeller på data af lav kvalitet, der mangler demografisk mangfoldighed, vil det komme med unøjagtige, forudsigelige forudsigelser. Ligesom anonymiseret datagenerering kan uraffinerede algoritmer producere upålidelige kunstige datasæt, der påvirker resultatet af dataanalyse.

Upsampling med syntetiske data kan forbedre datakvaliteten ved at adressere ubalancer i datasæt. Dette sikrer, at underrepræsenterede klasser får mere proportional repræsentation og reducerer bias. Et mere robust og repræsentativt datasæt giver forbedrede analyseresultater og modeltræning.

Datasæt inkompatibilitet

Datasæt hentet fra forskellige oprindelser eller i multi-table-databaser kan introducere inkompatibiliteter, skabe kompleksitet i databehandling og -analyse og hindre innovation.

For eksempel involverer dataaggregering i sundhedsvæsenet elektroniske sundhedsjournaler (EHR'er), wearables, proprietær software og tredjepartsværktøjer. Hver kilde kan bruge forskellige dataformater og informationssystemer, hvilket fører til uligheder i dataformater, strukturer eller enheder under integration. Brugen af ​​syntetiske data kan løse denne udfordring, sikre kompatibilitet og tillade generere data i det ønskede format.

Anonymisering er utilstrækkelig

Anonymiseringsteknikker er ikke nok til at overvinde privatlivsrisici eller problemer med datakvalitet. I øvrigt, maskering eller fjernelse af identifikatorer kan fjerne detaljer, der er nødvendige for dybdegående analyse i store datasæt.

Desuden kan anonymiserede data genidentificeres og spores tilbage til enkeltpersoner. Ondsindede aktører kan bruge avanceret analyse til at afdække tidsbaserede mønstre, der kompromitterer anonymiteten af ​​tilsyneladende afidentificerede data. Syntetiske data er anonymiserede data overlegne i den henseende.

I modsætning til anonymisering, syntetiske data ændrer ikke eksisterende datasæt, men genererer nye data, der minder om egenskaberne og strukturen af rådata, bevarer dens nytteværdi. Det er et helt nyt datasæt, der ikke indeholder nogen personlig identificerbar information.

Men det er mere nuanceret end som så. Der findes flere typer syntetiske datagenereringsmetoder.

Typer af syntetisk datagenerering

Syntetisk dataoprettelse processer varierer afhængigt af den type data, der kræves. Syntetiske datatyper omfatter fuldt AI-genererede, regelbaserede og falske data - hver opfylder et forskelligt behov.

Fuldt AI-genererede syntetiske data

Denne type syntetiske data er bygget fra bunden ved hjælp af ML-algoritmer. Det maskinlæringsmodel tog videre faktiske data at lære om dataens struktur, mønstre og sammenhænge. Generativ AI bruger derefter denne viden til at generere nye data, der ligner originalens statistiske egenskaber (igen, mens de gør det uidentificerbart).

Denne type fuldsyntetiske data er nyttig til AI-modeltræning og er god nok til at blive brugt, som om det er rigtige data. Det er især fordelagtigt, når du ikke kan dele dine datasæt på grund af kontraktlige privatlivsaftaler. Men for at generere syntetiske data har du brug for en betydelig mængde originale data som udgangspunkt for maskinlæringsmodel uddannelse.

Syntetiske mock-data

Denne syntetiske data type refererer til kunstigt skabte data, der efterligner strukturen og formatet af rigtige data, men som ikke nødvendigvis afspejler faktiske oplysninger. Det hjælper udviklere med at sikre, at deres applikationer kan håndtere forskellige input og scenarier uden at bruge ægte, privat eller følsomme data og vigtigst af alt, uden at stole på data fra den virkelige verden. Denne praksis er afgørende for at teste funktionalitet og forfine softwareapplikationer på en kontrolleret og sikker måde.

Hvornår skal du bruge det: For at erstatte direkte identifikatorer (PII), eller når du i øjeblikket mangler data og foretrækker ikke at investere tid og energi i at definere regler. Udviklere bruger almindeligvis falske data til at evaluere funktionaliteten og udseendet af applikationer i de tidlige udviklingsstadier, hvilket giver dem mulighed for at identificere potentielle problemer eller designfejl. 

Selvom falske data mangler ægtheden af ​​oplysninger fra den virkelige verden, forbliver det et værdifuldt værktøj til at sikre systemernes korrekte funktion og visuelle repræsentation før egentlig dataintegration. 

Bemærk: Syntetiske hånede data omtales ofte som 'falske data,' selvom vi ikke anbefaler at bruge disse udtryk i flæng, da de kan have forskellige konnotationer. 

Syntetiske mock data

Regelbaserede syntetiske data

Regelbaserede syntetiske data er et nyttigt værktøj til at generere tilpassede datasæt baseret på foruddefinerede regler, begrænsninger og logik. Denne metode giver fleksibilitet ved at give brugerne mulighed for at konfigurere dataoutput i overensstemmelse med specifikke forretningsbehov ved at justere parametre som minimums-, maksimums- og gennemsnitsværdier. I modsætning til fuldt AI-genererede data, som mangler tilpasning, tilbyder regelbaserede syntetiske data en skræddersyet løsning til at opfylde forskellige operationelle krav. Det her syntetisk datagenereringsproces viser sig at være særligt anvendelig i test, udvikling og analyse, hvor præcis og kontrolleret datagenerering er afgørende.

Hver syntetisk datagenereringsmetode har forskellige applikationer. Synthos platform skiller sig ud ved at skabe syntetiske datatvillinger med lidt eller ingen indsats fra din side. Du bliver statistisk præcis, syntetiske data af høj kvalitet til dine behov, der er fri for overholdelsesomkostninger.

Syntetiske data i tabelform

Udtrykket syntetiske data i tabelform refererer til skabe kunstige data delmængder, der efterligner strukturen og statistiske egenskaber i den virkelige verden tabeldata, såsom data gemt i tabeller eller regneark. Det her syntetiske data er oprettet vha syntetiske datagenereringsalgoritmer og teknikker designet til at replikere egenskaberne ved kildedata samtidig med at sikre, at fortrolige el følsomme data er ikke oplyst.

Teknikker til at generere tabellarisk syntetiske data involverer typisk statistisk modellering, maskinlæringsmodeller, eller generative modeller såsom generative adversarial networks (GAN'er) og variationelle autoencodere (VAE'er). Disse værktøjer til generering af syntetiske data analysere de mønstre, fordelinger og sammenhænge, ​​der er til stede i ægte datasæt og derefter generere nye datapunkter at ligner meget rigtige data men indeholder ingen reel information.

Typisk tabel tilfælde af brug af syntetiske data omfatte håndtering af privatlivsproblemer, øget datatilgængelighed og fremme af forskning og innovation i datadrevne applikationer. Det er dog vigtigt at sikre, at syntetiske data fanger nøjagtigt de underliggende mønstre og fordelinger af de originale data, der skal vedligeholdes dataværktøj og gyldighed for downstream-opgaver.

regelbaseret syntetisk datagraf

Mest populære syntetiske dataapplikationer

Kunstigt genererede data åbner innovationsmuligheder for sundhedspleje, detailhandel, fremstilling, finans og andre industrier. Den primære brug sager omfatte dataupsampling, analyser, test og deling.

Upsampling for at forbedre datasæt

Upsampling betyder generering af større datasæt fra mindre til skalering og diversificering. Denne metode anvendes, når reelle data er knappe, ubalancerede eller ufuldstændige.

Overvej et par eksempler. For finansielle institutioner kan udviklere forbedre nøjagtigheden af ​​svigdetektionsmodeller ved at upsample sjældne observationer og aktivitetsmønstre i finansielle data. På samme måde kan et marketingbureau upsample for at udvide data relateret til underrepræsenterede grupper, hvilket forbedrer segmenteringsnøjagtigheden.

Avanceret analyse med AI-genererede data

Virksomheder kan udnytte AI-genererede syntetiske data af høj kvalitet til datamodellering, forretningsanalyse og klinisk forskning. Syntetisere data viser sig at være et levedygtigt alternativ, når det enten er for dyrt eller tidskrævende at anskaffe rigtige datasæt.

Syntetiske data giver forskere mulighed for at udføre dybdegående analyser uden at gå på kompromis med patientens fortrolighed. Dataforskere og forskere får adgang til patientdata, information om kliniske tilstande og behandlingsdetaljer og opnår indsigt, der ville være betydeligt mere tidskrævende med reelle data. Desuden kan producenter frit dele data med leverandører ved at inkorporere manipulerede GPS- og lokationsdata for at skabe algoritmer til ydeevnetest eller forbedre forudsigelig vedligeholdelse.

Imidlertid syntetisk dataevaluering er kritisk. Syntho Engines output valideres af et internt kvalitetssikringsteam og eksterne eksperter fra SAS Instituttet. I en undersøgelse af prædiktiv modellering trænede vi fire maskinlæringsmodeller på ægte, anonymiserede og syntetiske data. Resultaterne viste, at modeller trænet på vores syntetiske datasæt havde samme niveau af nøjagtighed som dem trænet på rigtige datasæt, mens anonymiserede data reducerede modellernes anvendelighed.

Ekstern og intern datadeling

Syntetiske data forenkler datadeling inden for og på tværs af organisationer. Du kan bruge syntetiske data til udveksle oplysninger uden at risikere brud på privatlivets fred eller manglende overholdelse af lovgivningen. Fordelene ved syntetiske data omfatter accelererede forskningsresultater og mere effektivt samarbejde.

Detailvirksomheder kan dele indsigt med leverandører eller distributører ved hjælp af syntetiske data, der afspejler kundeadfærd, lagerniveauer eller andre nøglemålinger. Dog for at sikre det højeste niveau af databeskyttelse, følsomme kundedata og virksomhedshemmeligheder holdes fortrolige.

Syntho vandt 2023 Global SAS Hackathon for vores evne til at generere og dele anøjagtige syntetiske data effektivt og risikofrit. Vi syntetiserede patientdata for flere hospitaler med forskellige patientpopulationer for at demonstrere effektiviteten af ​​prædiktive modeller. Brug af de kombinerede syntetiske datasæt viste sig at være lige så nøjagtig som at bruge rigtige data.

Syntetiske testdata

Syntetiske testdata er kunstigt genererede data designet til at simulere data test miljøer til softwareudvikling. Ud over at reducere privatlivsrisici giver syntetiske testdata udviklere mulighed for nøje at vurdere applikationernes ydeevne, sikkerhed og funktionalitet på tværs af en række potentielle scenarier uden at påvirke det virkelige system.

Vores samarbejde med en af ​​de største hollandske banker showcases syntetiske data fordele til softwaretest. Test datagenerering med Syntho Engine resulterede i produktionslignende datasæt, der hjalp banken med at fremskynde softwareudvikling og fejldetektion, hvilket førte til hurtigere og mere sikre softwareudgivelser.

Teknikker til at generere tabellarisk syntetiske data involverer typisk statistisk modellering, maskinlæringsmodeller, eller generative modeller såsom generative adversarial networks (GAN'er) og variationelle autoencodere (VAE'er). Disse værktøjer til generering af syntetiske data analysere de mønstre, fordelinger og sammenhænge, ​​der er til stede i ægte datasæt og derefter generere nye datapunkter at ligner meget rigtige data men indeholder ingen reel information.

Typisk tabel tilfælde af brug af syntetiske data omfatte håndtering af privatlivsproblemer, øget datatilgængelighed og fremme af forskning og innovation i datadrevne applikationer. Det er dog vigtigt at sikre, at syntetiske data fanger nøjagtigt de underliggende mønstre og fordelinger af de originale data, der skal vedligeholdes dataværktøj og gyldighed for downstream-opgaver.

Synthos platform til generering af syntetiske data

Syntho leverer en smart platform til generering af syntetiske data, der giver organisationer mulighed for intelligent at transformere data til en konkurrencefordel. Ved at levere alle syntetiske datagenereringsmetoder på én platform tilbyder Syntho en omfattende løsning til organisationer, der sigter på at bruge data, der dækker:

  • AI-genererede syntetiske data som efterligner statistiske mønstre af originale data i syntetiske data med kraften fra kunstig intelligens.
  • Smart afidentifikation at beskytte følsomme data ved at fjerne eller ændre personligt identificerbare oplysninger (PII).
  • Test data management der gør det muligt for oprettelse, vedligeholdelse og kontrol af repræsentative testdata for ikke-produktionsmiljøer.

Vores platforme integreres i ethvert cloud- eller on-premises miljø. Desuden tager vi os af planlægningen og implementeringen. Vores team træner dine medarbejdere i at bruge Syntho motor effektivt, og vi vil yde kontinuerlig support efter implementering.

Du kan læse mere om Syntho's muligheder syntetiske data generationsplatform i Løsningssektionen på vores hjemmeside.

Hvad er der i fremtiden for syntetiske data?

Syntetisk datagenerering med generativ AI hjælper med at skabe og dele store mængder af relevante data, omgå problemer med formatkompatibilitet, lovgivningsmæssige begrænsninger og risikoen for databrud.

I modsætning til anonymisering, generere syntetiske data giver mulighed for at bevare strukturelle sammenhænge i dataene. Dette gør syntetiske data velegnede til avanceret analyse, forskning og udvikling, diversificering og test.

Brugen af ​​syntetiske datasæt vil kun udvides på tværs af brancher. Virksomheder er klar til oprette syntetiske data, udvide dets omfang til komplekst billeder, lyd og videoindhold. Virksomheder vil udvide brugen af maskinlæringsmodeller til mere avancerede simuleringer og applikationer.

Vil du lære flere praktiske anvendelser af syntetiske data? Du er velkommen til planlægge en demo på vores hjemmeside.

Om Syntho

Syntho giver en smart generering af syntetiske data platform, udnyttelse flere syntetiske dataformer og genereringsmetoder, der giver organisationer mulighed for intelligent at transformere data til en konkurrencefordel. Vores AI-genererede syntetiske data efterligner statistiske mønstre af originale data, hvilket sikrer nøjagtighed, privatliv og hastighed, som vurderet af eksterne eksperter som SAS. Med smarte afidentifikationsfunktioner og ensartet kortlægning er følsomme oplysninger beskyttet, samtidig med at den referentielle integritet bevares. Vores platform muliggør oprettelse, styring og kontrol af testdata for ikke-produktionsmiljøer ved at bruge regelbaserede syntetiske datagenereringsmetoder for målrettede scenarier. Derudover kan brugere generere syntetiske data programmatisk og opnå realistiske testdata at udvikle omfattende test- og udviklingsscenarier med lethed.

Om forfatteren

Foto headshot af CEO og medstifter af Syntho, Wim Kees Jannsen

Wim Kees Janssen

CEO & grundlægger

Syntho, opskaleringen, der forstyrrer dataindustrien med AI-genererede syntetiske data. Wim Kees har bevist med Syntho, at han kan låse op for privatlivsfølsomme data for at gøre data smartere og hurtigere tilgængelige, så organisationer kan realisere datadrevet innovation. Som et resultat vandt Wim Kees og Syntho den prestigefyldte Philips Innovation Award, vandt SAS globale hackathon inden for sundhedspleje og life science og er udvalgt som førende generativ AI Scale-Up af NVIDIA.

Udgivet
Februar 19, 2024