Veiledning for generering av syntetiske data: Definisjon, typer og applikasjoner

Det er ingen hemmelighet at bedrifter står overfor utfordringer med å skaffe og dele data av høy kvalitet. Syntetisk datagenerering er en praktisk løsning som bidrar til å produsere store kunstige datasett og testdata av høy kvalitet uten personvernrisiko eller byråkrati.

Syntetiske datasett kan lages ved hjelp av en rekke metoder, og tilbyr ulike applikasjoner. Når de er riktig evaluert, hjelper syntetiske datasett generert ved hjelp av avanserte algoritmer organisasjoner med raskere analyse, forskning og testing. Så la oss ta en nærmere titt.

Denne artikkelen introduserer deg til syntetiske data, inkludert hovedtyper, forskjeller fra anonymiserte datasett og regulatoriske nyanser. Du vil lære hvordan kunstig genererte data løser kritiske dataproblemer og minimerer visse risikoer. Vi vil også diskutere applikasjonene på tvers av bransjer, ledsaget av eksempler fra casestudiene våre.

Innholdsfortegnelse

Syntetiske data: definisjon og markedsstatistikk

Syntetiske data er kunstig generert informasjon uten konfidensielt innhold, og den fungerer som et alternativ til ekte datasett. Dataforskere ringer ofte AI-genererte syntetiske data en syntetisk datatvilling på grunn av sin høye statistiske nøyaktighet i å etterligne ekte data.

Kunstige datasett lages ved hjelp av kunstig intelligens (AI) algoritmer og simuleringer som opprettholder mønstrene og korrelasjonene til de originale dataene. Disse dataene kan inkludere tekst, tabeller og bilder. Algoritmene erstatter personlig identifiserbar informasjon (PII) med falske data.

Syntetisk dataplattform Syntho med graf for alle løsninger

Grand View Research-prognoser som markedet for syntetisk datagenerering med Generativ AI vil vokse fra 1.63 milliarder dollar i 2022 til rundt 13.5 milliarder dollar innen 2030 ved en CAGR på 35 %. Ifølge Gartner, 60 % av dataene som brukes til kunstig intelligens i 2024 vil være syntetiske – Det er 60 ganger flere enn i 2021.

Syntetiske dataplattformer er også på vei oppover. Market Statesville forventer det globale markedet for syntetiske dataplattformer til å vokse fra $218 millioner i 2022 til $3.7 milliarder innen 2033.

Hvorfor øker kunstige data? En drivende faktor er frihet fra regulatorisk tilsyn.

Regler personvernlovgivningen AI-genererte syntetiske data?

Mange USA og EU datasikkerhet og personvern forskrifter gjelder identifiserbare personopplysninger. 

Men disse reglene gjelder ikke syntetiske data — syntetiske data behandles på samme måte som anonymiserte data. De utgjør den såkalte «kjernen» i andre rettsregler.

For eksempel, punkt 26 i GDPR sier at personvernregler kun gjelder for data som er knyttet til en identifiserbar person. Hvis de syntetiske dataene dine genereres slik at de ikke kan spores tilbake til identifiserbare personer, er de unntatt fra regulatorisk tilsyn. Bortsett fra regulatorisk tilsyn, er det andre hindringer for å bruke ekte data som driver virksomheter til å generere syntetiske data.

Sentrale utfordringer ved bruk av ekte data

Mange bedrifter har vanskelig for å finne og bruke relevante data av høy kvalitet, spesielt i tilstrekkelige mengder for AI-algoritmetrening. Selv når de finner det, kan deling eller bruk av datasettene være utfordrende på grunn av personvernrisiko og kompatibilitetsproblemer. Denne delen skisserer nøkkelen utfordrer syntetiske data kan løse.

Personvernrisiko hindrer databruk og -deling

Datasikkerhet og personvernforskrifter, som GDPR og HIPAA, introduserer byråkratiske hindringer for datadeling og bruk. I bransjer som helsevesenet kan selv deling av PII mellom avdelinger i samme organisasjon være tidkrevende på grunn av styringskontroller. Å dele data med eksterne enheter er enda mer utfordrende og medfører flere sikkerhetsrisikoer.

forskning fra Fortune Business Insights identifiserer økende personvernrisiko som en primær katalysator for å ta i bruk syntetisk datapraksis. Jo mer data du lagrer, jo mer risikerer du å kompromittere personvernet. I følge 2023 IBMs sikkerhetskostnad for en datainnbruddsrapport, var den gjennomsnittlige kostnaden for datainnbrudd i USA $9.48 millioner. På verdensbasis var gjennomsnittskostnaden 4.45 millioner dollar; selskaper med mindre enn 500 arbeidere taper 3.31 millioner dollar per brudd. Og det tar ikke hensyn til skade på omdømmet.

Vansker med å finne data av høy kvalitet

En 2022-undersøkelse av 500 datafagfolk avslørte at 77 % av ingeniører, analytikere og dataforskere sto overfor problemer med datakvalitet. I følge rapporten hindrer datakvalitet et selskaps økonomiske ytelse og produktivitet og gjør det vanskelig å oppnå et helhetlig syn på tjenestene.

Bedrifter kan mangle nok data fra spesifikk demografi til å trene sine maskinlæringsmodeller (ML) riktig. Og datasett inneholder ofte inkonsekvenser, unøyaktigheter og manglende verdier. Hvis du trener AI-plattformene dine med maskinlæringsmodeller på data av lav kvalitet som mangler demografisk mangfold, vil det gi unøyaktige, partiske spådommer. På samme måte, som anonymisert datagenerering, kan uraffinerte algoritmer produsere upålitelige kunstige datasett som påvirker resultatet av dataanalyse.

Oppsampling med syntetiske data kan forbedre datakvaliteten ved å adressere ubalanser i datasett. Dette sikrer at underrepresenterte klasser får mer proporsjonal representasjon og reduserer skjevhet. Et mer robust og representativt datasett gir forbedrede analyseresultater og modelltrening.

Datasettinkompatibilitet

Datasett hentet fra ulike opprinnelser eller i multi-tabell databaser kan introdusere inkompatibiliteter, skape kompleksitet i databehandling og analyse og hindre innovasjon.

For eksempel involverer dataaggregering i helsevesenet elektroniske helsejournaler (EPJ), wearables, proprietær programvare og tredjepartsverktøy. Hver kilde kan bruke forskjellige dataformater og informasjonssystemer, noe som fører til ulikheter i dataformater, strukturer eller enheter under integrasjon. Bruken av syntetiske data kan løse denne utfordringen, sikre kompatibilitet og tillate generere data i ønsket format.

Anonymisering er utilstrekkelig

Anonymiseringsteknikker er ikke nok til å overvinne personvernrisiko eller datakvalitetsproblemer. Dessuten, maskering eller fjerning av identifikatorer kan fjerne detaljer som er nødvendige for dybdeanalyse i store datasett.

Dessuten kan anonymiserte data identifiseres på nytt og spores tilbake til enkeltpersoner. Ondsinnede aktører kan bruke avansert analyse for å avdekke tidsbaserte mønstre som kompromitterer anonymiteten til tilsynelatende avidentifiserte data. Syntetiske data er overlegne anonymiserte data i den forbindelse.

I motsetning til anonymisering, syntetiske data endrer ikke eksisterende datasett, men genererer nye data som ligner egenskapene og strukturen til rådata, som bevarer nytten. Det er et helt nytt datasett som ikke inneholder noen personlig identifiserbar informasjon.

Men det er mer nyansert enn som så. Det finnes flere typer metoder for generering av syntetiske data.

Typer syntetisk datagenerering

Syntetisk dataoppretting prosessene varierer basert på typen data som kreves. Syntetiske datatyper inkluderer fullstendig AI-genererte, regelbaserte og falske data – hver møter ulike behov.

Fullstendig AI-genererte syntetiske data

Denne typen syntetiske data er bygget fra bunnen av ved hjelp av ML-algoritmer. De maskinlæringsmodell tog på faktiske data for å lære om dataenes struktur, mønstre og relasjoner. Generativ AI bruker deretter denne kunnskapen til å generere nye data som ligner originalens statistiske egenskaper (igjen, samtidig som de gjør dem uidentifiserbare).

Denne typen helsyntetiske data er nyttig for AI-modelltrening og er god nok til å brukes som om det er ekte data. Det er spesielt gunstig når du ikke kan dele datasettene dine på grunn av kontraktsfestede personvernavtaler. For å generere syntetiske data trenger du imidlertid en betydelig mengde originaldata som utgangspunkt for maskinlæringsmodell trening.

Syntetiske falske data

Dette syntetiske data type refererer til kunstig opprettede data som imiterer strukturen og formatet til ekte data, men som ikke nødvendigvis gjenspeiler faktisk informasjon. Det hjelper utviklere med å sikre at applikasjonene deres kan håndtere ulike input og scenarier uten å bruke ekte, private eller sensitive data og viktigst av alt, uten å stole på data fra den virkelige verden. Denne praksisen er avgjørende for å teste funksjonalitet og foredle programvareapplikasjoner på en kontrollert og sikker måte.

Når du skal bruke det: For å erstatte direkte identifikatorer (PII) eller når du for øyeblikket mangler data og foretrekker å ikke investere tid og energi i å definere regler. Utviklere bruker ofte falske data for å evaluere funksjonaliteten og utseendet til applikasjoner i de tidlige stadiene av utviklingen, slik at de kan identifisere potensielle problemer eller designfeil. 

Selv om falske data mangler autentisiteten til informasjon fra den virkelige verden, er det fortsatt et verdifullt verktøy for å sikre at systemene fungerer som de skal og visuell representasjon før faktisk dataintegrasjon. 

Merk: Syntetisk hånet data blir ofte referert til som 'falske data,' selv om vi ikke anbefaler å bruke disse begrepene om hverandre, da de kan ha forskjellige konnotasjoner. 

Syntetiske mock-data

Regelbasert syntetiske data

Regelbasert syntetiske data er et nyttig verktøy for å generere tilpassede datasett basert på forhåndsdefinerte regler, begrensninger og logikk. Denne metoden gir fleksibilitet ved å tillate brukere å konfigurere datautdata i henhold til spesifikke forretningsbehov, ved å justere parametere som minimums-, maksimums- og gjennomsnittsverdier. I motsetning til fullstendig AI-genererte data, som mangler tilpasning, tilbyr regelbaserte syntetiske data en skreddersydd løsning for å møte distinkte driftskrav. Dette syntetisk datagenereringsprosess viser seg spesielt nyttig i testing, utvikling og analyse, der presis og kontrollert datagenerering er avgjørende.

Hver syntetisk datagenereringsmetode har forskjellige applikasjoner. Synthos plattform skiller seg ut ved å lage syntetiske datatvillinger med liten eller ingen innsats fra din side. Du får statistisk nøyaktig, syntetiske data av høy kvalitet for dine behov som er fri for overholdelseskostnader.

Syntetiske data i tabellform

Begrepet syntetiske data i tabellform refererer til lage kunstige data undergrupper som etterligner strukturen og de statistiske egenskapene til den virkelige verden tabelldata, for eksempel data lagret i tabeller eller regneark. Dette syntetiske data er opprettet ved hjelp av algoritmer for generering av syntetiske data og teknikker designet for å gjenskape egenskapene til kildedata samtidig som du sikrer at konfidensiell eller sensitive data er ikke avslørt.

Teknikker for å generere tabell syntetiske data involverer vanligvis statistisk modellering, maskinlæringsmodeller, eller generative modeller som generative motstridende nettverk (GAN) og variasjonsautokodere (VAE). Disse verktøy for generering av syntetiske data analysere mønstrene, distribusjonene og korrelasjonene som er tilstede i ekte datasett og generer deretter nye datapunkter Det ligner veldig på virkelige data men inneholder ingen reell informasjon.

Typisk tabell brukstilfeller for syntetiske data inkludere å ta opp personvernhensyn, øke datatilgjengeligheten og legge til rette for forskning og innovasjon i datadrevne applikasjoner. Det er imidlertid viktig å sikre at syntetiske data fanger nøyaktig de underliggende mønstrene og distribusjonene til de originale dataene som skal vedlikeholdes dataverktøy og gyldighet for nedstrømsoppgaver.

regelbasert syntetisk datagraf

Mest populære syntetiske dataapplikasjoner

Kunstig genererte data åpner innovasjonsmuligheter for helsevesen, detaljhandel, produksjon, finans og andre næringer. Den primære bruk saker inkludere dataupsampling, analyser, testing og deling.

Oppsampling for å forbedre datasett

Oppsampling betyr å generere større datasett fra mindre for skalering og diversifisering. Denne metoden brukes når reelle data er knappe, ubalanserte eller ufullstendige.

Tenk på noen få eksempler. For finansinstitusjoner kan utviklere forbedre nøyaktigheten av svindeldeteksjonsmodeller ved å oppsample sjeldne observasjoner og aktivitetsmønstre i Økonomiske data. Tilsvarende kan et markedsføringsbyrå oppsample for å utvide data relatert til underrepresenterte grupper, noe som forbedrer segmenteringsnøyaktigheten.

Avansert analyse med AI-genererte data

Bedrifter kan utnytte AI-genererte syntetiske data av høy kvalitet for datamodellering, forretningsanalyse og klinisk forskning. Syntetisere data viser seg å være et levedyktig alternativ når det enten er for dyrt eller tidkrevende å anskaffe ekte datasett.

Syntetiske data gir forskere mulighet til å gjennomføre dybdeanalyser uten å gå på bekostning av pasientens konfidensialitet. Data forskere og forskere får tilgang til pasientdata, informasjon om kliniske tilstander og behandlingsdetaljer, og får innsikt som vil være betydelig mer tidkrevende med ekte data. Dessuten kan produsenter fritt dele data med leverandører, ved å inkludere manipulert GPS og plasseringsdata for å lage algoritmer for ytelsestesting eller forbedre prediktivt vedlikehold.

Imidlertid syntetisk dataevaluering er kritisk. Syntho Engines utgang er validert av et internt kvalitetssikringsteam og eksterne eksperter fra SAS Institute. I en studie av prediktiv modellering trente vi fire maskinlæringsmodeller på ekte, anonymiserte og syntetiske data. Resultatene viste at modeller trent på våre syntetiske datasett hadde samme nivå av nøyaktighet som de som ble trent på ekte datasett, mens anonymiserte data reduserte modellenes nytteverdi.

Ekstern og intern datadeling

Syntetiske data forenkler datadeling innen og på tvers av organisasjoner. Du kan bruke syntetiske data til utveksle informasjon uten å risikere brudd på personvernet eller manglende overholdelse av forskrifter. Fordelene med syntetiske data inkluderer akselererte forskningsresultater og mer effektivt samarbeid.

Detaljhandelsselskaper kan dele innsikt med leverandører eller distributører ved å bruke syntetiske data som gjenspeiler kundeatferd, lagernivåer eller andre nøkkeltall. Men for å sikre det høyeste nivået av personvern, sensitiv kundedata og bedriftshemmeligheter holdes konfidensielt.

Syntho vant 2023 Global SAS Hackathon for vår evne til å generere og dele anøyaktige syntetiske data effektivt og risikofritt. Vi syntetiserte pasientdata for flere sykehus med forskjellige pasientpopulasjoner for å demonstrere effektiviteten til prediktive modeller. Å bruke de kombinerte syntetiske datasettene ble vist å være like nøyaktig som å bruke ekte data.

Syntetiske testdata

Syntetiske testdata er kunstig genererte data designet for å simulere datatesting miljøer for programvareutvikling. I tillegg til å redusere personvernrisiko, gjør syntetiske testdata utviklere i stand til å nøye vurdere applikasjoners ytelse, sikkerhet og funksjonalitet på tvers av en rekke potensielle scenarier uten å påvirke det virkelige systemet.

Vårt samarbeid med en av de største nederlandske bankene showcases syntetiske data fordeler for programvaretesting. Test datagenerering med Syntho Engine resulterte i produksjonslignende datasett som hjalp banken med å øke hastigheten på programvareutvikling og feildeteksjon, noe som førte til raskere og sikrere programvareutgivelser.

Teknikker for å generere tabell syntetiske data involverer vanligvis statistisk modellering, maskinlæringsmodeller, eller generative modeller som generative motstridende nettverk (GAN) og variasjonsautokodere (VAE). Disse verktøy for generering av syntetiske data analysere mønstrene, distribusjonene og korrelasjonene som er tilstede i ekte datasett og generer deretter nye datapunkter Det ligner veldig på virkelige data men inneholder ingen reell informasjon.

Typisk tabell brukstilfeller for syntetiske data inkludere å ta opp personvernhensyn, øke datatilgjengeligheten og legge til rette for forskning og innovasjon i datadrevne applikasjoner. Det er imidlertid viktig å sikre at syntetiske data fanger nøyaktig de underliggende mønstrene og distribusjonene til de originale dataene som skal vedlikeholdes dataverktøy og gyldighet for nedstrømsoppgaver.

Synthos plattform for generering av syntetiske data

Syntho tilbyr en smart plattform for generering av syntetiske data, som gir organisasjoner mulighet til å transformere data intelligent til et konkurransefortrinn. Ved å tilby alle syntetiske datagenereringsmetoder på én plattform, tilbyr Syntho en omfattende løsning for organisasjoner som tar sikte på å bruke data som dekker:

  • AI-genererte syntetiske data som etterligner statistiske mønstre av originale data i syntetiske data med kraften til kunstig intelligens.
  • Smart avidentifikasjon å beskytte sensitive data ved å fjerne eller endre personlig identifiserbar informasjon (PII).
  • Test data management som gjør det mulig for opprettelse, vedlikehold og kontroll av representative testdata for ikke-produksjonsmiljøer.

Våre plattformer integreres i alle sky- eller lokale miljøer. I tillegg tar vi oss av planlegging og utplassering. Teamet vårt vil lære opp dine ansatte i bruk Syntho-motor effektivt, og vi vil tilby kontinuerlig støtte etter distribusjon.

Du kan lese mer om funksjonene til Synthos syntetiske data generasjonsplattform i Løsningsdelen av nettstedet vårt.

Hva skjer i fremtiden for syntetiske data?

Syntetisk datagenerering med generativ AI hjelper med å skape og dele høye volumer av relevante data, omgå problemer med formatkompatibilitet, regulatoriske begrensninger og risikoen for datainnbrudd.

I motsetning til anonymisering, generere syntetiske data gir mulighet for å bevare strukturelle relasjoner i dataene. Dette gjør syntetiske data egnet for avansert analyse, forskning og utvikling, diversifisering og testing.

Bruken av syntetiske datasett vil bare utvides på tvers av bransjer. Bedrifter er klar til lage syntetiske data, utvider omfanget til komplekse bilder, lyd og videoinnhold. Bedrifter vil utvide bruken av maskinlæringsmodeller til mer avanserte simuleringer og søknader.

Ønsker du å lære mer praktiske anvendelser av syntetiske data? Føl deg fri til å planlegg en demo vår hjemmeside.

Om Syntho

Syntho gir en smart generering av syntetiske data plattform, utnytte flere syntetiske dataformer og genereringsmetoder, som gir organisasjoner mulighet til å transformere data intelligent til et konkurransefortrinn. Våre AI-genererte syntetiske data etterligner statistiske mønstre av originale data, og sikrer nøyaktighet, personvern og hastighet, vurdert av eksterne eksperter som SAS. Med smarte avidentifikasjonsfunksjoner og konsistent kartlegging, er sensitiv informasjon beskyttet samtidig som referanseintegriteten bevares. Plattformen vår muliggjør opprettelse, administrasjon og kontroll av testdata for ikke-produksjonsmiljøer, ved bruk av regelbasert metoder for generering av syntetiske data for målrettede scenarier. I tillegg kan brukere generere syntetiske data programmatisk og få realistiske testdata å utvikle omfattende testing og utviklingsscenarier med letthet.

Om forfatteren

Fotohodebilde av administrerende direktør og medgründer av Syntho, Wim Kees Jannsen

Wim Kees Janssen

Administrerende direktør og grunnlegger

Syntho, oppskaleringen som forstyrrer dataindustrien med AI-genererte syntetiske data. Wim Kees har bevist med Syntho at han kan låse opp personvernsensitive data for å gjøre data smartere og raskere tilgjengelig slik at organisasjoner kan realisere datadrevet innovasjon. Som et resultat vant Wim Kees og Syntho den prestisjetunge Philips Innovation Award, vant SAS globale hackathon innen helsevesen og biovitenskap, og er valgt som ledende generativ AI Scale-Up av NVIDIA.

Publisert
Februar 19, 2024