Hantlieding foar generaasje fan syntetyske gegevens: definysje, soarten en tapassingen

It is gjin geheime dat bedriuwen foar útdagings steane by it krijen en dielen fan gegevens fan hege kwaliteit. Syntetyske gegevens generaasje is in praktyske oplossing dy't helpt by it produsearjen fan grutte keunstmjittige datasets en testgegevens fan hege kwaliteit sûnder privacyrisiko's of burokrasy.

Syntetyske datasets kinne wurde makke mei in ferskaat oan metoaden, en biedt ferskate applikaasjes. As goed evaluearre, helpe syntetyske datasets generearre mei avansearre algoritmen organisaasjes har analytyk, ûndersyk en testen te fersnellen. Sa litte wy ris efkes neier sjen.

Dit artikel yntroduseart jo oan syntetyske gegevens, ynklusyf de haadtypen, ferskillen fan anonymisearre datasets, en regeljouwingsnuânses. Jo sille leare hoe't keunstmjittich oanmakke gegevens krityske gegevensproblemen oplosse en bepaalde risiko's minimalisearje. Wy sille ek de tapassingen oer de yndustry besprekke, begelaat troch foarbylden út ús case studies.

Table of Contents

Syntetyske gegevens: definysje en merkstatistiken

Syntetyske gegevens is keunstmjittich oanmakke ynformaasje sûnder fertroulike ynhâld, en it tsjinnet as alternatyf foar echte datasets. Data wittenskippers faak belje AI-generearre syntetyske gegevens in syntetyske gegevens twilling fanwege syn hege statistyske krektens yn it mimikjen fan echte gegevens.

Keunstmjittige datasets wurde makke mei help fan keunstmjittige yntelliginsje (AI) algoritmen en simulaasjes dy't de patroanen en korrelaasjes fan 'e orizjinele gegevens behâlde. Dizze gegevens kinne tekst, tabellen en ôfbyldings omfetsje. De algoritmen ferfange persoanlik identifisearre ynformaasje (PII) mei mock data.

Syntetyske Data Platform Syntho mei alle oplossingsgrafyk

Grand View Undersyk prognoazes dat de merk foar syntetyske gegevens generaasje mei Generative AI sil groeie fan $ 1.63 miljard yn 2022 nei sawat $ 13.5 miljard yn 2030 by in CAGR fan 35%. Neffens Gartner, 60% fan de gegevens brûkt foar AI yn 2024 sil syntetysk wêze - dat is 60 kear mear as yn 2021.

Syntetyske gegevensplatfoarms binne ek yn opkomst. Market Statesville ferwachtet de wrâldwide merk foar syntetyske dataplatfoarm om te groeien fan $218 miljoen yn 2022 nei $3.7 miljard yn 2033.

Wêrom binne keunstmjittige gegevens op 'e opkomst? Ien driuwende faktor is frijheid fan regeljouwing tafersjoch.

Regelje privacywetten AI-genereare syntetyske gegevens?

In protte FS en EU gegevens feiligens en privacy regeljouwing jilde foar identifisearre persoanlike gegevens. 

Mar dy regeljouwing jildt net foar syntetyske gegevens - syntetyske gegevens wurde fergelykber behannele as anonymisearre gegevens. Se foarmje de saneamde "kearn" fan oare juridyske regels.

Bygelyks, oerweging 26 fan 'e GDPR seit dat regels foar privacybeskerming allinich jilde foar gegevens dy't relatearje oan in identifisearbere persoan. As jo ​​syntetyske gegevens sa generearre wurde dat se net werom kinne wurde nei identifisearre persoanen, is it frijsteld fan regeljouwing tafersjoch. Aside fan regeljouwing tafersjoch, d'r binne oare obstakels foar it brûken fan echte gegevens dy't bedriuwen driuwe om syntetyske gegevens te generearjen.

Wichtige útdagings fan it brûken fan echte gegevens

In protte bedriuwen hawwe it dreech om relevante gegevens fan hege kwaliteit te finen en te brûken, foaral yn foldwaande hoemannichten foar AI-algoritme-training. Sels as se it fine, kin it dielen of it brûken fan de datasets útdaagjend wêze fanwege privacyrisiko's en kompatibiliteitsproblemen. Dizze paragraaf sketst de kaai útdaget syntetyske gegevens oplosse kinne.

Privacyrisiko's hinderje gegevensgebrûk en dielen

Regeljouwing foar gegevensfeiligens en privacy, lykas GDPR en HIPAA, yntrodusearje burokratyske obstakels foar dielen en gebrûk fan gegevens. Yn yndustry lykas sûnenssoarch kin sels it dielen fan PII tusken ôfdielingen binnen deselde organisaasje tiidslinend wêze fanwege bestjoerskontrôles. It dielen fan gegevens mei eksterne entiteiten is noch mear útdaagjend en hat mear feiligensrisiko's.

Undersyk fan Fortune Business Insights identifisearret tanimmende privacyrisiko's as in primêre katalysator foar it oannimmen fan syntetyske gegevenspraktiken. Hoe mear gegevens jo opslaan, hoe mear jo it risiko hawwe om privacy te kompromittearjen. Neffens de 2023 IBM Feiligens Kosten fan in Data Breach Report, de gemiddelde kosten foar gegevensbreuk yn 'e FS wiene $ 9.48 miljoen. Wrâldwiid wie de gemiddelde kosten $ 4.45 miljoen; bedriuwen mei minder as 500 arbeiders ferlieze $ 3.31 miljoen per ynbreuk. En dat hâldt gjin rekken mei reputaasjeskea.

Swierrichheden om gegevens fan hege kwaliteit te finen

In enkête fan 2022 fan 500 data professionals die bliken dat 77% fan yngenieurs, analysts en gegevens wittenskippers konfrontearre gegevens kwaliteit problemen. Neffens it rapport hinderet gegevenskwaliteit de finansjele prestaasjes en produktiviteit fan in bedriuw en makket it berikken fan in holistyske werjefte fan har tsjinsten amper te berikken.

Bedriuwen meie misse genôch gegevens fan spesifike demografy om harren masine learen (ML) modellen goed te trainen. En datasets befetsje faak inkonsistinsjes, ûnkrektens en ûntbrekkende wearden. As jo ​​traine jo AI platfoarms mei masine learmodellen op gegevens fan lege kwaliteit dy't demografysk ferskaat ûntbrekt, sil it ûnkrekte, foaroardielende foarsizzings meitsje. Lykas, lykas anonymisearre gegevensgeneraasje, kinne ûnferfine algoritmen ûnbetroubere keunstmjittige datasets produsearje dy't de útkomst fan gegevensanalyse beynfloedzje.

Upsampling mei syntetyske gegevens kin gegevenskwaliteit ferbetterje troch ûnbalâns yn datasets oan te pakken. Dit soarget derfoar dat ûnderfertsjintwurdige klassen mear evenredige fertsjintwurdiging krije en ferminderet bias. In mear robúste en represintative dataset leveret ferbettere analyseresultaten en modeltraining.

Dataset ynkompatibiliteiten

Datasets út ferskate oarsprong of binnen multi-tabel databases kinne ynkompatibiliteiten ynfiere, kompleksiteiten meitsje yn gegevensferwurking en -analyse en ynnovaasje hinderje.

Bygelyks, gegevensaggregaasje yn sûnenssoarch omfettet elektroanyske sûnensrecords (EHR's), wearables, proprietêre software, en ark fan tredden. Elke boarne kin ûnderskate gegevensformaten en ynformaasjesystemen brûke, wat liedt ta ferskillen yn gegevensformaten, struktueren of ienheden by yntegraasje. It gebrûk fan syntetyske gegevens kin dizze útdaging oanpakke, kompatibiliteit garandearje en tastean generearje gegevens yn it winske formaat.

Anonymisaasje is net genôch

Anonymisaasjetechniken binne net genôch om privacyrisiko's of problemen mei gegevenskwaliteit te oerwinnen. Boppedat, maskearjen of fuortsmite identifiers kinne strip fuort details nedich foar yngeande analyze yn grutte datasets.

Derneist kinne anonymisearre gegevens opnij identifisearre wurde en werom nei persoanen. Kweaze akteurs kinne avansearre analytiken brûke om op tiid basearre patroanen te ûntdekken dy't de anonimiteit fan skynber de-identifisearre gegevens kompromittearje. Syntetyske gegevens binne yn dat ferbân superieur oan anonymisearre gegevens.

Oars as anonymization, syntetyske gegevens feroaret net besteande datasets, mar generearret nije gegevens dy't liket op de skaaimerken en struktuer fan 'e Net bewurke gegevens, behâld fan syn nut. It is in folslein nije dataset dy't gjin persoanlik identifisearjende ynformaasje befettet.

Mar it is mear nuansearre as dat. Der binne ferskate soarten fan syntetyske gegevens generaasje metoaden.

Soarten generaasje fan syntetyske gegevens

Syntetyske gegevens skepping prosessen fariearje basearre op it type gegevens nedich. Syntetyske gegevenstypen omfetsje folslein AI-generearre, op regels basearre en spotgegevens - elk foldogge oan in oare need.

Folslein AI-generearre syntetyske gegevens

Dit type syntetyske gegevens is boud fanôf it begjin mei ML-algoritmen. De masine learmodel treinen oan werklike gegevens om te learen oer de struktuer, patroanen en relaasjes fan 'e gegevens. Generative AI brûkt dan dizze kennis om nije gegevens te generearjen dy't nau oerienkomme mei de statistyske eigenskippen fan it orizjineel (wer, wylst se net identifiseare wurde).

Dit type folslein syntetyske gegevens is nuttich foar training foar AI-model en is goed genôch om te brûken as binne it echte gegevens. It is foaral foardielich as jo jo datasets net kinne diele fanwegen kontraktuele privacyôfspraken. Lykwols, om syntetyske gegevens te generearjen, moatte jo in signifikant bedrach fan orizjinele gegevens as útgongspunt foar masine learmodel trening.

Syntetyske mock gegevens

Dit syntetyske gegevens type ferwiist nei keunstmjittich oanmakke gegevens dy't de struktuer en opmaak fan echte gegevens imitearje, mar reflektearje net needsaaklik aktuele ynformaasje. It helpt ûntwikkelders om te soargjen dat har applikaasjes ferskate ynputs en senario's kinne omgean sûnder echt, privee of gefoelige gegevens en, it wichtichste, sûnder te betrouwen op echte gegevens. Dizze praktyk is essensjeel foar it testen fan funksjonaliteit en it ferfine fan softwareapplikaasjes op in kontroleare en feilige manier.

Wannear't jo it brûke: om direkte identifiers (PII) te ferfangen of as jo op it stuit gjin gegevens hawwe en leaver gjin tiid en enerzjy ynvestearje yn it definiearjen fan regels. Untwikkelders brûke gewoanlik spotgegevens om de funksjonaliteit en it uterlik fan applikaasjes te evaluearjen yn 'e iere stadia fan ûntwikkeling, wêrtroch't se potinsjele problemen as ûntwerpflaters kinne identifisearje. 

Ek al mist mock gegevens de autentisiteit fan ynformaasje yn 'e echte wrâld, it bliuwt in weardefol ark foar it garandearjen fan it goede funksjonearjen en fisuele fertsjintwurdiging fan systemen foardat de werklike gegevensyntegraasje. 

Opmerking: Syntetyske bespotte gegevens wurde faak oantsjutten as 'falske gegevens,' hoewol wy riede net oan om dizze termen wikseljend te brûken, om't se kinne ferskille yn konnotaasjes. 

Syntetyske Mock Data

Regel-basearre syntetyske gegevens

Regel-basearre syntetyske gegevens is in nuttich ark foar it generearjen fan oanpaste datasets basearre op foarôf definieare regels, beheiningen en logika. Dizze metoade soarget foar fleksibiliteit troch brûkers te tastean gegevensútfier te konfigurearjen neffens spesifike saaklike behoeften, oanpasse parameters lykas minimum, maksimum en gemiddelde wearden. Yn tsjinstelling ta folslein AI-generearre gegevens, dy't oanpassing mist, biedt regel-basearre syntetyske gegevens in maatwurk oplossing foar it foldwaan oan ûnderskate operasjonele easken. Dit syntetyske gegevens generaasje proses bewiist benammen nuttich yn testen, ûntwikkeling en analytyk, wêr't krekte en kontroleare gegevensgeneraasje essensjeel is.

Elke metoade foar syntetyske gegevensgeneraasje hat ferskate applikaasjes. Syntho's platfoarm stiet op troch syntetyske gegevenstwillingen te meitsjen mei in bytsje oant gjin ynspanning fan jo kant. Jo krije statistysk akkuraat, syntetyske gegevens fan hege kwaliteit foar jo behoeften dy't frij is fan oerienkomsten.

Tabel syntetyske gegevens

de term tabellar syntetyske gegevens ferwiist nei it meitsjen fan keunstmjittige gegevens subsets dy't de struktuer en statistyske eigenskippen fan 'e echte wrâld mimike tabelgegevens, lykas gegevens opslein yn tabellen of spreadsheets. Dit syntetyske gegevens wurdt makke mei help fan syntetyske data generaasje algoritmen en techniken ûntwurpen foar in replicate de skaaimerken fan 'e boarne gegevens wylst it garandearjen dat fertroulik of gefoelige gegevens wurdt net bekend makke.

Technieken om te generearjen tabellarje syntetyske gegevens typysk omfetsje statistyske modellering, masine learmodellen, of generative modellen lykas generative adversarial netwurken (GANs) en fariaasje autoencoders (VAEs). Dizze ark foar syntetyske gegevensgeneraasje analysearje de patroanen, distribúsjes en korrelaasjes oanwêzich yn 'e echte dataset en generearje dan nij gegevens punten dat nau lykje op echte gegevens mar befetsje gjin echte ynformaasje.

Typyske tabel gefallen fan gebrûk fan syntetyske gegevens omfetsje it oanpakken fan privacysoarch, it fergrutsjen fan beskikberens fan gegevens, en it fasilitearjen fan ûndersyk en ynnovaasje yn data-oandreaune applikaasjes. It is lykwols essensjeel om te soargjen dat de syntetyske gegevens vangt sekuer de ûnderlizzende patroanen en distribúsjes fan 'e orizjinele gegevens om te ûnderhâlden data utility en jildichheid foar downstream taken.

regel-basearre syntetyske gegevens grafyk

De meast populêre applikaasjes foar syntetyske gegevens

Keunstmjittich oanmakke gegevens iepenje ynnovaasjemooglikheden foar sûnenssoarch, detailhannel, produksje, finânsjes en oare yndustry. De primêre gebrûk fan gefallen befetsje gegevens upsampling, analytics, testen, en dielen.

Upsampling om datasets te ferbetterjen

Upsampling betsjut it generearjen fan gruttere datasets fan lytsere foar skaalfergrutting en diversifikaasje. Dizze metoade wurdt tapast as echte gegevens min, ûnbalâns of ûnfolslein binne.

Beskôgje in pear foarbylden. Foar finansjele ynstellingen kinne ûntwikkelders de krektens fan modellen foar fraudedeteksje ferbetterje troch seldsume waarnimmings en aktiviteitspatroanen te sammeljen yn 'e finansjele gegevens. Likemin kin in marketingburo upsample om gegevens te fergrutsjen dy't relatearre binne oan ûnderfertsjintwurdige groepen, en ferbetterje de krektens fan segmentaasje.

Avansearre analytyk mei AI-generearre gegevens

Bedriuwen kinne AI-genereare syntetyske gegevens fan hege kwaliteit brûke foar gegevensmodellering, saaklike analytyk en klinysk ûndersyk. Synthesizing gegevens blykt in libbensfetber alternatyf te wêzen as it oanskaffen fan echte datasets te djoer of tiidslinend is.

Syntetyske gegevens stelt ûndersikers yn steat om yngeande analyses út te fieren sûnder de fertroulikens fan pasjinten te kompromittearjen. Data wittenskippers en ûndersikers krije tagong ta pasjintgegevens, ynformaasje oer klinyske betingsten en behannelingdetails, en krije ynsjoch dy't folle mear tiidslinend soe wêze mei echte gegevens. Boppedat kinne fabrikanten gegevens frij diele mei leveransiers, manipulearre GPS- en lokaasjegegevens opnimme om algoritmen te meitsjen foar prestaasjestesten of foarsizzend ûnderhâld te ferbetterjen.

Lykwols, syntetyske gegevens evaluaasje is kritysk. De útfier fan 'e Syntho Engine wurdt falidearre troch in ynterne kwaliteitsfersekeringteam en eksterne saakkundigen fan it SAS Ynstitút. Yn in stúdzje fan foarsizzend modeling trainden wy fjouwer masine learmodellen op echte, anonymisearre en syntetyske gegevens. Resultaten lieten sjen dat modellen oplaat op ús syntetyske datasets itselde nivo fan krektens hienen as dy oplaat op echte datasets, wylst anonymisearre gegevens it nut fan 'e modellen fermindere.

Dieling fan eksterne en ynterne gegevens

Syntetyske gegevens ferienfâldigje it dielen fan gegevens binnen en oer organisaasjes. Do kinst brûk syntetyske gegevens nei ynformaasje útwikselje sûnder risiko ynbreuk op privacy of net-neilibjen fan regeljouwing. De foardielen fan syntetyske gegevens omfetsje fersnelde ûndersyksresultaten en effektiver gearwurking.

Retailbedriuwen kinne ynsjoch diele mei leveransiers of distributeurs mei syntetyske gegevens dy't klantgedrach, ynventarisnivo's of oare wichtige metriken reflektearje. Lykwols, te garandearjen it heechste nivo fan gegevens privacy, gefoelige klantgegevens en bedriuwsgeheimen wurde fertroulik hâlden.

Syntho wûn de 2023 Global SAS Hackathon foar ús fermogen om te generearjen en te dielen akrekte syntetyske gegevens effektyf en risiko-frij. Wy synthesisearre pasjintgegevens foar meardere sikehûzen mei ferskate pasjintpopulaasjes om de effektiviteit fan foarsizzende modellen te demonstrearjen. It brûken fan de kombinearre syntetyske datasets waard oantoand krekt sa akkuraat te wêzen as it brûken fan echte gegevens.

Syntetyske testgegevens

Syntetyske testgegevens binne keunstmjittich oanmakke gegevens ûntworpen om te simulearjen gegevens testen omjouwings foar softwareûntwikkeling. Njonken it ferminderjen fan privacyrisiko's kinne syntetyske testgegevens ûntwikkelders yn steat om de prestaasjes, feiligens en funksjonaliteit fan applikaasjes rigoureus te beoardieljen oer in ferskaat oan potensjele senario's sûnder it echte systeem te beynfloedzjen.

Us gearwurking mei ien fan de grutste Nederlânske banken útstalkast syntetyske gegevens foardielen foar software testen. Test gegevens generaasje mei de Syntho Engine resultearre yn produksje-like datasets dy't de bank holpen softwareûntwikkeling en brekdeteksje te fersnellen, wat liedt ta flugger en feiliger softwarereleases.

Technieken om te generearjen tabellarje syntetyske gegevens typysk omfetsje statistyske modellering, masine learmodellen, of generative modellen lykas generative adversarial netwurken (GANs) en fariaasje autoencoders (VAEs). Dizze ark foar syntetyske gegevensgeneraasje analysearje de patroanen, distribúsjes en korrelaasjes oanwêzich yn 'e echte dataset en generearje dan nij gegevens punten dat nau lykje op echte gegevens mar befetsje gjin echte ynformaasje.

Typyske tabel gefallen fan gebrûk fan syntetyske gegevens omfetsje it oanpakken fan privacysoarch, it fergrutsjen fan beskikberens fan gegevens, en it fasilitearjen fan ûndersyk en ynnovaasje yn data-oandreaune applikaasjes. It is lykwols essensjeel om te soargjen dat de syntetyske gegevens vangt sekuer de ûnderlizzende patroanen en distribúsjes fan 'e orizjinele gegevens om te ûnderhâlden data utility en jildichheid foar downstream taken.

Syntho's syntetyske gegevensgeneraasjeplatfoarm

Syntho leveret in tûk platfoarm foar generaasje fan syntetyske gegevens, dy't organisaasjes machtigje om gegevens yntelligint te transformearjen yn in kompetitive foardiel. Troch alle metoaden foar generaasje fan syntetyske gegevens yn ien platfoarm te leverjen, biedt Syntho in wiidweidige oplossing foar organisaasjes dy't fan doel binne gegevens te brûken dy't dekke:

  • AI-generearre syntetyske gegevens dy't statistyske patroanen fan orizjinele gegevens imiteart yn syntetyske gegevens mei de krêft fan keunstmjittige yntelliginsje.
  • Smart de-identifikaasje beskermje gefoelige gegevens troch it fuortsmiten of wizigjen fan persoanlik identifisearbere ynformaasje (PII).
  • Test data management dat stelt de oanmeitsjen, ûnderhâld en kontrôle fan represintative testgegevens foar net-produksje omjouwings.

Us platfoarms yntegrearje yn elke wolk of on-premise omjouwing. Boppedat soargje wy foar de planning en ynset. Us team sil jo meiwurkers traine om te brûken Syntho Engine effektyf, en wy sille foarsjen kontinu post-ynset stipe.

Jo kinne mear lêze oer de mooglikheden fan Syntho's syntetyske gegevens generaasje platfoarm yn 'e Oplossingsdiel fan ús webside.

Wat is yn 'e takomst foar syntetyske gegevens?

Syntetyske gegevensgeneraasje mei generative AI helpt te meitsjen en te dielen hege folumes fan relevante gegevens, it omgean fan opmaakkompatibiliteitsproblemen, regeljouwingsbeheiningen en it risiko fan gegevensbrekken.

Oars as anonymisaasje, it generearjen fan syntetyske gegevens soarget foar it behâld fan strukturele relaasjes yn 'e gegevens. Dit makket syntetyske gegevens geskikt foar avansearre analytyk, ûndersyk en ûntwikkeling, diversifikaasje en testen.

It gebrûk fan syntetyske datasets sil allinich útwreidzje oer yndustry. Bedriuwen binne klear foar meitsje syntetyske gegevens, it útwreidzjen fan syn omfang nei komplekse ôfbyldings, audio, en fideo ynhâld. Bedriuwen sille útwreidzje it brûken fan masine learmodellen ta mear avansearre simulaasjes en oanfraach.

Wolle jo leare mear praktyske tapassingen fan syntetyske gegevens? Fiel dy frij om planne in demo op Ús webside.

Oer Syntho

Syntho jout in smart syntetyske gegevens generaasje platform, leverage meardere syntetyske gegevensfoarmen en generaasjemetoaden, dy't organisaasjes machtigje om gegevens yntelligint te transformearjen yn in kompetitive foardiel. Us AI-generearre syntetyske gegevens mimike statistyske patroanen fan orizjinele gegevens, soargje foar krektens, privacy en snelheid, lykas beoardiele troch eksterne saakkundigen lykas SAS. Mei tûke de-identifikaasjefunksjes en konsekwinte mapping, wurdt gefoelige ynformaasje beskerme mei it behâld fan referinsjele yntegriteit. Us platfoarm makket it oanmeitsjen, behearen en kontrolearjen fan testgegevens foar net-produksje-omjouwings mooglik, mei gebrûk fan regel-basearre syntetyske gegevens generaasje metoaden foar rjochte senario's. Derneist kinne brûkers generearje syntetyske gegevens programmatysk en krije realistyske testgegevens om wiidweidige test- en ûntwikkelingssenario's mei gemak te ûntwikkeljen.

Oer de Skriuwer

Foto headshot of CEO and co-founder of Syntho, Wim Kees Jannsen

Wim Kees Janssen

CEO & oprjochter

Syntho, de skaalfergrutting dy't de gegevensyndustry fersteurt mei AI-genereare syntetyske gegevens. Wim Kees hat mei Syntho bewiisd dat er privacygefoelige gegevens ûntsluten kin om gegevens tûker en flugger beskikber te meitsjen sadat organisaasjes gegevensoandreaune ynnovaasje realisearje kinne. Dêrtroch wûnen Wim Kees en Syntho de prestisjeuze Philips Innovation Award, wûnen de SAS wrâldwide hackathon yn sûnenssoarch en libbenswittenskip, en wurde se selektearre as liedende generative AI Scale-Up troch NVIDIA.

Published
Febrewaris 19, 2024