Sünteetiliste andmete genereerimise juhend: määratlus, tüübid ja rakendused

Pole saladus, et ettevõtted seisavad silmitsi väljakutsetega kvaliteetsete andmete hankimisel ja jagamisel. Sünteetiliste andmete genereerimine on praktiline lahendus, mis aitab toota suuri tehisandmekogumeid ja kvaliteetseid testandmeid ilma privaatsusriskide ja bürokraatiata.

Sünteetilisi andmekogumeid saab luua erinevate meetodite abil, mis pakuvad erinevaid rakendusi. Nõuetekohase hindamise korral aitavad täiustatud algoritmide abil loodud sünteetilised andmekogumid organisatsioonidel kiirendada oma analüüsi, uurimistööd ja testimist. Nii et vaatame lähemalt.

See artikkel tutvustab teile sünteetilisi andmeid, sealhulgas peamisi tüüpe, erinevusi anonüümsetest andmekogumitest ja regulatiivseid nüansse. Saate teada, kuidas kunstlikult loodud andmed lahendavad olulisi andmeprobleeme ja minimeerivad teatud riske. Arutame ka selle rakendusi erinevates tööstusharudes koos näidetega meie juhtumiuuringutest.

Sisukord

Sünteetilised andmed: määratlus ja turustatistika

Sünteetilised andmed on kunstlikult loodud teave, millel puudub konfidentsiaalne sisu, ja see toimib alternatiivina tõelistele andmekogumitele. Andmeteadlased helistavad sageli AI-ga loodud sünteetilised andmed sünteetiline andmekaksik, kuna sellel on suur statistiline täpsus tegelike andmete jäljendamisel.

Kunstlikud andmekogumid luuakse tehisintellekti (AI) algoritmide ja simulatsioonide abil, mis säilitavad algandmete mustrid ja korrelatsioonid. Need andmed võivad sisaldada teksti, tabeleid ja pilte. Algoritmid asendavad isikut tuvastava teabe (PII) teabega matkivad andmed.

Synthetic Data Platform Syntho koos kõigi lahenduste graafikuga

Grand View Researchi prognoosid et turg sünteetiliste andmete genereerimine Generative AI-ga kasvab 1.63 miljardilt dollarilt 2022. aastal umbes 13.5 miljardi dollarini 2030. aastaks CAGR-i 35% juures. Gartneri sõnul 60% 2024. aastal tehisintellekti jaoks kasutatavatest andmetest on sünteetilised — see on 60 korda rohkem kui 2021. aastal.

Ka sünteetilised andmeplatvormid on tõusuteel. Turg Statesville loodab ülemaailmne sünteetiliste andmeplatvormide turg kasvab 218 miljonilt dollarilt 2022. aastal 3.7 miljardi dollarini 2033. aastaks.

Miks kunstlikud andmed kasvavad? Üks edasiviiv tegur on vabadus regulatiivsest järelevalvest.

Kas privaatsusseadused reguleerivad tehisintellekti loodud sünteetilisi andmeid?

Paljud USA ja EL andmete turvalisus ja privaatsus tuvastatavate isikuandmete suhtes kehtivad määrused. 

Kuid need määrused ei kehti sünteetilised andmed — sünteetilisi andmeid käsitletakse sarnaselt anonüümseks muudetud andmed. Need moodustavad teiste õigusnormide nn tuuma.

Näiteks GDPR-i põhjendus 26 ütleb, et eraelu puutumatuse kaitse eeskirjad kehtivad ainult tuvastatava isikuga seotud andmetele. Kui teie sünteetilised andmed on loodud nii, et neid ei saa tuvastada tuvastatavate isikuteni, on need regulatiivsest järelevalvest vabastatud. Kui regulatiivne järelevalve kõrvale jätta, on tegelike andmete kasutamisel ka muid takistusi, mis sunnivad ettevõtteid sünteetilisi andmeid genereerima.

Reaalsete andmete kasutamise peamised väljakutsed

Paljudel ettevõtetel on raske leida ja kasutada asjakohaseid kvaliteetseid andmeid, eriti piisavas koguses tehisintellekti algoritmi koolituseks. Isegi kui nad selle leiavad, võib andmekogumite jagamine või kasutamine olla privaatsusriskide ja ühilduvusprobleemide tõttu keeruline. Selles jaotises kirjeldatakse võtit seab väljakutse sünteetilistele andmetele suudab lahendada.

Privaatsusriskid takistavad andmete kasutamist ja jagamist

Andmete turvalisuse ja privaatsuse eeskirjad, nagu GDPR ja HIPAA, seavad andmete jagamisele ja kasutamisele bürokraatlikke takistusi. Sellistes tööstusharudes nagu tervishoid võib isegi PII jagamine sama organisatsiooni osakondade vahel olla juhtimiskontrollide tõttu aeganõudev. Andmete jagamine väliste üksustega on veelgi keerulisem ja sellega kaasnevad suuremad turvariskid.

Teadusuuringud Fortune Business Insights identifitseerib kasvavaid privaatsusriske sünteetiliste andmete kasutamise peamise katalüsaatorina. Mida rohkem andmeid salvestate, seda suurem on oht privaatsust ohustada. Vastavalt 2023. aasta andmete rikkumise aruande IBM-i turbekulu, oli andmetega seotud rikkumise keskmine maksumus USA-s 9.48 miljonit dollarit. Kogu maailmas oli keskmine kulu 4.45 miljonit dollarit; alla 500 töötajaga ettevõtted kaotavad rikkumise kohta 3.31 miljonit dollarit. Ja see ei arvesta mainekahju.

Raskused kvaliteetsete andmete leidmisel

2022. aasta uuring 500 andmespetsialistist selgus, et 77% inseneridest, analüütikutest ja andmeteadlastest seisis silmitsi andmete kvaliteedi probleemidega. Aruande kohaselt pärsib andmete kvaliteet ettevõtte finantstulemusi ja tootlikkust ning muudab teenustest tervikliku ülevaate saavutamise vaevalt saavutatavaks.

Ettevõtetel võib puududa piisavalt andmeid konkreetse demograafia kohta, et oma masinõppe (ML) mudeleid korralikult välja õpetada. Andmestikud sisaldavad sageli ebakõlasid, ebatäpsusi ja puuduvaid väärtusi. Kui treenite oma tehisintellekti platvorme masinõppe mudelid madala kvaliteediga andmete puhul, millel puudub demograafiline mitmekesisus, teeb see ebatäpseid ja kallutatud prognoose. Sarnaselt, nagu anonüümsete andmete genereerimine, võivad viimistlemata algoritmid toota ebausaldusväärseid tehisandmekogumeid, mis mõjutavad andmeanalüüsi tulemusi.

Sünteetiliste andmetega ülesproovimine võib parandada andmete kvaliteeti, kõrvaldades andmekogumite tasakaalustamatuse. See tagab alaesindatud klasside proportsionaalsema esituse ja vähendab eelarvamusi. Tugevam ja esinduslikum andmekogum annab paremad analüüsitulemused ja mudelikoolituse.

Andmekogumi kokkusobimatus

Erinevast päritolust või mitmest tabelist koosnevatest andmebaasidest pärinevad andmekogumid võivad tekitada vastuolusid, tekitades andmetöötluse ja analüüsi keerukust ning takistades innovatsiooni.

Näiteks hõlmab andmete koondamine tervishoius elektroonilisi tervisekaarte (EHR), kantavaid esemeid, patenteeritud tarkvara ja kolmandate osapoolte tööriistu. Iga allikas võib kasutada erinevaid andmevorminguid ja teabesüsteeme, mis põhjustab integreerimise ajal erinevusi andmevormingutes, struktuurides või üksustes. Sünteetiliste andmete kasutamine võib selle väljakutsega toime tulla, tagades ühilduvuse ja võimaldades seda andmeid genereerida soovitud formaadis.

Anonüümseks muutmisest ei piisa

Anonüümseks muutmise tehnikatest ei piisa privaatsusriskide või andmekvaliteedi probleemide ületamiseks. Enamgi veel, Identifikaatorite maskeerimine või eemaldamine võib eemaldada põhjalikuks analüüsiks vajalikud üksikasjad suurtes andmekogumites.

Lisaks saab anonüümseks muudetud andmeid uuesti identifitseerida ja tuvastada üksikisikuteni. Pahatahtlikud osalejad saavad kasutada täiustatud analüütikat, et avastada ajapõhiseid mustreid, mis ohustavad näiliselt identifitseerimata andmete anonüümsust. Sünteetilised andmed on selles osas paremad kui anonüümsed andmed.

Erinevalt anonüümseks muutmine, sünteetilised andmed ei muuda olemasolevaid andmekogumeid, vaid genereerib uusi andmeid, mis sarnanevad selle omaduste ja struktuuriga algandmed, säilitades selle kasulikkuse. See on täiesti uus andmestik, mis ei sisalda isikut tuvastavat teavet.

Kuid see on nüansirikkam. Neid on mitut tüüpi sünteetilised andmete genereerimise meetodid.

Sünteetiliste andmete genereerimise tüübid

Sünteetiliste andmete loomine protsessid varieeruvad olenevalt nõutavate andmete tüübist. Sünteetilised andmetüübid hõlmavad täielikult tehisintellekti loodud, reeglipõhiseid ja näidisandmeid – igaüks vastab erinevatele vajadustele.

Täielikult AI loodud sünteetilised andmed

Seda tüüpi sünteetilised andmed on loodud nullist, kasutades ML-algoritme. The masinõppe mudel rongid käima tegelikud andmed et õppida tundma andmete struktuuri, mustreid ja seoseid. Generatiivne tehisintellekt kasutab neid teadmisi seejärel uute andmete genereerimiseks, mis sarnanevad väga originaali statistiliste omadustega (jällegi, muutes need tuvastamatuks).

Seda tüüpi täielikult sünteetilised andmed on kasulik tehisintellekti mudeli koolitusel ja on piisavalt hea, et seda saaks kasutada nii, nagu oleks tegemist pärisandmetega. See on eriti kasulik, kui te ei saa oma andmekogumeid lepinguliste privaatsuslepingute tõttu jagada. Sünteetiliste andmete genereerimiseks vajate aga lähtepunktina märkimisväärset hulka algandmeid masinõppe mudel koolitust.

Sünteetilised näidisandmed

see sünteetilised andmed tüüp viitab kunstlikult loodud andmetele, mis jäljendavad tegelike andmete struktuuri ja vormingut, kuid ei pruugi kajastada tegelikku teavet. See aitab arendajatel tagada, et nende rakendused saavad hakkama erinevate sisendite ja stsenaariumitega, ilma et kasutataks ehtsat, privaatset või tundlikke andmeid ja mis kõige tähtsam, ilma reaalmaailma andmetele tuginemata. See tava on oluline funktsionaalsuse testimiseks ja tarkvararakenduste kontrollitud ja turvaliseks viimistlemiseks.

Millal seda kasutada: Otseste identifikaatorite (PII) asendamiseks või kui teil on praegu andmeid puudu ja eelistate mitte investeerida aega ja energiat reeglite määratlemisse. Arendajad kasutavad tavaliselt näidisandmeid, et hinnata rakenduste funktsionaalsust ja välimust arenduse varases staadiumis, võimaldades neil tuvastada võimalikke probleeme või disainivigu. 

Ehkki näidisandmetel puudub reaalse maailma teabe autentsus, on need endiselt väärtuslik vahend süsteemide nõuetekohase toimimise ja visuaalse esituse tagamiseks enne tegelikku andmete integreerimist. 

Märkus. Sünteetilisi pilkavaid andmeid nimetatakse sageli kui "võltsandmed,Kuigi me ei soovita neid termineid vaheldumisi kasutada, kuna need võivad tähenduse poolest erineda. 

Sünteetilised näidisandmed

Reeglipõhised sünteetilised andmed

Reeglipõhised sünteetilised andmed on kasulik tööriist kohandatud andmekogumite genereerimiseks, mis põhinevad eelnevalt määratletud reeglitel, piirangutel ja loogikal. See meetod pakub paindlikkust, võimaldades kasutajatel konfigureerida andmeväljundit vastavalt konkreetsetele ärivajadustele, kohandades parameetreid, nagu minimaalsed, maksimaalsed ja keskmised väärtused. Erinevalt täielikult tehisintellektiga loodud andmetest, millel puudub kohandamine, pakuvad reeglipõhised sünteetilised andmed kohandatud lahendust erinevate töönõuete täitmiseks. See sünteetiliste andmete genereerimise protsess osutub eriti kasulikuks testimisel, arendusel ja analüütikas, kus täpne ja kontrollitud andmete genereerimine on hädavajalik.

Igal sünteetiliste andmete genereerimise meetodil on erinevad rakendused. Syntho platvorm paistab silma sellega, et loob sünteetilisi andmekaksikuid ilma teiepoolse pingutuseta või ilma selleta. Saate statistiliselt täpse kvaliteetsed sünteetilised andmed teie vajadustele, mis on vaba vastavuse üldkuludest.

Sünteetilised tabeliandmed

Mõiste tabeli sünteetilised andmed viitab tehisandmete loomine alamhulgad, mis jäljendavad reaalse maailma struktuuri ja statistilisi omadusi tabeliandmed, näiteks tabelitesse või arvutustabelitesse salvestatud andmed. See sünteetilised andmed on loodud kasutades sünteetilised andmete genereerimise algoritmid ja tehnikaid, mis on kavandatud jäljendama selle omadusi lähteandmed tagades samas, et konfidentsiaalne või tundlikke andmeid ei avalikustata.

Tehnikad genereerimiseks tabelina sünteetilised andmed hõlmab tavaliselt statistilist modelleerimist, masinõppe mudelidvõi generatiivsed mudelid, nagu generatiivsed võistlevad võrgud (GAN) ja variatsioonilised automaatkooderid (VAE). Need sünteetilised andmete genereerimise tööriistad analüüsida selles esinevaid mustreid, jaotusi ja korrelatsioone tegelik andmestik ja seejärel luua uus andmepunktid et sarnanevad tihedalt tegelikele andmetele kuid ei sisalda tegelikku teavet.

Tüüpiline tabel sünteetiliste andmete kasutamise juhud hõlmab privaatsusprobleemide lahendamist, andmete kättesaadavuse suurendamist ning andmepõhiste rakenduste uurimise ja innovatsiooni hõlbustamist. Siiski on oluline tagada, et sünteetilised andmed salvestab täpselt säilitatavate algandmete aluseks olevad mustrid ja jaotused andmete utiliit ja kehtivus järgnevate ülesannete jaoks.

reeglipõhine sünteetiline andmegraafik

Kõige populaarsemad sünteetiliste andmete rakendused

Kunstlikult loodud andmed avavad innovatsioonivõimalusi tervishoiu-, jaemüügi-, tootmis-, finants- ja muudele tööstusharudele. Esmane kasutage juhtumeid hõlmab andmete ülesproovimist, analüüsi, testimist ja jagamist.

Ülesproovimine andmekogumite täiustamiseks

Ülesproovimine tähendab suuremate andmekogumite genereerimist väiksematest skaleerimiseks ja mitmekesistamiseks. Seda meetodit kasutatakse siis, kui tegelikke andmeid on vähe, need on tasakaalustamata või mittetäielikud.

Mõelge mõnele näitele. Finantsasutuste jaoks saavad arendajad pettuste tuvastamise mudelite täpsust parandada, valides üles haruldastest tähelepanekutest ja tegevusmustritest finantsandmed. Sarnaselt võib turundusagentuur koguda täiendavaid proove, et täiendada alaesindatud rühmadega seotud andmeid, suurendades segmenteerimise täpsust.

Täiustatud analüüs tehisintellekti loodud andmetega

Ettevõtted saavad AI-ga loodud kvaliteetseid sünteetilisi andmeid andmemodelleerimiseks, ärianalüütikaks ja kliinilisteks uuringuteks kasutada. Andmete sünteesimine osutub elujõuliseks alternatiiviks, kui reaalsete andmekogumite hankimine on kas liiga kallis või aeganõudev.

Sünteetilised andmed annab teadlastele võimaluse viia läbi põhjalikke analüüse, ilma et see kahjustaks patsiendi konfidentsiaalsust. Andmeteadlased ja teadlased saavad juurdepääsu patsiendiandmetele, teabele kliiniliste seisundite ja ravi üksikasjade kohta, saades teadmisi, mis oleks tegelike andmetega tunduvalt aeganõudvam. Lisaks saavad tootjad tarnijatega andmeid vabalt jagada, kaasates manipuleeritud GPS-i ja asukohaandmeid, et luua toimivustestimise algoritme või täiustada prognoositavat hooldust.

Kuid sünteetiliste andmete hindamine on kriitiline. Syntho mootori väljundit kinnitab sisemine kvaliteeditagamise meeskond ja väliseksperdid SAS Instituudist. Ennustava modelleerimise uuringus koolitasime neli masinõppe mudelid reaalsetel, anonüümsetel ja sünteetilistel andmetel. Tulemused näitasid, et meie sünteetiliste andmekogumite põhjal koolitatud mudelite täpsus oli sama, mis reaalsete andmekogumite puhul, samas kui anonüümsed andmed vähendasid mudelite kasulikkust.

Väline ja sisemine andmete jagamine

Sünteetilised andmed lihtsustavad andmete jagamist organisatsioonide sees ja nende vahel. Sa saad kasutada sünteetilisi andmeid et vahetada teavet, riskimata privaatsuse rikkumise või eeskirjade eiramisega. Sünteetiliste andmete eelised hõlmavad kiirendatud uurimistulemusi ja tõhusamat koostööd.

Jaemüügiettevõtted saavad tarnijate või turustajatega teadmisi jagada, kasutades sünteetilisi andmeid, mis kajastavad klientide käitumist, varude taset või muid olulisi mõõdikuid. Siiski, et tagada kõrgeim tase andmekaitse, delikaatsed kliendiandmed ja ettevõttesaladused hoitakse konfidentsiaalsena.

Syntho võitis 2023. aasta ülemaailmse SAS Hackathoni meie võime eest luua ja jagada atäpsed sünteetilised andmed tõhusalt ja riskivabalt. Sünteesisime patsientide andmed mitme erineva patsiendipopulatsiooniga haigla kohta, et näidata ennustavate mudelite tõhusust. Kombineeritud sünteetiliste andmekogumite kasutamine oli sama täpne kui reaalsete andmete kasutamine.

Sünteetilise testi andmed

Sünteetilised testiandmed on kunstlikult loodud andmed, mis on loodud simuleerimiseks andmete testimine keskkonnad tarkvara arendamiseks. Lisaks privaatsusriskide vähendamisele võimaldavad sünteetilised testiandmed arendajatel hinnata rangelt rakenduste jõudlust, turvalisust ja funktsionaalsust mitmesugustes võimalikes stsenaariumides, ilma et see mõjutaks tegelikku süsteemi.

Meie koostöö ühe Hollandi suurima pangaga vitriine sünteetiliste andmete eelised tarkvara testimiseks. Testiandmete genereerimine Syntho Engine andis tulemuseks tootmisega sarnased andmekogumid, mis aitasid pangal kiirendada tarkvaraarendust ja vigade tuvastamist, mis viis tarkvara kiiremate ja turvalisemate väljalaskeni.

Tehnikad genereerimiseks tabelina sünteetilised andmed hõlmab tavaliselt statistilist modelleerimist, masinõppe mudelidvõi generatiivsed mudelid, nagu generatiivsed võistlevad võrgud (GAN) ja variatsioonilised automaatkooderid (VAE). Need sünteetilised andmete genereerimise tööriistad analüüsida selles esinevaid mustreid, jaotusi ja korrelatsioone tegelik andmestik ja seejärel luua uus andmepunktid et sarnanevad tihedalt tegelikele andmetele kuid ei sisalda tegelikku teavet.

Tüüpiline tabel sünteetiliste andmete kasutamise juhud hõlmab privaatsusprobleemide lahendamist, andmete kättesaadavuse suurendamist ning andmepõhiste rakenduste uurimise ja innovatsiooni hõlbustamist. Siiski on oluline tagada, et sünteetilised andmed salvestab täpselt säilitatavate algandmete aluseks olevad mustrid ja jaotused andmete utiliit ja kehtivus järgnevate ülesannete jaoks.

Syntho sünteetiliste andmete genereerimise platvorm

Syntho pakub nutikat sünteetiliste andmete genereerimise platvormi, mis annab organisatsioonidele võimaluse andmeid nutikalt konkurentsieeliseks muuta. Pakkudes kõik sünteetilised andmete genereerimise meetodid ühele platvormile, pakub Syntho terviklikku lahendust organisatsioonidele, mille eesmärk on kasutada andmeid, mis hõlmavad:

Meie platvormid integreeruvad mis tahes pilve- või kohapealsesse keskkonda. Lisaks hoolitseme planeerimise ja kasutuselevõtu eest. Meie meeskond koolitab teie töötajaid kasutama Syntho mootor tõhusalt ja pakume pidevat kasutuselevõtujärgset tuge.

Syntho võimaluste kohta saate täpsemalt lugeda sünteetilised andmed põlvkonna platvormi Meie veebisaidi lahenduste jaotis.

Mis on sünteetiliste andmete jaoks tulevikus?

Sünteetiline andmete genereerimine generatiivse tehisintellektiga aitab luua ja jagada suuri mahtusid asjakohased andmed, vältides vormingute ühilduvusprobleeme, regulatiivseid piiranguid ja andmetega seotud rikkumiste ohtu.

Erinevalt anonüümseks muutmisest sünteetiliste andmete genereerimine võimaldab andmetes säilitada struktuurseid seoseid. See muudab sünteetilised andmed sobivaks täiustatud analüütikaks, uurimis- ja arendustegevuseks, mitmekesistamiseks ja testimiseks.

Sünteetiliste andmekogumite kasutamine laieneb ainult tööstusharudes. Ettevõtted on valmis luua sünteetilisi andmeid, laiendades selle ulatust keerukatele piltidele, heli- ja videosisule. Ettevõtted laiendavad kasutamist masinõppe mudelid arenenumatele simulatsioonidele ja rakendused.

Kas soovite õppida rohkem praktilisi rakendusi sünteetilised andmed? Julgelt aja demo sisse meie kodulehel.

Syntho kohta

Syntho pakub nutikat sünteetiliste andmete genereerimine platvorm, võimendus mitu sünteetilist andmevormi ja genereerimismeetodid, mis annavad organisatsioonidele võimaluse andmeid nutikalt konkurentsieeliseks muuta. Meie tehisintellektiga loodud sünteetilised andmed jäljendavad algandmete statistilisi mustreid, tagades täpsuse, privaatsuse ja kiiruse, mida hindavad väliseksperdid, nagu SAS. Nutikate identifitseerimisfunktsioonide ja järjepideva kaardistamise abil on tundlikku teavet kaitstud, säilitades samas viite terviklikkuse. Meie platvorm võimaldab luua, hallata ja kontrollida katseandmeid mittetootmiskeskkondade jaoks, kasutades reeglipõhist sünteetilised andmete genereerimise meetodid sihitud stsenaariumide jaoks. Lisaks saavad kasutajad sünteetilisi andmeid programmiliselt genereerida ja saada realistlikud katseandmed arendada hõlpsalt terviklikke testimis- ja arendusstsenaariume.

Andmeid autor

Foto peatõmmis Syntho tegevjuhist ja kaasasutajast Wim Kees Jannsenist

Wim Kees Janssen

Tegevjuht ja asutaja

Syntho, mastaabi suurendamine, mis häirib andmetööstust tehisintellekti loodud sünteetiliste andmetega. Wim Kees on Synthoga tõestanud, et suudab avada privaatsustundlikud andmed, et muuta andmed nutikamaks ja kiiremini kättesaadavaks, et organisatsioonid saaksid realiseerida andmepõhise innovatsiooni. Selle tulemusel võitsid Wim Kees ja Syntho maineka Philipsi innovatsiooniauhinna, võitsid SAS-i ülemaailmse häkatoni tervishoiu ja bioteaduste valdkonnas ning valiti NVIDIA poolt juhtivaks generatiivseks tehisintellekti suurendamiseks.

avaldatud
Veebruar 19, 2024