A’ measadh goireas agus coltas ann an gineadairean dàta synthetach: Dàibheadh ​​​​domhainn teicnigeach agus mion-sgrùdadh coimeasach

Foillsichte:
Gearran 27, 2024

Ro-ràdh

Anns an àm dhidseatach an-diugh, tha mothachadh air prìobhaideachd dàta air a dhol suas gu mòr. Tha barrachd is barrachd luchd-cleachdaidh ag aithneachadh an dàta aca mar lorgan-meòir didseatach sònraichte, a tha nan cunnart don phrìobhaideachd aca ma thèid dàta a bhriseadh. Tha an dragh seo air a mheudachadh nas motha le riaghailtean leithid GDPR, a bheir cumhachd do luchd-cleachdaidh iarraidh gun tèid an dàta aca a dhubhadh às. Ged a tha feum mòr air, faodaidh an reachdas seo a bhith gu math cosgail do chompanaidhean leis gu bheil cothrom air dàta air a lughdachadh; cuingeachaidhean a bhios gu tric a’ caitheamh ùine agus goireasan airson faighinn seachad orra. 

Clàr-innse

Dè a th’ ann an gineadairean dàta synthetigeach?

Cuir a-steach dàta synthetigeach, fuasgladh don duilgheadas seo. Bidh gineadairean dàta synthetach a’ cruthachadh stòran-dàta a bhios ag atharrais air fìor dhàta luchd-cleachdaidh agus aig an aon àm a’ gleidheadh ​​​​dìomhaireachd agus dìomhaireachd. Tha an dòigh-obrach seo a’ faighinn tarraing thar ghnìomhachasan, bho chùram-slàinte gu ionmhas, far a bheil prìobhaideachd air leth cudromach.  

Tha an dreuchd seo air a dhealbhadh gu sònraichte airson proifeiseantaich dàta agus luchd-dealasach, le fòcas air measadh gineadairean dàta synthetigeach. Nì sinn sgrùdadh air prìomh mheatrics agus nì sinn mion-sgrùdadh coimeasach eadar Syntho's Engine agus na roghainnean fosgailte eile aige, a’ tabhann lèirsinn air mar a nì thu measadh èifeachdach air càileachd fuasglaidh gineadh dàta synthetigeach. A bharrachd air an sin, nì sinn measadh cuideachd air cosgais ùine gach aon de na modalan sin gus barrachd lèirsinn a thoirt seachad air obrachadh nam modalan. 

Ciamar a thaghas tu an dòigh gineadh dàta synthetigeach ceart?

Ann an cruth-tìre eadar-mheasgte gineadh dàta synthetigeach, tha pailteas dhòighean rim faighinn, gach fear a’ sireadh aire le na comasan sònraichte aige. Gus an dòigh as freagarraiche a thaghadh airson tagradh sònraichte feumaidh tuigse mhionaideach air feartan coileanaidh gach roghainn. Tha seo a’ feumachdainn measadh coileanta air grunn ghineadairean dàta synthetigeach stèidhichte air seata de mheatairean air an deagh mhìneachadh gus co-dhùnadh fiosraichte a dhèanamh. 

Tha na leanas na sgrùdadh coimeasach teann air an Einnsean Syntho còmhla ri frèam stòr fosgailte ainmeil, an Synthetic Data Vault (SDV). Anns a’ mhion-sgrùdadh seo, chleachd sinn mòran mheatairean a chleachdar gu cumanta leithid dìlseachd staitistigeil, cruinneas ro-innse agus dàimh eadar-chaochlaideach. 

Metrics Luachadh Dàta Synthetic

Mus cuir sinn a-steach meatrach sònraichte sam bith, feumaidh sinn aideachadh gu bheil grunn ideòlasan ann mu bhith a’ measadh dàta Synthetic, agus tha gach fear dhiubh a’ toirt sealladh air taobh sònraichte de dhàta. Le seo san amharc, tha na trì roinnean a leanas a’ seasamh a-mach mar rud cudromach agus farsaing. Tha na meatrach seo a’ toirt sealladh dhuinn air diofar thaobhan de chàileachd dàta. Is iad na roinnean seo: 

      1. Meudan Dìlseachd Staitistigeach: A’ sgrùdadh feartan staitistigeil bunaiteach an dàta, leithid dòighean agus caochlaidhean, gus dèanamh cinnteach gu bheil an dàta synthetigeach a rèir ìomhaigh staitistigeil an t-seata dàta tùsail. 

        1. Cruinneas ro-innse: A’ sgrùdadh coileanadh modal gineadh dàta synthetigeach, air a thrèanadh le dàta tùsail, agus air a mheasadh air dàta synthetigeach (Train Real - Test Synthetic, TRTS) agus a chaochladh (Train Synthetic - Test Real, TSTR) 

          1. Dàimhean Eadar-chaochlaideach: Tha an roinn seo a’ toirt a-steach: 

            • Co-dhàimh Feart: Bidh sinn a’ measadh dè cho math ‘s a tha an dàta synthetigeach a’ cumail suas na dàimhean eadar caochladairean a’ cleachdadh co-èifeachdan co-dhàimh. Bhiodh meatrach ainmeil mar an Mearachd Ceàrnagach Meanbh-chuimseach (PMSE) den t-seòrsa seo. 

            • Fiosrachadh co-phàirteach: Bidh sinn a’ tomhas na h-eisimeileachd dha chèile eadar caochladairean gus doimhneachd nan dàimhean sin a thuigsinn nas fhaide na dìreach co-dhàimhean. 

          Mion-sgrùdadh Coimeasach: Syntho Engine vs Open-Source Alternatives

          Chaidh am mion-sgrùdadh coimeasach a dhèanamh a’ cleachdadh frèam measaidh àbhaisteach agus dòighean deuchainn co-ionann thar gach modal, a’ gabhail a-steach modalan Syntho Engine agus SDV. Le bhith a’ co-chur stòran-dàta bho thùsan co-ionann agus gan cur fo na h-aon deuchainnean staitistigeil agus measaidhean modal ionnsachaidh inneal, bidh sinn a’ dèanamh cinnteach à coimeas cothromach agus neo-phàirteach. Tha an earrann a leanas a’ toirt mion-fhiosrachadh air coileanadh gach gineadair dàta synthetigeach thairis air an raon de mheatairean a tha air an taisbeanadh gu h-àrd.  

           

          A thaobh an dàta a chaidh a chleachdadh airson a’ mheasadh, chleachd sinn an Stòr-dàta Cunntas Inbheach UCI a tha na stòr-dàta ainmeil anns a’ choimhearsnachd ionnsachaidh inneal. Ghlan sinn an dàta ron trèanadh gu lèir agus an uairsin roinn sinn an dàta ann an dà sheata (trèanadh agus seata grèim airson deuchainn). Chleachd sinn an seata trèanaidh gus 1 millean puing dàta ùr a ghineadh le gach aon de na modailean agus rinn sinn measadh air diofar mheatairean air na stòran-dàta a chaidh a chruthachadh. Airson tuilleadh mheasaidhean ionnsachadh innealan, chleachd sinn an t-seata cumail a-mach gus measadh a dhèanamh air metrics leithid an fheadhainn co-cheangailte ri TSTR agus TRTS.  

           

          Chaidh gach gineadair a ruith le paramadairean bunaiteach. Leis gum faod cuid de na modailean, leithid Syntho, obrachadh a-mach às a’ bhogsa air dàta clàir sam bith, cha deach gleusadh sam bith a dhèanamh. Bheireadh rannsachadh airson na hyperparameters ceart airson gach modail tòrr ùine, agus tha Clàr 2 mu thràth a’ sealltainn eadar-dhealachadh mòr ùine eadar modal Syntho agus an fheadhainn a chaidh a dhearbhadh na aghaidh. 

           

          Bu chòir a thoirt fa-near, an taca ris a’ chòrr de na modailean ann an SDV, gu bheil an Gaussian Copula Synthesizer stèidhichte air dòighean staitistigeil. An coimeas ri sin, tha an còrr stèidhichte air lìonraidhean neural leithid modalan Generative Adversarial Networks (GAN) agus fèin-chòdairean caochlaideach. Sin as coireach gum faodar Gaussian Copula fhaicinn mar bhun-loidhne airson a h-uile modal air an deach beachdachadh. 

          toraidhean

          Càileachd Dàta

          Figear 1. Lèirsinn toraidhean càileachd bunaiteach airson a h-uile modal

          Tha na chaidh beachdachadh roimhe seo air cumail ri gluasadan agus riochdachaidhean san dàta ri fhaighinn ann am Figear 1 agus Clàr 1. An seo, faodar gach aon de na meatrach a thathar a’ cleachdadh a mhìneachadh mar a leanas:

          • Sgòr Càileachd iomlan: Measadh iomlan air càileachd dàta synthetigeach, a’ cothlamadh diofar thaobhan leithid coltas staitistigeil agus feartan dàta. 
          • Cumaidhean Colbh: Dèan measadh a bheil an dàta synthetigeach a’ cumail an aon chumadh cuairteachaidh ris an fhìor dàta airson gach colbh. 
          • Claonaidhean Paidhir Colbh: A’ measadh dàimh no co-dhàimhean eadar paidhrichean de cholbhan ann an dàta synthetigeach an coimeas ri dàta fìor. 
          •  

          Uile gu lèir, faodar mothachadh gu bheil Syntho a’ faighinn sgòran fìor àrd san fharsaingeachd. An toiseach, nuair a thathar a’ coimhead air càileachd dàta iomlan (air a mheasadh le leabharlann meatrach SDV) faodaidh Syntho toradh a choileanadh suas gu 99% (le cumadh colbh de 99.92% agus cumail cumadh paidhir colbh de 99.31%). Seo fhad ‘s a gheibh SDV toradh de 90.84% ​​aig a’ char as àirde (le Gaussian Copula, le cumadh colbh de 93.82% agus cumail cumadh paidhir colbh de 87.86%). 

          Riochdachadh clàr de sgòran càileachd gach dàta gineadh gach modail

          Clàr 1. Riochdachadh clàr de na comharran càileachd airson gach seata dàta a chaidh a chruthachadh a rèir gach modail 

          Còmhdach dàta

          Tha modal Aithisg Diagnosis de SDV a’ toirt ar n-aire gu bheil dàta a ghineadh SDV (anns a h-uile cùis) a’ call còrr air 10% de na raointean àireamhach; A thaobh Autoencoder caochlaideach stèidhichte air Triplet (TVAE), tha an aon uiread de dhàta gnèitheach a dhìth cuideachd an taca ris an t-seata dàta tùsail. Cha deach rabhaidhean mar sin a chruthachadh leis na toraidhean a chaidh a choileanadh le bhith a’ cleachdadh Syntho.  

          fradharc air tomhasan coileanaidh cuibheasach colbh airson a h-uile modal
           
           

          Figear 2. fradharc air tomhasan coileanaidh cuibheasach colbh airson a h-uile modal 

          Anns a’ mhion-sgrùdadh coimeasach, tha cuilbheart Figear 2 a’ sealltainn gu bheil tasglannan SDV beagan nas fheàrr a’ toirt a-mach còmhdach roinne le cuid de na modailean aca (is e sin GaussianCopula, CopulaGAN, agus Conditional Tabular GAN - CTGAN). Ach a dh’ aindeoin sin, tha e cudromach a shoilleireachadh gu bheil earbsachd dàta Syntho a’ dol thairis air modalan SDV, leis gu bheil an eadar-dhealachadh ann an còmhdach thar roinnean agus raointean glè bheag, a’ nochdadh dìreach eadar-dhealachadh 1.1%. An coimeas ri sin, tha modalan SDV a’ nochdadh eadar-dhealachadh mòr, a’ dol bho 14.6% gu 29.2%. 

           

          Faodar na slatan-tomhais a tha air an riochdachadh an seo, a mhìneachadh mar a leanas: 

          • Còmhdach roinn-seòrsa: A’ tomhas làthaireachd gach roinn ann an dàta synthetigeach an taca ri fìor dhàta.
          • Còmhdach Raon: A’ measadh dè cho math ‘s a tha an raon luachan ann an dàta synthetigeach a’ maidseadh sin ann an dàta fìor. 
          Riochdachadh clàr den chòmhdach cuibheasach de sheòrsa feart sònraichte airson gach modail

          Clàr 2. Riochdachadh clàr de chòmhdach cuibheasach seòrsa feart sònraichte airson gach modail 

          shòghail

          A’ gluasad air adhart gu cuspair goireasachd dàta synthetigeach, bidh cùis mhodalan trèanaidh air an dàta buntainneach. Gus coimeas cothromach agus cothromach a bhith againn eadar a h-uile frèam tha sinn air an Clasaiche Brosnachaidh Gradient bunaiteach a thaghadh bho leabharlann SciKit Learn, a’ faicinn gu bheilear a’ gabhail ris gu cothromach mar mhodail a tha a’ coileanadh gu math le roghainnean taobh a-muigh a’ bhogsa.  

           

          Tha dà mhodail eadar-dhealaichte air an trèanadh, aon air an dàta synthetigeach (airson TSTR) agus aon air an dàta tùsail (airson TRTS). Tha am modail air a thrèanadh air an dàta synthetigeach air a mheasadh le bhith a’ cleachdadh seata deuchainn grèim (nach deach a chleachdadh aig àm gineadh dàta synthetigeach) agus tha am modail air a thrèanadh air dàta tùsail air a dhearbhadh air an t-seata dàta synthetigeach.  

          fradharc air sgòran Area Under the Curve (AUC) gach modh gach modail

          Figear 3. Sealladh air an raon fon lùb (AUC) sgòran gach modh gach modail 

           Tha na toraidhean a chithear gu h-àrd a’ sealltainn cho àrd sa tha gineadh dàta Synthetic leis an einnsean Syntho an taca ri dòighean eile, a’ faicinn nach eil eadar-dhealachadh sam bith eadar na toraidhean a gheibhear leis na diofar dhòighean (a’ comharrachadh gu bheil coltas àrd eadar an dàta synthetigeach agus fìor). Cuideachd, is e an loidhne dotagach dearg a tha an làthair anns a’ chuilbheart an toradh a gheibhear le bhith a’ measadh coileanadh bunaiteach deuchainn Train Real, Test Real (TRTR) gus bun-loidhne a sholarachadh airson na meatrach a chaidh fhaicinn. Tha an loidhne seo a’ riochdachadh an luach 0.92, is e sin an sgòr Area Under the Curve (sgòr AUC) a chaidh a choileanadh leis a’ mhodail air a thrèanadh air fìor dhàta agus air a dhearbhadh air dàta fìor. 

          Riochdachadh clàr de na sgòran AUC a choilean TRTS agus TSTR fa leth gach modail.

          Clàr 3. Riochdachadh clàr de na sgòran AUC a chaidh a choileanadh le TRTS agus TSTR fa leth gach modail. 

          Coimeas a thaobh ùine

          Gu nàdarra, tha e deatamach beachdachadh air an ùine a chaidh a thasgadh ann a bhith a 'cruthachadh nan toraidhean sin. Tha an lèirsinn gu h-ìosal a’ sealltainn dìreach seo.

          fradharc air an ùine a bheir e airson trèanadh agus coileanadh gineadh dàta synthetigeach de mhillean puing dàta le modail le agus às aonais GPU.

          Figear 5. Amharc air an ùine a bheir e airson trèanadh agus coileanadh gineadh dàta synthetigeach de mhillean puing dàta le modail le agus às aonais GPU. 

          Tha Figear 5 a’ sealltainn na h-ùine a chaidh a ghabhail gus dàta synthetigeach a ghineadh ann an dà shuidheachadh eadar-dhealaichte. B’ e a’ chiad fhear dhiubh (ris an canar às aonais GPU an seo), ruith deuchainn air an t-siostam le CPU Intel Xeon le coraichean 16 a’ ruith aig 2.20 GHz. Bha na deuchainnean a chaidh a chomharrachadh mar “ruith le GPU” air siostam le CPU AMD Ryzen 9 7945HX le coraichean 16 a ’ruith aig 2.5GHz agus Laptop GPU NVIDIA GeForce RTX 4070. Mar a chithear ann am Figear 2 agus ann an Clàr 2 gu h-ìosal, faodar fhaicinn gu bheil Syntho gu math nas luaithe ann a bhith a’ gineadh dàta synthetigeach (anns an dà shuidheachadh) a tha deatamach ann an sruth-obrach fiùghantach. 

          clàr a’ sealltainn na h-ùine a chaidh a thoirt gu gineadh dàta synthetigeach de 1 millean puingean dàta le gach modail le agus às aonais GPU

          Clàr 5. Clàr-riochdachadh den ùine a chaidh a thoirt gu gineadh dàta synthetigeach de mhillean puing dàta le gach modail le agus às aonais GPU 

          Beachdan crìochnachaidh agus stiùireadh san àm ri teachd 

          Tha na co-dhùnaidhean a’ daingneachadh cho cudromach sa tha measadh càileachd mionaideach ann a bhith a’ taghadh an dòigh gineadh dàta synthetigeach ceart. Tha Syntho's Engine, leis an dòigh-obrach aige air a stiùireadh le AI, a’ nochdadh neartan sònraichte ann an cuid de mheatrics, fhad ‘s a tha innealan stòr fosgailte mar SDV a’ deàrrsadh anns an sùbailteachd aca agus leasachaidhean air an stiùireadh leis a ’choimhearsnachd. 

          Mar a bhios an raon dàta synthetigeach a’ sìor fhàs, tha sinn gad bhrosnachadh gus na meatrach sin a chuir an sàs anns na pròiseactan agad, sgrùdadh a dhèanamh air na duilgheadasan aca, agus na h-eòlasan agad a cho-roinn. Cum sùil air dreuchdan san àm ri teachd far am bi sinn a’ dàibheadh ​​​​nas doimhne a-steach do mheatairean eile agus a ’soilleireachadh eisimpleirean fìor den t-saoghal den tagradh aca. 

          Aig deireadh an latha, dhaibhsan a tha airson na h-uisgeachan a dhearbhadh air dàta synthetigeach, faodaidh an roghainn stòr fosgailte a tha air a thaisbeanadh a bhith na roghainn reusanta le ruigsinneachd; ach, airson proifeiseantaich a tha a’ toirt a-steach an teicneòlas ùr-nodha seo don phròiseas leasachaidh aca, feumar cothrom sam bith air leasachadh a ghabhail agus gach bacadh a sheachnadh. Mar sin tha e cudromach an roghainn as fheàrr a tha ri fhaighinn a thaghadh. Leis na mion-sgrùdaidhean gu h-àrd tha e a’ fàs caran follaiseach gu bheil Syntho agus leis an sin an Syntho Engine na inneal fìor chomasach dha cleachdaichean. 

          Mu Syntho

          Syntho a’ toirt seachad àrd-ùrlar gineadh dàta synthetigeach snasail, a’ cleachdadh grunn chruthan dàta synthetigeach agus dòighean gineadh, a’ toirt cumhachd do bhuidhnean dàta a thionndadh gu bhith na iomall farpaiseach. Tha an dàta synthetigeach againn a ghineadh le AI ag atharrais air pàtrain staitistigeil de dhàta tùsail, a’ dèanamh cinnteach à cruinneas, prìobhaideachd agus astar, mar a chaidh a mheasadh le eòlaichean bhon taobh a-muigh leithid SAS. Le feartan dì-aithneachaidh snasail agus mapadh cunbhalach, tha fiosrachadh mothachail air a dhìon fhad ‘s a tha e a’ gleidheadh ​​​​ionracas iomraidh. Tha an àrd-ùrlar againn a’ comasachadh cruthachadh, riaghladh agus smachd air dàta deuchainn airson àrainneachdan neo-riochdachaidh, a’ cleachdadh dhòighean gineadh dàta synthetigeach stèidhichte air riaghailtean airson suidheachaidhean cuimsichte. A bharrachd air an sin, faodaidh luchd-cleachdaidh dàta synthetigeach a ghineadh gu prògramach agus dàta deuchainn reusanta fhaighinn gus suidheachaidhean deuchainn is leasachaidh coileanta a leasachadh gu furasta.  

          A bheil thu airson barrachd ionnsachadh mu chleachdadh dàta synthetigeach? A ' faireachdainn an-asgaidh a clàr demo!

          Mu na h-ùghdaran

          Intern innleadaireachd bathar-bog

          Rawam na oileanach baidsealair aig Oilthigh Teicneòlais Delft agus tha e na neach-obrach innleadaireachd bathar-bog aig Syntho 

          Innleadair Ionnsachaidh Inneal

          Choilean Mihai a PhD bhon Oilthigh Bristol air cuspair Ionnsachadh Neartachaidh rangachd air a chuir an sàs ann an Robotics agus a tha Innleadair ionnsachadh inneal at Syntho. 

          còmhdach stiùireadh syntho

          Sàbhail an stiùireadh dàta synthetigeach agad a-nis!