Data Synthetig a gynhyrchir gan AI, mynediad hawdd a chyflym i ddata o ansawdd uchel?

Cynhyrchodd AI ddata synthetig yn ymarferol

Nod Syntho, arbenigwr mewn data synthetig a gynhyrchir gan AI, yw troi privacy by design i fantais gystadleuol gyda data synthetig a gynhyrchir gan AI. Maent yn helpu sefydliadau i adeiladu sylfaen ddata gref gyda mynediad hawdd a chyflym at ddata o ansawdd uchel ac enillodd Wobr Arloesedd Philips yn ddiweddar.

Fodd bynnag, mae cynhyrchu data synthetig gydag AI yn ddatrysiad cymharol newydd sydd fel arfer yn cyflwyno cwestiynau cyffredin. I ateb y rhain, cychwynnodd Syntho astudiaeth achos ynghyd â SAS, arweinydd y farchnad mewn meddalwedd Dadansoddeg Uwch a deallusrwydd artiffisial.

Mewn cydweithrediad â Chlymblaid AI Iseldireg (NL AIC), buont yn ymchwilio i werth data synthetig trwy gymharu data synthetig a gynhyrchwyd gan AI a gynhyrchir gan Syntho Engine â data gwreiddiol trwy asesiadau amrywiol ar ansawdd data, dilysrwydd cyfreithiol a defnyddioldeb.

Onid yw gwneud data'n ddienw yn ateb?

Mae'n gyffredin i dechnegau anhysbysu clasurol eu bod yn trin data gwreiddiol er mwyn rhwystro olrhain unigolion yn ôl. Enghreifftiau yw cyffredinoli, atal, sychu, ffugenwi, cuddio data, a chymysgu rhesi a cholofnau. Gallwch ddod o hyd i enghreifftiau yn y tabl isod.

Mae’r technegau hynny’n cyflwyno 3 her allweddol:

Maent yn gweithio'n wahanol fesul math o ddata ac fesul set ddata, gan eu gwneud yn anodd eu graddio. At hynny, gan eu bod yn gweithio'n wahanol, bydd dadl bob amser ynghylch pa ddulliau i'w defnyddio a pha gyfuniad o dechnegau sydd eu hangen.
Mae yna bob amser berthynas un-i-un gyda'r data gwreiddiol. Mae hyn yn golygu y bydd risg preifatrwydd bob amser, yn enwedig oherwydd yr holl setiau data agored a’r technegau sydd ar gael i gysylltu’r setiau data hynny.
Maent yn trin data ac felly'n dinistrio data yn y broses. Mae hyn yn arbennig o ddinistriol ar gyfer tasgau AI lle mae “pŵer rhagfynegi” yn hanfodol, oherwydd bydd data o ansawdd gwael yn arwain at fewnwelediadau gwael o'r model AI (bydd sbwriel i mewn yn arwain at ollwng sbwriel).

Asesir y pwyntiau hyn hefyd drwy'r astudiaeth achos hon.

Cyflwyniad i'r astudiaeth achos

Ar gyfer yr astudiaeth achos, y set ddata darged oedd set ddata telathrebu a ddarparwyd gan SAS yn cynnwys data 56.600 o gwsmeriaid. Mae'r set ddata yn cynnwys 128 o golofnau, gan gynnwys un golofn yn nodi a yw cwsmer wedi gadael y cwmni (hy 'corddi') ai peidio. Nod yr astudiaeth achos oedd defnyddio'r data synthetig i hyfforddi rhai modelau i ragfynegi trosiant cwsmeriaid ac i werthuso perfformiad y modelau hyfforddedig hynny. Gan mai tasg ddosbarthu yw rhagfynegi corddi, dewisodd SAS bedwar model dosbarthu poblogaidd i wneud y rhagfynegiadau, gan gynnwys:

Coedwig ar hap
Hwb graddiant
Atchweliad logistaidd
Rhwydwaith niwtral

Cyn cynhyrchu'r data synthetig, rhannodd SAS y set ddata telathrebu ar hap yn set drenau (ar gyfer hyfforddi'r modelau) a set dal allan (ar gyfer sgorio'r modelau). Mae cael set daliant ar wahân ar gyfer sgorio yn caniatáu asesiad diduedd o ba mor dda y gallai'r model dosbarthu berfformio o'i gymhwyso i ddata newydd.

Gan ddefnyddio'r set trên fel mewnbwn, defnyddiodd Syntho ei Beiriant Syntho i gynhyrchu set ddata synthetig. Ar gyfer meincnodi, creodd SAS fersiwn wedi'i thrin o'r set trên hefyd ar ôl cymhwyso amrywiol dechnegau anhysbysu i gyrraedd trothwy penodol (k-anhysbysrwydd). Arweiniodd y camau cyntaf at bedair set ddata:

Set ddata trên (hy y set ddata wreiddiol llai'r set ddata dal allan)
Set ddata daliad (hy is-set o'r set ddata wreiddiol)
Set ddata ddienw (yn seiliedig ar set ddata'r trên)
Set ddata synthetig (yn seiliedig ar y set ddata trenau)

Defnyddiwyd setiau data 1, 3 a 4 i hyfforddi pob model dosbarthu, gan arwain at 12 (3 x 4) o fodelau hyfforddedig. Yn dilyn hynny, defnyddiodd SAS y set ddata dal allan i fesur cywirdeb pob model wrth ragfynegi trosiant cwsmeriaid. Cyflwynir y canlyniadau isod, gan ddechrau gyda rhai ystadegau sylfaenol.

Ffigur: Piblinell Dysgu Peiriannau a gynhyrchir mewn Mwyngloddio Data Gweledol a Dysgu Peiriannau SAS

Ystadegau sylfaenol wrth gymharu data dienw â data gwreiddiol

Mae technegau anonymization yn dinistrio hyd yn oed patrymau sylfaenol, rhesymeg busnes, perthnasoedd ac ystadegau (fel yn yr enghraifft isod). Mae defnyddio data dienw ar gyfer dadansoddeg sylfaenol felly yn cynhyrchu canlyniadau annibynadwy. Mewn gwirionedd, roedd ansawdd gwael y data dienw yn ei gwneud bron yn amhosibl ei ddefnyddio ar gyfer tasgau dadansoddeg uwch (ee modelu a dangosfyrddio AI/ML).

Ystadegau sylfaenol wrth gymharu data synthetig â data gwreiddiol

Mae cynhyrchu data synthetig gydag AI yn cadw patrymau sylfaenol, rhesymeg busnes, perthnasoedd ac ystadegau (fel yn yr enghraifft isod). Mae defnyddio data synthetig ar gyfer dadansoddeg sylfaenol felly yn cynhyrchu canlyniadau dibynadwy. Cwestiwn allweddol, a oes data synthetig yn cael ei gadw ar gyfer tasgau dadansoddeg uwch (ee modelu AI/ML a dangosfwrdd)?

Data synthetig a gynhyrchir gan AI a dadansoddeg uwch

Mae data synthetig yn dal nid yn unig ar gyfer patrymau sylfaenol (fel y dangosir yn y plotiau blaenorol), mae hefyd yn dal patrymau ystadegol 'cudd' dwfn sydd eu hangen ar gyfer tasgau dadansoddeg uwch. Dangosir yr olaf yn y siart bar isod, sy'n dangos bod cywirdeb modelau a hyfforddwyd ar ddata synthetig yn erbyn modelau a hyfforddwyd ar ddata gwreiddiol yn debyg. At hynny, gydag ardal o dan y gromlin (AUC*) yn agos at 0.5, y modelau sydd wedi'u hyfforddi ar ddata dienw sy'n perfformio waethaf o bell ffordd. Mae'r adroddiad llawn gyda'r holl asesiadau dadansoddeg uwch ar ddata synthetig o gymharu â'r data gwreiddiol ar gael ar gais.

*AUC: mae'r ardal o dan y gromlin yn fesur ar gyfer cywirdeb modelau dadansoddeg uwch, gan gymryd i ystyriaeth y gwir bositif, positif ffug, negatifau ffug a gwir negatifau. Mae 0,5 yn golygu bod model yn rhagfynegi ar hap ac nid oes ganddo bŵer rhagfynegi ac mae 1 yn golygu bod y model bob amser yn gywir a bod ganddo bŵer rhagfynegi llawn.

Yn ogystal, gellir defnyddio'r data synthetig hwn i ddeall nodweddion data a'r prif newidynnau sydd eu hangen ar gyfer hyfforddiant gwirioneddol y modelau. Roedd y mewnbynnau a ddewiswyd gan yr algorithmau ar ddata synthetig o gymharu â data gwreiddiol yn debyg iawn. Felly, gellir gwneud y broses fodelu ar y fersiwn synthetig hon, sy'n lleihau'r risg o dorri data. Fodd bynnag, wrth ddod i gasgliad ar gofnodion unigol (ee cwsmer telco) argymhellir ailhyfforddi ar ddata gwreiddiol er mwyn ei egluro, ei dderbyn yn fwy neu oherwydd rheoleiddio yn unig.

AUC fesul Algorithm wedi'i grwpio yn ôl Dull

Casgliadau:

Mae modelau a hyfforddwyd ar ddata synthetig o gymharu â'r modelau a hyfforddwyd ar ddata gwreiddiol yn dangos perfformiad tebyg iawn
Mae modelau sydd wedi’u hyfforddi ar ddata dienw gyda ‘thechnegau anhysbysu clasurol’ yn dangos perfformiad israddol o gymharu â modelau sydd wedi’u hyfforddi ar y data gwreiddiol neu ddata synthetig
Mae cynhyrchu data synthetig yn hawdd ac yn gyflym oherwydd bod y dechneg yn gweithio'n union yr un fath fesul set ddata ac fesul math o ddata.

Achosion defnyddio data synthetig sy'n ychwanegu gwerth

Defnyddiwch achos 1: Data synthetig ar gyfer datblygu model a dadansoddeg uwch

Mae cael sylfaen ddata gref gyda mynediad hawdd a chyflym at ddata defnyddiadwy o ansawdd uchel yn hanfodol i ddatblygu modelau (ee dangosfyrddau [BI] a dadansoddeg uwch [AI & ML]). Fodd bynnag, mae llawer o sefydliadau’n dioddef o sylfaen ddata is-optimaidd sy’n arwain at 3 her allweddol:

Mae cael mynediad at ddata yn cymryd oedrannau oherwydd rheoliadau (preifatrwydd), prosesau mewnol neu seilos data
Mae technegau anhysbysu clasurol yn dinistrio data, gan olygu nad yw'r data bellach yn addas ar gyfer dadansoddi a dadansoddeg uwch (sbwriel i mewn = sbwriel allan)
Nid yw datrysiadau presennol yn raddadwy oherwydd eu bod yn gweithio'n wahanol fesul set ddata ac fesul math o ddata ac ni allant drin cronfeydd data aml-tabl mawr

Dull data synthetig: datblygu modelau gyda data synthetig cystal â real i:

Lleihau'r defnydd o ddata gwreiddiol, heb rwystro'ch datblygwyr
Datgloi data personol a chael mynediad at fwy o ddata a oedd wedi'i gyfyngu o'r blaen (ee oherwydd preifatrwydd)
Mynediad hawdd a chyflym i ddata perthnasol
Datrysiad graddadwy sy'n gweithio yr un peth ar gyfer pob set ddata, datatype ac ar gyfer cronfeydd data enfawr

Mae hyn yn caniatáu i sefydliadau adeiladu sylfaen ddata gref gyda mynediad hawdd a chyflym at ddata defnyddiadwy o ansawdd uchel i ddatgloi data ac i drosoli cyfleoedd data.

Defnyddiwch achos 2: data prawf synthetig clyfar ar gyfer profi, datblygu a chyflwyno meddalwedd

Mae profi a datblygu gyda data prawf o ansawdd uchel yn hanfodol i ddarparu datrysiadau meddalwedd o'r radd flaenaf. Mae defnyddio data cynhyrchu gwreiddiol yn ymddangos yn amlwg, ond ni chaniateir oherwydd rheoliadau (preifatrwydd). Amgen Test Data Management (TDM) offer yn cyflwyno “legacy-by-design” wrth gael y data prawf yn gywir:

Ddim yn adlewyrchu data cynhyrchu ac nid yw rhesymeg busnes ac uniondeb cyfeiriadol yn cael eu cadw
Gweithiwch yn araf ac yn cymryd llawer o amser
Mae angen gwaith llaw

Dull data synthetig: Profi a datblygu gyda data prawf synthetig a gynhyrchir gan AI i ddarparu datrysiadau meddalwedd o'r radd flaenaf yn graff gyda:

Data tebyg i gynhyrchu gyda rhesymeg busnes wedi'i gadw a chywirdeb cyfeiriadol
Cynhyrchu data yn hawdd ac yn gyflym gydag AI o'r radd flaenaf
Preifatrwydd-wrth-ddyluniad
Hawdd, cyflym a agile

Mae hyn yn galluogi sefydliadau i brofi a datblygu gyda data prawf lefel nesaf i ddarparu datrysiadau meddalwedd o'r radd flaenaf!

Mwy o wybodaeth

Diddordeb? I gael rhagor o wybodaeth am ddata synthetig, ewch i wefan Syntho neu cysylltwch â Wim Kees Janssen. I gael rhagor o wybodaeth am SAS, ewch i www.sas.com neu cysylltwch â kees@syntho.ai.

Yn yr achos defnydd hwn, mae Syntho, SAS a'r NL AIC yn gweithio gyda'i gilydd i gyflawni'r canlyniadau a fwriedir. Mae Syntho yn arbenigwr mewn data synthetig a gynhyrchir gan AI ac mae SAS yn arwain y farchnad mewn dadansoddeg ac yn cynnig meddalwedd ar gyfer archwilio, dadansoddi a delweddu data.

* Yn Rhagfynegi 2021 - Strategaethau Data a Dadansoddeg i Lywodraethu, Graddio a Thrawsnewid Busnes Digidol, Gartner, 2020.

Beth yw data synthetig?

Adroddiad sicrwydd ansawdd

Gwerthusiad allanol gan SAS

Data synthetig cyfres amser

Sganiwr PII

Data Ffug Synthetig

Mapio cyson

Dad-adnabod a syntheteiddio

Data Synthetig yn seiliedig ar Reol

Is-osod

Defnyddio ac integreiddio

Connectors

Nodweddion estynedig

Data a gefnogir

Dogfennaeth defnyddiwr

Trefnwch demo

Prisiau

Data synthetig fel data prawf

Data synthetig ar gyfer dadansoddeg

Data synthetig ar gyfer rhannu data

Data synthetig ar gyfer arddangosiadau cynnyrch

Gofal Iechyd

Cyllid

Sefydliadau Cyhoeddus

Dogfennaeth defnyddiwr

Papurau Gwyn a Chanllawiau

Blog

Gwe-seminarau

Astudiaethau Achos

Prisiau

Amdanom ni

Swyddi