Gervigreind tilbúin gögn, auðveldur og fljótur aðgangur að hágæða gögnum?

AI myndaði tilbúið gögn í reynd

Syntho, sérfræðingur í gervigreindum gervigögnum, stefnir að því að snúa privacy by design í samkeppnisforskot með gervigreindum tilbúnum gögnum. Þeir hjálpa fyrirtækjum að byggja upp sterkan gagnagrunn með auðveldum og skjótum aðgangi að hágæða gögnum og unnu nýlega Philips Innovation Award.

Hins vegar er tilbúið gagnaframleiðsla með gervigreind tiltölulega ný lausn sem kynnir venjulega algengar spurningar. Til að svara þessu hóf Syntho dæmisögu ásamt SAS, markaðsleiðtoga í Advanced Analytics og AI hugbúnaði.

Í samvinnu við hollenska AI Coalition (NL AIC) könnuðu þeir gildi gervigagnagagna með því að bera saman gervigreind mynduð gervigögn sem mynduð eru af Syntho Engine við upprunaleg gögn með ýmsum matum á gagnagæðum, lagagildi og notagildi.

Er nafnleynd gagna ekki lausn?

Klassískar nafnleyndaraðferðir eiga það sameiginlegt að vinna með upprunaleg gögn til að hindra að rekja einstaklinga til baka. Dæmi eru alhæfing, bæling, þurrkun, dulnefni, gagnagríma og uppstokkun á línum og dálkum. Þú getur fundið dæmi í töflunni hér að neðan.

Þessar aðferðir kynna 3 lykiláskoranir:

Þær virka á mismunandi hátt eftir gagnategundum og gagnasettum, sem gerir þær erfitt að skala. Ennfremur, þar sem þær virka öðruvísi, verður alltaf deilt um hvaða aðferðum eigi að beita og hvaða samsetningu tækni er þörf.
Það er alltaf eitt-á-mann samband við upprunalegu gögnin. Þetta þýðir að það verður alltaf hætta á persónuvernd, sérstaklega vegna allra opinna gagnasöfna og tiltækrar tækni til að tengja þessi gagnasöfn.
Þeir vinna með gögn og eyða þar með gögnum í ferlinu. Þetta er sérstaklega hrikalegt fyrir gervigreind verkefni þar sem „forspárkraftur“ er nauðsynlegur, vegna þess að slæm gæði gagna munu leiða til slæmrar innsýnar frá gervigreindarlíkaninu (sorp-inn mun leiða til sorps).

Þessir punktar eru einnig metnir með þessari dæmisögu.

Kynning á dæmisögunni

Fyrir tilviksrannsóknina var markgagnagrunnurinn fjarskiptagagnasöfn sem SAS lagði til og innihélt gögn um 56.600 viðskiptavini. Gagnapakkinn inniheldur 128 dálka, þar á meðal einn dálk sem gefur til kynna hvort viðskiptavinur hafi yfirgefið fyrirtækið (þ.e. „kveikt“) eða ekki. Markmiðið með tilviksrannsókninni var að nota tilbúnu gögnin til að þjálfa sum líkön til að spá fyrir um viðskiptavin og til að meta frammistöðu þessara þjálfuðu líkana. Þar sem spá um útfall er flokkunarverkefni valdi SAS fjögur vinsæl flokkunarlíkön til að gera spárnar, þar á meðal:

Handahófi skógur
Hækkun á stigi
Logistic afturför
Tauga net

Áður en tilbúnu gögnin voru búin til skipti SAS gagnasöfnum fjarskiptakerfisins af handahófi í lestarsett (til að þjálfa líkönin) og stöðvunarsett (til að meta líkönin). Að hafa sérstakt stöðvunarsett fyrir stig gefur óhlutdrægt mat á hversu vel flokkunarlíkanið gæti reynst þegar það er notað á ný gögn.

Með því að nota lestarsettið sem inntak notaði Syntho Syntho vélina sína til að búa til tilbúið gagnasafn. Til samanburðar, bjó SAS einnig til meðhöndlaða útgáfu af lestarsettinu eftir að hafa beitt ýmsum nafnleyndaraðferðum til að ná ákveðnum þröskuldi (af k-nafnleysi). Fyrri skrefin leiddu til fjögurra gagnapakka:

Lestargagnasett (þ.e. upprunalega gagnasafnið að frádregnum holdout gagnapakkanum)
Holdout gagnasafn (þ.e. undirmengi af upprunalega gagnasafninu)
Nafnlaust gagnasafn (byggt á lestargagnagrunninum)
Tilbúið gagnasafn (byggt á lestargagnagrunninum)

Gagnasett 1, 3 og 4 voru notuð til að þjálfa hvert flokkunarlíkan, sem leiddi til 12 (3 x 4) þjálfaðra líkana. SAS notaði í kjölfarið holdout gagnasafnið til að mæla nákvæmni sem hvert líkan spáir fyrir um viðskiptavin. Niðurstöðurnar eru kynntar hér að neðan, byrjað á nokkrum grunntölfræði.

Mynd: Machine Learning leiðsla búin til í SAS Visual Data Mining og Machine Learning

Grunntölfræði þegar nafnlaus gögn eru borin saman við upprunaleg gögn

Nafnleysistækni eyðileggur jafnvel grunnmynstur, viðskiptarökfræði, sambönd og tölfræði (eins og í dæminu hér að neðan). Notkun nafnlausra gagna fyrir grunngreiningar gefur þannig óáreiðanlegar niðurstöður. Raunar gerðu léleg gæði nafnlausu gagna það nánast ómögulegt að nota þau fyrir háþróuð greiningarverkefni (td AI/ML líkanagerð og mælaborð).

Grunntölfræði þegar borin eru saman tilbúin gögn við upprunaleg gögn

Tilbúin gagnagerð með gervigreind varðveitir grunnmynstur, viðskiptarökfræði, sambönd og tölfræði (eins og í dæminu hér að neðan). Notkun tilbúinna gagna fyrir grunngreiningar gefur þannig áreiðanlegar niðurstöður. Lykilspurning, halda tilbúin gögn fyrir háþróuð greiningarverkefni (td AI/ML líkanagerð og mælaborð)?

Gervigreind mynduð tilbúin gögn og háþróuð greining

Tilbúin gögn eiga ekki aðeins við um grunnmynstur (eins og sýnt er í fyrri söguþræðinum), þau fanga einnig djúp „falin“ tölfræðileg mynstur sem krafist er fyrir háþróuð greiningarverkefni. Hið síðarnefnda er sýnt á súluritinu hér að neðan, sem gefur til kynna að nákvæmni líkana sem þjálfuð eru á tilbúnum gögnum á móti líkönum sem þjálfuð eru á upprunalegum gögnum eru svipuð. Ennfremur, með svæði undir ferlinum (AUC*) nálægt 0.5, standa líkönin sem þjálfuð eru á nafnlausum gögnum lang verst. Skýrslan í heild sinni með öllu háþróuðu greiningarmati á tilbúnum gögnum í samanburði við upprunalegu gögnin er fáanleg sé þess óskað.

*AUC: flatarmálið undir ferlinum er mælikvarði á nákvæmni háþróaðra greiningarlíkana, að teknu tilliti til sannra jákvæðra, rangra jákvæða, falska neikvæða og sanna neikvæða. 0,5 þýðir að líkan spáir tilviljunarkennt og hefur engan forspárkraft og 1 þýðir að líkanið er alltaf rétt og hefur fullan forspárkraft.

Að auki er hægt að nota þessi tilbúnu gögn til að skilja eiginleika gagna og helstu breytur sem þarf til raunverulegrar þjálfunar líkananna. Inntakið sem reiknirit valdi á tilbúnum gögnum samanborið við upprunaleg gögn voru mjög svipuð. Þess vegna er hægt að gera líkanaferlið á þessari tilbúnu útgáfu, sem dregur úr hættu á gagnabrotum. Hins vegar, þegar ályktanir einstakra gagna (td símaviðskiptavinur) eru gerðar, er mælt með endurmenntun á upprunalegum gögnum til útskýringar, aukins samþykkis eða bara vegna reglugerðar.

AUC eftir reiknirit flokkað eftir aðferð

Ályktanir:

Líkön sem þjálfuð eru á tilbúnum gögnum samanborið við líkön sem þjálfuð eru á upprunalegum gögnum sýna mjög svipaða frammistöðu
Líkön sem þjálfuð eru á nafnlausum gögnum með „klassískri nafnleysistækni“ sýna lakari frammistöðu samanborið við líkön sem þjálfuð eru á upprunalegu gögnunum eða tilbúnum gögnum
Gerð tilbúin gagna er auðveld og hröð vegna þess að tæknin virkar nákvæmlega eins á hvert gagnasafn og hverja gagnategund.

Virðisaukandi tilvik til að nota gervigögn

Notkunartilvik 1: Tilbúin gögn fyrir líkanaþróun og háþróaða greiningu

Að hafa sterkan gagnagrunn með auðveldum og skjótum aðgangi að nothæfum, hágæða gögnum er nauðsynlegt til að þróa líkön (td mælaborð [BI] og háþróaða greiningu [AI & ML]). Hins vegar þjást margar stofnanir af óhagkvæmum gagnagrunni sem leiðir af sér 3 lykiláskoranir:

Að fá aðgang að gögnum tekur aldur vegna (persónuverndar) reglugerða, innra ferla eða gagnasilóa
Klassísk nafngreiningartækni eyðileggur gögn, sem gerir gögnin ekki lengur hentug til greiningar og háþróaðrar greiningar (sorp inn = sorp út)
Núverandi lausnir eru ekki skalanlegar vegna þess að þær virka mismunandi eftir gagnasafni og gagnategundum og geta ekki séð um stóra fjöltöflugagnagrunna

Tilbúin gögn nálgun: þróa líkön með eins góð og raunveruleg tilbúin gögn til að:

Lágmarkaðu notkun frumgagna án þess að hindra forritara þína
Opnaðu persónuupplýsingar og hafðu aðgang að fleiri gögnum sem áður voru takmörkuð (td vegna friðhelgi einkalífs)
Auðveldur og fljótur gagnaaðgangur að viðeigandi gögnum
Stærð lausn sem virkar það sama fyrir hvert gagnasafn, gagnategund og fyrir stórfellda gagnagrunna

Þetta gerir fyrirtækinu kleift að byggja upp sterkan gagnagrunn með auðveldum og skjótum aðgangi að nothæfum, hágæða gögnum til að opna gögn og nýta gagnatækifæri.

Notkunartilvik 2: snjöll tilbúin prófunargögn fyrir hugbúnaðarprófun, þróun og afhendingu

Prófun og þróun með hágæða prófunargögnum er nauðsynleg til að skila nýjustu hugbúnaðarlausnum. Notkun upprunalegra framleiðslugagna virðist augljós, en er ekki leyfilegt vegna (persónuverndar) reglugerða. Valkostur Test Data Management (TDM) verkfæri kynna "legacy-by-design“ til að fá prófunargögnin rétt:

Endurspegla ekki framleiðslugögn og viðskiptarökfræði og tilvísunarheilindi eru ekki varðveitt
Vinna hægt og tímafrekt
Handvirk vinna er nauðsynleg

Tilbúin gagnaaðferð: Prófaðu og þróaðu með gervigreindum tilbúnum prófunargögnum til að skila nýjustu hugbúnaðarlausnum snjallar með:

Framleiðslulík gögn með varðveittum viðskiptarökfræði og tilvísunarheilleika
Auðveld og fljótleg gagnaöflun með nýjustu AI
Persónuvernd í hönnun
Auðvelt, hratt og agile

Þetta gerir fyrirtækinu kleift að prófa og þróa með prófunargögnum á næsta stigi til að skila nýjustu hugbúnaðarlausnum!

Meiri upplýsingar

Hefur þú áhuga? Fyrir frekari upplýsingar um tilbúið gögn, farðu á Syntho vefsíðuna eða hafðu samband við Wim Kees Janssen. Fyrir frekari upplýsingar um SAS, heimsækja www.sas.com eða hafðu samband við kees@syntho.ai.

Í þessu notkunartilviki vinna Syntho, SAS og NL AIC saman til að ná tilætluðum árangri. Syntho er sérfræðingur í gervigreindum gervigögnum og SAS er leiðandi á markaði í greiningu og býður upp á hugbúnað til að kanna, greina og sjá gögn.

* Spáir fyrir 2021 – Gagna- og greiningaraðferðir til að stjórna, stækka og umbreyta stafrænum viðskiptum, Gartner, 2020.

Hvað eru tilbúin gögn?

Gæðatryggingarskýrsla

Ytra mat SAS

Tímaraðir gervigögn

PII skanni

Tilbúið spottagögn

Samræmd kortlagning

Af-auðkenning og gervimyndun

Tilbúin gögn byggð á reglu

Undirstilling

Dreifing og samþætting

Tengi

Útvíkkaðir eiginleikar

Stuðningsgögn

Notendaskjöl

Skipuleggðu kynningu

Verð

Tilbúin gögn sem prófunargögn

Tilbúin gögn fyrir greiningar

Tilbúin gögn til að deila gögnum

Tilbúin gögn fyrir kynningu á vöru

Heilbrigðiskerfið

Fjármál

Opinber samtök

Notendaskjöl

Hvítbækur og leiðbeiningar

blogg

Webinars

Case Studies

Verð

Um okkur

Vinnustaðurinn