Sonraí Sintéiseacha a ghintear le AI, rochtain éasca agus tapa ar shonraí ardchaighdeáin?

Ghin AI sonraí sintéiseacha go praiticiúil

Tá sé mar aidhm ag Syntho, saineolaí ar shonraí sintéiseacha a ghintear le AI, casadh privacy by design isteach buntáiste iomaíoch le sonraí sintéiseacha AI-ghinte. Cabhraíonn siad le heagraíochtaí bonn láidir sonraí a thógáil le rochtain éasca tapa ar shonraí ardchaighdeáin agus bhuaigh siad Gradam Nuálaíochta Philips le déanaí.

Mar sin féin, is réiteach réasúnta nua é giniúint sonraí sintéiseacha le AI a thugann isteach ceisteanna coitianta go hiondúil. Chun iad seo a fhreagairt, chuir Syntho tús le cás-staidéar in éineacht le SAS, ceannaire margaidh in Advanced Analytics agus bogearraí AI.

I gcomhar le Comhghuaillíocht AI na hÍsiltíre (NL AIC), rinne siad imscrúdú ar luach sonraí sintéiseacha trí shonraí sintéiseacha a ghin an t-Inneall Syntho a chur i gcomparáid le sonraí bunaidh trí mheasúnuithe éagsúla ar cháilíocht sonraí, bailíocht dhlíthiúil agus inúsáidteacht.

Nach réiteach é anaithnidiú sonraí?

Is é an rud is coiteann do theicnící clasaiceacha anaithnidithe ná go n-ionramhálann siad sonraí bunaidh chun bac a chur ar dhaoine aonair a lorg ar ais. Samplaí is ea ginearálú, cosc, glanadh, ainm bréige, chumhdach sonraí, agus suaitheadh ​​na rónna agus na gcolún. Is féidir leat samplaí a fháil sa tábla thíos.

anaithnidiú sonraí

Tugann na teicníochtaí sin isteach 3 phríomhdhúshlán:

  1. Oibríonn siad go difriúil de réir cineáil sonraí agus de réir tacar sonraí, rud a fhágann go bhfuil siad deacair scála a dhéanamh. Ina theannta sin, ós rud é go n-oibríonn siad ar bhealach difriúil, beidh díospóireacht ann i gcónaí faoi na modhanna atá le cur i bhfeidhm agus cén teaglaim de theicníochtaí a theastaíonn.
  2. Bíonn caidreamh duine le duine i gcónaí leis na sonraí bunaidh. Ciallaíonn sé seo go mbeidh riosca príobháideachta ann i gcónaí, go háirithe mar gheall ar gach tacar sonraí oscailte agus na teicnící atá ar fáil chun na tacair shonraí sin a nascadh.
  3. Déanann siad sonraí a ionramháil agus mar sin scriosann siad sonraí sa phróiseas. Tá sé seo thar a bheith tubaisteach do thascanna AI a bhfuil “cumhacht thuarthach” riachtanach, mar go mbeidh droch-léargais ón tsamhail AI mar thoradh ar shonraí droch-chaighdeán (Beidh truflais amach mar thoradh ar shonraí droch-chaighdeán).

Déantar measúnú ar na pointí seo freisin tríd an gcás-staidéar seo.

Réamheolas ar an gcás-staidéar

Don chás-staidéar, ba é an sprioc-thacar sonraí ná tacar sonraí teileachumarsáide a chuir SAS ar fáil ina raibh sonraí 56.600 custaiméir. Tá 128 colún sa tacar sonraí, lena n-áirítear colún amháin a thugann le fios cé acu a d’fhág custaiméir an chuideachta (.i. ‘curtha’) nó nár fhág. Ba é sprioc an chás-staidéir ná na sonraí sintéiseacha a úsáid chun roinnt samhlacha a oiliúint chun athrú custaiméara a thuar agus chun feidhmíocht na múnlaí oilte sin a mheas. Toisc gur tasc aicmithe é tuar chuinneog, roghnaigh SAS ceithre mhúnla aicmithe a bhfuil tóir orthu chun na réamh-mheastacháin a dhéanamh, lena n-áirítear:

  1. Foraois randamach
  2. Treisiú grádán
  3. Aischéimniú lóistíochta
  4. Líonra Neural

Sular gineadh na sonraí sintéiseacha, rinne SAS an tacar sonraí teileachumarsáide a roinnt go randamach ina thacar traenach (chun na samhlacha a oiliúint) agus ina thacar coinneála (chun na samhlacha a scóráil). Is féidir measúnú neamhchlaonta a dhéanamh ar cé chomh maith agus a d'fhéadfadh an tsamhail aicmithe feidhmiú nuair a chuirtear i bhfeidhm ar shonraí nua é má bhíonn sraith coinneála ar leith ann.

Ag baint úsáide as an tsraith traenach mar ionchur, d'úsáid Syntho a Inneall Syntho chun tacar sonraí sintéiseacha a ghiniúint. Ar mhaithe le tagarmharcáil, chruthaigh SAS leagan láimhsithe den fhoireann traenach tar éis teicnící éagsúla anaithnidithe a chur i bhfeidhm chun tairseach áirithe (k-anaithnideacht) a bhaint amach. Bhí ceithre thacar sonraí mar thoradh ar na chéad chéimeanna:

  1. Tacar sonraí traenach (.i. an tacar sonraí bunaidh lúide an tacar sonraí coinneála)
  2. Tacar sonraí coinneála (.i. fothacar den bhunthacar sonraí)
  3. Tacar sonraí gan ainm (bunaithe ar an tacar sonraí traenach)
  4. Tacar sonraí sintéiseach (bunaithe ar an tacar sonraí traenach)

Baineadh úsáid as tacair sonraí 1, 3 agus 4 chun gach samhail aicmithe a thraenáil, rud a d’fhág go raibh 12 (3 x 4) múnla oilte ann. D’úsáid SAS an tacar sonraí coinneála ina dhiaidh sin chun a chruinneas a mheasfaidh gach samhail cur i bhfeidhm an chustaiméara a thomhas. Cuirtear na torthaí i láthair thíos, ag tosú le roinnt staitisticí bunúsacha.

Píblíne Foghlama Meaisín ginte i SAS

Fíor: Píblíne Foghlama Meaisín a ghintear i Mianadóireacht Sonraí Amhairc SAS agus Foghlaim Meaisín

Staidreamh bunúsacha nuair a dhéantar comparáid idir sonraí gan ainm agus sonraí bunaidh

Scriosann teicnící anaithnidithe fiú patrúin bhunúsacha, loighic ghnó, caidrimh agus staitisticí (mar atá sa sampla thíos). Dá bhrí sin baintear torthaí neamhiontaofa as sonraí gan ainm a úsáid le haghaidh anailísíochta bunúsacha. Déanta na fírinne, de bharr droch-chaighdeán na sonraí gan ainm bhí sé beagnach dodhéanta iad a úsáid le haghaidh ardtascanna anailíse (m.sh. samhaltú AI/ML agus deais).

sonraí gan ainm a chur i gcomparáid le sonraí bunaidh

Staidreamh bunúsacha nuair a dhéantar comparáid idir sonraí sintéiseacha agus sonraí bunaidh

Caomhnaíonn giniúint sonraí sintéiseacha le AI patrúin bhunúsacha, loighic gnó, caidrimh agus staitisticí (mar atá sa sampla thíos). Dá bhrí sin baintear torthaí iontaofa as sonraí sintéiseacha a úsáid le haghaidh anailísíochta bunúsacha. Príomhcheist, an gcoinnítear sonraí sintéiseacha le haghaidh ardtascanna anailíse (m.sh. samhaltú AI/ML agus deais)?

sonraí sintéiseacha a chur i gcomparáid le sonraí bunaidh

Sonraí sintéiseacha a ghintear le AI agus ard-anailísíocht

Coinnítear sonraí sintéiseacha ní hamháin do phatrúin bhunúsacha (mar a léiríodh sna ceapacha roimhe seo), sealbhaíonn sé patrúin staitistiúla dhomhain ‘i bhfolach’ a theastaíonn le haghaidh ardtascanna anailíse. Léirítear an dara ceann sa bharrachairt thíos, rud a thugann le fios go bhfuil cruinneas na múnlaí a gcuirtear oiliúint orthu ar shonraí sintéiseacha i gcomparáid le samhlacha atá oilte ar bhunshonraí comhchosúil. Ina theannta sin, agus achar faoin gcuar (AUC*) gar do 0.5, is iad na samhlacha atá oilte ar shonraí gan ainm is measa i bhfad. Tá an tuarascáil iomlán mar aon le gach ardmheasúnú anailíse ar shonraí sintéiseacha i gcomparáid leis na sonraí bunaidh ar fáil ach é a iarraidh.

*AUC: is tomhas é an t-achar faoin gcuar do chruinneas samhlacha ard-anailísíochta, ag cur san áireamh rudaí dearfacha, deimhneacha bréagacha, claonchlónna bréagacha agus fíordhiúltacha. Ciallaíonn 0,5 go ndéanann múnla a thuar go randamach agus nach bhfuil aon chumhacht thuarthach aige agus ciallaíonn 1 go bhfuil an tsamhail ceart i gcónaí agus go bhfuil cumhacht thuarthach iomlán aige.

Ina theannta sin, is féidir na sonraí sintéiseacha seo a úsáid chun tréithe sonraí agus na príomh-athróga a theastaíonn chun na samhlacha a oiliúint a thuiscint. Bhí na hionchuir a roghnaigh na halgartaim ar shonraí sintéiseacha i gcomparáid le sonraí bunaidh an-chosúil. Mar sin, is féidir an próiseas samhaltaithe a dhéanamh ar an leagan sintéiseach seo, rud a laghdaíonn an baol sáruithe sonraí. Mar sin féin, nuair atáthar ag déanamh tátal ar thaifid aonair (m.sh. custaiméir telco) moltar athoiliúint a chur ar bhunshonraí le haghaidh inmhínithe, glacadh méadaithe nó díreach mar gheall ar rialáil.                              

AUC de réir Algartam grúpáilte de réir Modh

AUC

Conclúidí:

  • Léiríonn samhlacha atá oilte ar shonraí sintéiseacha i gcomparáid leis na samhlacha a oiliúint ar bhunshonraí feidhmíocht an-chosúil
  • Léiríonn samhlacha arna n-oiliúint ar shonraí gan ainm a bhfuil ‘teicnící clasaiceacha anaithnidithe’ feidhmíocht níos lú acu i gcomparáid le samhlacha atá oilte ar na sonraí bunaidh nó ar na sonraí sintéiseacha
  • Tá giniúint sonraí sintéiseacha éasca agus tapa mar go n-oibríonn an teicníc díreach mar an gcéanna de réir an tacair sonraí agus de réir an chineáil sonraí.

Cásanna úsáide sonraí sintéiseacha breisluacha

Úsáid cás 1: Sonraí sintéiseacha le haghaidh forbairt múnla agus ard-anailísíocht

Tá bonn láidir sonraí le rochtain éasca agus thapa ar shonraí inúsáidte ardchaighdeáin ríthábhachtach chun samhlacha a fhorbairt (m.sh. deais [BI] agus ard-anailísíocht [AI & ML]). Mar sin féin, tá go leor eagraíochtaí thíos le bunús sonraí fo-optamach as a dtagann 3 phríomhdhúshlán:

  • Tógann sé rochtain ar shonraí in aois mar gheall ar rialacháin (príobháideacht), próisis inmheánacha nó silos sonraí
  • Scriosann teicnící anaithnidithe clasaiceacha sonraí, rud a fhágann nach bhfuil na sonraí oiriúnach a thuilleadh le haghaidh anailíse agus ard-anailísíochta (truflais isteach = truflais amach)
  • Níl na réitigh atá ann cheana féin inscálaithe toisc go n-oibríonn siad ar bhealach difriúil de réir tacar sonraí agus in aghaidh an chineáil sonraí agus ní féidir leo bunachair shonraí mhóra iltábla a láimhseáil

Cur chuige sonraí sintéiseacha: samhlacha a fhorbairt le sonraí sintéiseacha chomh maith agus is fíor chun:

  • Úsáid sonraí bunaidh a íoslaghdú, gan bac a chur ar d’fhorbróirí
  • Díghlasáil sonraí pearsanta agus rochtain a bheith acu ar níos mó sonraí a bhí srianta roimhe seo (m.sh. mar gheall ar phríobháideacht)
  • Rochtain éasca agus tapa ar shonraí ar shonraí ábhartha
  • Tuaslagán inscálaithe a oibríonn mar an gcéanna do gach tacar sonraí, datatype agus do bhunachair sonraí ollmhóra

Ligeann sé seo don eagraíocht bonn láidir sonraí a thógáil le rochtain éasca tapa ar shonraí inúsáidte ardchaighdeáin chun sonraí a dhíghlasáil agus chun deiseanna sonraí a ghiaráil.

 

Úsáid cás 2: sonraí tástála sintéiseacha cliste le haghaidh tástála, forbairt agus seachadadh bogearraí

Tá tástáil agus forbairt le sonraí tástála ardchaighdeáin riachtanach chun réitigh bogearraí den scoth a sholáthar. Is léir go n-úsáidfí bunshonraí táirgthe, ach ní cheadaítear é mar gheall ar rialacháin (príobháideacht). Malartach Test Data Management Tugann uirlisí (TDM) isteach “legacy-by-design” chun na sonraí tástála a fháil i gceart:

  • Ní léiríonn siad sonraí táirgthe agus ní choinnítear loighic ghnó agus sláine tagartha
  • Obair mall agus Tógann am
  • Tá obair láimhe ag teastáil

Cur chuige sonraí sintéiseacha: Déan tástáil agus forbairt le sonraí tástála sintéiseacha ginte AI chun réitigh bogearraí den scoth a sheachadadh atá cliste le:

  • Sonraí cosúil le táirgeadh le loighic ghnó leasaithe agus sláine tagartha
  • Giniúint sonraí éasca agus tapa leis an AI úrscothach
  • Príobháideacht de réir dearadh
  • Éasca, tapa agus agile

Ligeann sé seo don eagraíocht tástáil agus forbairt a dhéanamh le sonraí tástála den chéad leibhéal eile chun réitigh bogearraí den scoth a sholáthar!

Tuilleadh eolais

Spéis agat? Chun tuilleadh eolais a fháil faoi shonraí sintéiseacha, tabhair cuairt ar shuíomh Gréasáin Syntho nó déan teagmháil le Wim Kees Janssen. Chun tuilleadh eolais a fháil faoi SAS, tabhair cuairt ar www.sas.com nó déan teagmháil le kees@syntho.ai.

Sa chás úsáide seo, oibríonn Syntho, SAS agus an NL AIC le chéile chun na torthaí atá beartaithe a bhaint amach. Is saineolaí é Syntho ar shonraí sintéiseacha arna ghiniúint ag AI agus tá SAS ina cheannaire margaidh san anailísíocht agus cuireann sé bogearraí ar fáil chun sonraí a iniúchadh, a anailísiú agus a léirshamhlú.

* Tuar 2021 - Straitéisí Sonraí agus Anailísíochta chun Gnó Digiteach a Rialú, a Scála agus a Athrú, Gartner, 2020.

clúdach treoir sintéise

Sábháil do threoir sonraí sintéiseacha anois!