Data isiyojulikana dhidi ya data ya Sanisi

Ukificha data yako kabla ya kufanya majaribio ya data ya uchanganuzi wa data, kuna mambo kadhaa yanayohusika:

  1. Katika takriban matukio yote, data ambayo haijatambulishwa bado inaweza kufuatiliwa hadi kwa watu binafsi kutokana na safu mlalo mahususi na za kipekee (km rekodi za matibabu)
  2. Kadiri unavyoficha jina au kujumlisha, ndivyo unavyoharibu data zaidi. Hii inapunguza ubora wa data yako na hivyo maarifa yako
  3. Kuficha utambulisho hufanya kazi tofauti kwa miundo tofauti ya data. Hii inamaanisha kuwa haiwezi kupunguzwa na inaweza kuchukua muda mwingi

Data ya syntetisk hutatua mapungufu haya yote na zaidi. Tazama video iliyo hapa chini ili kuona mtaalamu wa uchanganuzi kutoka SAS (kiongozi wa soko la kimataifa katika uchanganuzi) akielezea kuhusu tathmini yake kuhusu tofauti ya ubora kati ya data asili, data isiyojulikana na ya Syntho inayozalisha data sanisi.

Video hii imenaswa kutoka kwa Syntho x SAS D[N]A Café kuhusu AI Inayozalishwa Data. Pata video kamili hapa.

Edwin van Unen alituma seti ya data asili kwa Syntho na tukaunganisha mkusanyiko wa data. Lakini swali pia lilikuwa: "Ni nini kitatokea ikiwa tutalinganisha data ya syntetisk na data isiyojulikana?" Kwa sababu unapoteza maelezo mengi katika data isiyojulikana, je, hili pia litafanyika wakati wa kusanifu mkusanyiko wa data? Tulianza na seti ya data kutoka kwa tasnia ya mawasiliano yenye safu mlalo 56.000 na safu wima 128 za habari za msukosuko wa kampuni. Seti hii ya data iliundwa na kutokujulikana ili Edwin aweze kulinganisha kusanisi na kutokutambulisha. Kisha, Edwin alianza kuunda kwa kutumia SAS Viya. Aliunda miundo kadhaa ya churn kwenye mkusanyiko wa data asilia, kwa kutumia mbinu za urejeshaji rejea na miti ya maamuzi, lakini pia mbinu za kisasa zaidi kama vile mitandao ya neva, kuongeza upinde rangi, msitu nasibu - aina hizi za mbinu. Kutumia chaguzi za kawaida za SAS Viya wakati wa kujenga mifano.

Kisha, ilikuwa wakati wa kuangalia matokeo. Matokeo yalikuwa ya kuahidi sana kwa data ya sanisi na si ya kutokutambulisha. Kwa wataalam wasiotumia mashine kwenye hadhira, tunaangalia eneo lililo chini ya ROC-curve ambayo inaeleza jambo kuhusu usahihi wa modeli. Kwa kulinganisha data asili na data isiyojulikana, tunaona kwamba muundo asili wa data una eneo chini ya ROC-curve ya .8, ambayo ni nzuri sana, Hata hivyo, data isiyojulikana ina eneo chini ya ROC-curve ya .6. Hii inamaanisha kuwa tunapoteza maelezo mengi na muundo usiojulikana kwa hivyo unapoteza uwezo mwingi wa kutabiri.

Lakini basi, swali ni nini kuhusu data ya synthetics? Hapa, tulifanya vivyo hivyo lakini badala ya kutokutambulisha data, Syntho alikusanya data. Sasa, tunaona data asili na data ya sintetiki ina eneo chini ya ROC-curve ya .8, ambayo inafanana sana. Sio sawa kwa sababu ya kutofautiana, lakini sawa sana. Hii inamaanisha, uwezo wa data ya syntetisk unaahidi sana - Edwin anafurahi sana kuhusu hili.

kundi la watu wakitabasamu

Data ni ya syntetisk, lakini timu yetu ni halisi!

Wasiliana na Syntho na mmoja wa wataalam wetu atawasiliana na wewe kwa kasi ya mwangaza ili kuchunguza thamani ya data ya sintetiki!