Ананімныя даныя супраць сінтэтычных даных

Калі вы ананімізуеце свае даныя перад правядзеннем тэсціравання дадзеных аналітыкі, тут дзейнічаюць некалькі фактараў:

  1. Амаль ва ўсіх выпадках ананімныя даныя ўсё яшчэ можна прасачыць да асобных асоб з-за пэўных і ўнікальных радкоў (напрыклад, медыцынскія запісы)
  2. Чым больш вы ананімізуеце або абагульняеце, тым больш дадзеных вы знішчаеце. Гэта зніжае якасць вашых даных і, такім чынам, вашу інфармацыю
  3. Ананімізацыя працуе па-рознаму для розных фарматаў даных. Гэта азначае, што ён не маштабуецца і можа заняць вельмі шмат часу

Сінтэтычныя дадзеныя вырашаюць усе гэтыя недахопы і многае іншае. Паглядзіце відэа ніжэй, каб убачыць, як эксперт па аналітыцы з SAS (лідэр сусветнага рынку ў галіне аналітыкі) растлумачыць сваю ацэнку розніцы ў якасці паміж зыходнымі данымі, ананімнымі дадзенымі і сінтэтычнымі данымі, згенераванымі Syntho.

Гэта відэа знята з Syntho x SAS D[N]A Café пра сінтэтычныя даныя, створаныя штучным інтэлектам. Знайдзіце поўнае відэа тут.

Эдвін ван Унен даслаў арыгінальны набор даных у Syntho, і мы сінтэзавалі набор даных. Але пытанне было таксама: «Што будзе, калі мы параўнаем сінтэтычныя даныя з ананімнымі?» Паколькі вы губляеце шмат інфармацыі ў ананімных дадзеных, гэта таксама адбудзецца пры сінтэзе набору даных? Мы пачалі з набора даных з тэлекамунікацыйнай галіны з 56.000 128 радкоў і XNUMX слупкоў інфармацыі аб адтоку кампаніі. Гэты набор даных быў як сінтэзаваны, так і ананімны, каб Эдвін мог параўнаць сінтэзацыю з ананімізацыяй. Затым Эдвін пачаў мадэляваць з дапамогай SAS Viya. Ён пабудаваў некалькі мадэляў адтоку на зыходным наборы даных, выкарыстоўваючы класічныя метады рэгрэсіі і дрэвы рашэнняў, а таксама больш складаныя метады, такія як нейронавыя сеткі, градыентнае павышэнне, выпадковы лес - такія метады. Выкарыстанне стандартных параметраў SAS Viya пры стварэнні мадэляў.

Затым прыйшоў час паглядзець на вынікі. Вынікі былі вельмі перспектыўнымі для сінтэтычных дадзеных, а не для ананімізацыі. Для экспертаў у аўдыторыі, якія не маюць машыннага навучання, мы глядзім на вобласць пад крывой ROC, якая гаворыць пра дакладнасць мадэлі. Параўноўваючы зыходныя дадзеныя з ананімнымі дадзенымі, мы бачым, што зыходная мадэль дадзеных мае плошчу пад крывой ROC роўнай 8, што даволі добра. Аднак ананімныя дадзеныя маюць вобласць пад крывой ROC 6. Гэта азначае, што мы губляем шмат інфармацыі з ананімнай мадэллю, так што вы губляеце вялікую сілу прагназавання.

Але тады ўзнікае пытанне, як наконт сінтэтычных дадзеных? Тут мы зрабілі тое ж самае, але замест таго, каб ананімізаваць дадзеныя, Syntho сінтэзаваў дадзеныя. Цяпер мы бачым, як зыходныя дадзеныя, так і сінтэтычныя даныя маюць плошчу пад крывой ROC 8, што вельмі падобна. Не зусім аднолькавыя з-за зменлівасці, але вельмі падобныя. Гэта азначае, што патэнцыял сінтэтычных дадзеных вельмі перспектыўны - Эдвін вельмі рады гэтаму.

група людзей усміхаецца

Дадзеныя сінтэтычныя, але наша каманда сапраўдная!

Звяжыцеся з Syntho і адзін з нашых экспертаў звяжацца з вамі на хуткасці святла, каб вывучыць каштоўнасць сінтэтычных дадзеных!