Екстерна евалуација наших синтетичких података од стране стручњака за податке САС-а

Наши синтетички подаци су процењено одобрен од стране стручњака за податке из СРС

Увод у екстерну евалуацију наших синтетичких података од стране стручњака за податке САС-а

Шта смо урадили?

Синтетичке податке које генерише Синтхо процењују, валидирају и одобравају са екстерне и објективне тачке гледишта стручњаци за податке САС-а.

Зашто стручњаци за податке САС-а екстерно процењују наше синтетичке податке?

Иако је Синтхо поносан што својим корисницима нуди напредни извештај о обезбеђењу квалитета, такође разумемо важност екстерне и објективне процене наших синтетичких података од лидера у индустрији. Зато сарађујемо са САС-ом, лидером у аналитици, како бисмо проценили наше синтетичке податке.

САС спроводи различите детаљне процене тачности података, заштите приватности и употребљивости синтетичких података генерисаних помоћу вештачке интелигенције Синтхо у поређењу са оригиналним подацима. Као закључак, САС је оценио и одобрио синтетичке податке Синтхо као тачне, безбедне и употребљиве у поређењу са оригиналним подацима.

Шта је САС урадио током ове процене?

Користили смо телеком податке који се користе за предвиђање „одлива“ као циљне податке. Циљ евалуације је био коришћење синтетичких података за обуку различитих модела предвиђања одлива и процену перформанси сваког модела. Пошто је предвиђање одлива задатак класификације, САС је одабрао популарне моделе класификације да би направио предвиђања, укључујући:

  1. Случајна шума
  2. Појачавање градијента
  3. Логистичка регресија
  4. Неуронске мреже

Пре генерисања синтетичких података, САС је насумично поделио телекомуникациони скуп података у скуп возова (за обуку модела) и скуп за задржавање (за бодовање модела). Посебан скуп задржавања за бодовање омогућава непристрасну процену о томе колико добро би модел класификације могао да буде примењен на нове податке.

Користећи скуп возова као улаз, Синтхо је користио свој Синтхо Енгине да генерише синтетички скуп података. За бенцхмаркинг, САС је такође направио анонимизовану верзију скупа возова након примене различитих техника анонимизације да би се достигао одређени праг (к-анонимности). Претходни кораци су резултирали у четири скупа података:

  1. Скуп података о возу (тј. оригинални скуп података минус скуп података о задржавању)
  2. Скуп података који се задржава (тј. подскуп оригиналног скупа података)
  3. Анонимизовани скуп података (анонимизовани подаци скупа података о возу, оригинални скуп података минус скуп података о задржавању)
  4. Синтетички скуп података (синтетизовани подаци скупа података о возу, оригинални скуп података минус скуп података о задржавању)

Скупови података 1, 3 и 4 су коришћени за обуку сваког модела класификације, што је резултирало са 12 (3 к 4) обучених модела. САС је касније користио скуп података о задржавању да измери тачност сваког модела у предвиђању одлива купаца.

САС спроводи различите детаљне процене тачности података, заштите приватности и употребљивости синтетичких података генерисаних помоћу вештачке интелигенције Синтхо у поређењу са оригиналним подацима. Као закључак, САС је оценио и одобрио синтетичке податке Синтхо као тачне, безбедне и употребљиве у поређењу са оригиналним подацима.

Имате било каквих питања?

Разговарајте са једним од наших стручњака

Почетни резултати процене података од стране САС

Модели обучени на синтетичким подацима имају веома сличан резултат у поређењу са моделима обученим на оригиналним подацима

Синтетички подаци из Синтхо-а важе не само за основне обрасце, већ обухватају и дубоке 'скривене' статистичке обрасце потребне за напредне аналитичке задатке. Ово последње је приказано на тракастом графикону, што указује да је тачност модела обучених на синтетичким подацима у односу на моделе обучене на оригиналним подацима слична. Дакле, синтетички подаци се могу користити за стварну обуку модела. Уноси и варијабилна важност коју су алгоритми одабрали на синтетичким подацима у поређењу са оригиналним подацима били су веома слични. Отуда се закључује да се процес моделирања може обавити на синтетичким подацима, као алтернативи за коришћење реалних осетљивих података.

Зашто модели обучени за анонимизиране податке имају лошије резултате?

Класичне технике анонимизације имају заједничко то што манипулишу оригиналним подацима како би ометале проналажење појединаца. Они манипулишу подацима и на тај начин уништавају податке у процесу. Што више анонимизујете, то су ваши подаци боље заштићени, али и више се ваши подаци уништавају. Ово је посебно погубно за АИ и задатке моделирања где је „снага предвиђања“ од суштинског значаја, јер ће подаци лошег квалитета довести до лоших увида из АИ модела. САС је то показао, са површином испод криве (АУЦ*) близу 0.5, показујући да модели обучени на анонимним подацима имају далеко најгоре резултате.

Додатни резултати процене синтетичких података од стране САС-а

Додатни резултати процене синтетичких података од стране САС-а

Корелације и односи између варијабли су тачно сачувани у синтетичким подацима.

Подручје испод криве (АУЦ), метрика за мерење перформанси модела, остала је доследна.

Штавише, значај варијабли, који је указивао на предиктивну моћ варијабли у моделу, остао је нетакнут када се упоређују синтетички подаци са оригиналним скупом података.

На основу ових запажања од стране САС-а и коришћењем САС Вииа-е, можемо са сигурношћу закључити да су синтетички подаци које генерише Синтхо Енгине заиста једнаки стварним подацима у смислу квалитета. Ово потврђује употребу синтетичких података за развој модела, утирући пут напредној аналитици са синтетичким подацима.

Закључци стручњака за податке САС-а

Сас лого

Наши синтетички подаци су одобрен од стране стручњака за податке САС-а

Референтни чланци

синто поклопац водича

Сачувајте свој водич за синтетичке податке сада!