Синтетичке податке које генерише Синтхо процењују, валидирају и одобравају са екстерне и објективне тачке гледишта стручњаци за податке САС-а.
Иако је Синтхо поносан што својим корисницима нуди напредни извештај о обезбеђењу квалитета, такође разумемо важност екстерне и објективне процене наших синтетичких података од лидера у индустрији. Зато сарађујемо са САС-ом, лидером у аналитици, како бисмо проценили наше синтетичке податке.
САС спроводи различите детаљне процене тачности података, заштите приватности и употребљивости синтетичких података генерисаних помоћу вештачке интелигенције Синтхо у поређењу са оригиналним подацима. Као закључак, САС је оценио и одобрио синтетичке податке Синтхо као тачне, безбедне и употребљиве у поређењу са оригиналним подацима.
Користили смо телеком податке који се користе за предвиђање „одлива“ као циљне податке. Циљ евалуације је био коришћење синтетичких података за обуку различитих модела предвиђања одлива и процену перформанси сваког модела. Пошто је предвиђање одлива задатак класификације, САС је одабрао популарне моделе класификације да би направио предвиђања, укључујући:
Пре генерисања синтетичких података, САС је насумично поделио телекомуникациони скуп података у скуп возова (за обуку модела) и скуп за задржавање (за бодовање модела). Посебан скуп задржавања за бодовање омогућава непристрасну процену о томе колико добро би модел класификације могао да буде примењен на нове податке.
Користећи скуп возова као улаз, Синтхо је користио свој Синтхо Енгине да генерише синтетички скуп података. За бенцхмаркинг, САС је такође направио анонимизовану верзију скупа возова након примене различитих техника анонимизације да би се достигао одређени праг (к-анонимности). Претходни кораци су резултирали у четири скупа података:
Скупови података 1, 3 и 4 су коришћени за обуку сваког модела класификације, што је резултирало са 12 (3 к 4) обучених модела. САС је касније користио скуп података о задржавању да измери тачност сваког модела у предвиђању одлива купаца.
САС спроводи различите детаљне процене тачности података, заштите приватности и употребљивости синтетичких података генерисаних помоћу вештачке интелигенције Синтхо у поређењу са оригиналним подацима. Као закључак, САС је оценио и одобрио синтетичке податке Синтхо као тачне, безбедне и употребљиве у поређењу са оригиналним подацима.
Синтетички подаци из Синтхо-а важе не само за основне обрасце, већ обухватају и дубоке 'скривене' статистичке обрасце потребне за напредне аналитичке задатке. Ово последње је приказано на тракастом графикону, што указује да је тачност модела обучених на синтетичким подацима у односу на моделе обучене на оригиналним подацима слична. Дакле, синтетички подаци се могу користити за стварну обуку модела. Уноси и варијабилна важност коју су алгоритми одабрали на синтетичким подацима у поређењу са оригиналним подацима били су веома слични. Отуда се закључује да се процес моделирања може обавити на синтетичким подацима, као алтернативи за коришћење реалних осетљивих података.
Класичне технике анонимизације имају заједничко то што манипулишу оригиналним подацима како би ометале проналажење појединаца. Они манипулишу подацима и на тај начин уништавају податке у процесу. Што више анонимизујете, то су ваши подаци боље заштићени, али и више се ваши подаци уништавају. Ово је посебно погубно за АИ и задатке моделирања где је „снага предвиђања“ од суштинског значаја, јер ће подаци лошег квалитета довести до лоших увида из АИ модела. САС је то показао, са површином испод криве (АУЦ*) близу 0.5, показујући да модели обучени на анонимним подацима имају далеко најгоре резултате.
Корелације и односи између варијабли су тачно сачувани у синтетичким подацима.
Подручје испод криве (АУЦ), метрика за мерење перформанси модела, остала је доследна.
Штавише, значај варијабли, који је указивао на предиктивну моћ варијабли у моделу, остао је нетакнут када се упоређују синтетички подаци са оригиналним скупом података.
На основу ових запажања од стране САС-а и коришћењем САС Вииа-е, можемо са сигурношћу закључити да су синтетички подаци које генерише Синтхо Енгине заиста једнаки стварним подацима у смислу квалитета. Ово потврђује употребу синтетичких података за развој модела, утирући пут напредној аналитици са синтетичким подацима.