Анонимизовани подаци наспрам синтетичких података

Ако анонимизирате своје податке пре него што извршите тестирање података аналитике података, постоји неколико фактора у игри:

У скоро свим случајевима, анонимни подаци се и даље могу пратити до појединаца због специфичних и јединствених редова (нпр. медицински картони)
Што више анонимизујете или генерализујете, више података уништавате. Ово смањује квалитет ваших података, а самим тим и ваших увида
Анонимизација функционише другачије за различите формате података. То значи да није скалабилно и може бити дуготрајно

Синтетички подаци решавају све ове недостатке и још много тога. Погледајте видео испод да бисте видели како стручњак за аналитику из САС-а (глобалног тржишног лидера у аналитици) објашњава своју процену о разлици у квалитету између оригиналних података, анонимизованих података и синтетичких података генерисаних од стране Синтхо-а.

Овај видео је снимљен из Синтхо к САС Д[Н]А Цафе-а о синтетичким подацима генерисаним помоћу вештачке интелигенције. Пронађите цео видео овде.

Едвин ван Унен је послао оригинални скуп података у Синтхо и ми смо синтетизовали скуп података. Али питање је такође било: „Шта ће се догодити ако упоредимо синтетичке податке са анонимним подацима?“ Пошто губите много информација у анонимним подацима, да ли ће се то десити и када се синтетише скуп података? Почели смо са скупом података из индустрије телекомуникација са 56.000 редова и 128 колона информација о одливима компаније. Овај скуп података је синтетизован и анонимизован тако да је Едвин могао да упореди синтезу са анонимизацијом. Затим је Едвин почео да се бави моделирањем користећи САС Вииа. Направио је неколико модела цхурн на оригиналном скупу података, користећи класичне технике регресије и стабла одлучивања, али и софистицираније технике као што су неуронске мреже, повећање градијента, насумична шума – ове врсте техника. Коришћење стандардних САС Вииа опција приликом израде модела.

Онда је дошло време да се погледају резултати. Резултати су били веома обећавајући за синтетичке податке, а не за анонимизацију. За стручњаке који не уче машину у публици, посматрамо област испод РОЦ криве која говори нешто о тачности модела. Упоређујући оригиналне податке са анонимизованим подацима, видимо да оригинални модел података има површину испод РОЦ криве од 8, што је прилично добро, међутим, анонимни подаци имају површину испод РОЦ криве од 6. То значи да губимо много информација са анонимним моделом, тако да губите много предиктивне моћи.

Али онда се поставља питање шта је са синтетичким подацима? Овде смо урадили потпуно исто, али уместо да анонимизује податке, Синтхо је синтетизовао податке. Сада видимо да и оригинални и синтетички подаци имају површину испод РОЦ криве од 8, што је веома слично. Није потпуно исто због варијабилности, али веома слично. То значи да је потенцијал синтетичких података веома обећавајући – Едвин је веома срећан због тога.

Подаци су синтетички, али наш тим је стваран!

Контактирајте Синтхо i jedan od naših stručnjaka će stupiti u kontakt sa vama brzinom svetlosti da istraži vrednost sintetičkih podataka!

Шта су синтетички подаци?

Извештај о обезбеђењу квалитета

Екстерна евалуација САС

Синтетички подаци временских серија

ПИИ Сцаннер

Синтетички лажни подаци

Конзистентно мапирање

Деидентификација и синтетизација

Синтетички подаци засновани на правилима

Подсеттинг

Примена и интеграција

Конектори

Проширене карактеристике

Подржани подаци

Корисничка документација

Zakažite demo

Цене

Синтетички подаци као тестни подаци

Синтетички подаци за аналитику

Синтетички подаци за дељење података

Синтетички подаци за демонстрације производа

Здравство

Финансирати

Јавне организације

Корисничка документација

Беле књиге и водичи

Blog

Вебинари

Klijenti

Цене

О нама

Каријера

Анонимизовани подаци наспрам синтетичких података

Подаци су синтетички, али наш тим је стваран!

Шта радимо

Koмпaниja

средства

Синтхо Невслеттер

Главни мени