Анонимизовани подаци наспрам синтетичких података

Ако анонимизирате своје податке пре него што извршите тестирање података аналитике података, постоји неколико фактора у игри:

  1. У скоро свим случајевима, анонимни подаци се и даље могу пратити до појединаца због специфичних и јединствених редова (нпр. медицински картони)
  2. Што више анонимизујете или генерализујете, више података уништавате. Ово смањује квалитет ваших података, а самим тим и ваших увида
  3. Анонимизација функционише другачије за различите формате података. То значи да није скалабилно и може бити дуготрајно

Синтетички подаци решавају све ове недостатке и још много тога. Погледајте видео испод да бисте видели како стручњак за аналитику из САС-а (глобалног тржишног лидера у аналитици) објашњава своју процену о разлици у квалитету између оригиналних података, анонимизованих података и синтетичких података генерисаних од стране Синтхо-а.

Овај видео је снимљен из Синтхо к САС Д[Н]А Цафе-а о синтетичким подацима генерисаним помоћу вештачке интелигенције. Пронађите цео видео овде.

Едвин ван Унен је послао оригинални скуп података у Синтхо и ми смо синтетизовали скуп података. Али питање је такође било: „Шта ће се догодити ако упоредимо синтетичке податке са анонимним подацима?“ Пошто губите много информација у анонимним подацима, да ли ће се то десити и када се синтетише скуп података? Почели смо са скупом података из индустрије телекомуникација са 56.000 редова и 128 колона информација о одливима компаније. Овај скуп података је синтетизован и анонимизован тако да је Едвин могао да упореди синтезу са анонимизацијом. Затим је Едвин почео да се бави моделирањем користећи САС Вииа. Направио је неколико модела цхурн на оригиналном скупу података, користећи класичне технике регресије и стабла одлучивања, али и софистицираније технике као што су неуронске мреже, повећање градијента, насумична шума – ове врсте техника. Коришћење стандардних САС Вииа опција приликом израде модела.

Онда је дошло време да се погледају резултати. Резултати су били веома обећавајући за синтетичке податке, а не за анонимизацију. За стручњаке који не уче машину у публици, посматрамо област испод РОЦ криве која говори нешто о тачности модела. Упоређујући оригиналне податке са анонимизованим подацима, видимо да оригинални модел података има површину испод РОЦ криве од 8, што је прилично добро, међутим, анонимни подаци имају површину испод РОЦ криве од 6. То значи да губимо много информација са анонимним моделом, тако да губите много предиктивне моћи.

Али онда се поставља питање шта је са синтетичким подацима? Овде смо урадили потпуно исто, али уместо да анонимизује податке, Синтхо је синтетизовао податке. Сада видимо да и оригинални и синтетички подаци имају површину испод РОЦ криве од 8, што је веома слично. Није потпуно исто због варијабилности, али веома слично. То значи да је потенцијал синтетичких података веома обећавајући – Едвин је веома срећан због тога.

група људи који се смеју

Подаци су синтетички, али наш тим је стваран!

Контактирајте Синтхо i jedan od naših stručnjaka će stupiti u kontakt sa vama brzinom svetlosti da istraži vrednost sintetičkih podataka!