Чаму класічная ананімізацыя (і псеўданімізацыя) не прыводзіць да ананімных дадзеных

Гэты блог ахоплівае наступныя тэмы:

Што такое класічная ананімізацыя?
У чым недахопы класічнай ананімізацыі?
Чаму класічныя метады ананімізацыі прапануюць неаптымальнае спалучэнне паміж дакладнасцю дадзеных і абаронай прыватнасці ?.
Чым адрозніваюцца сінтэтычныя дадзеныя?
Навошта ўсё ж выкарыстоўваць асабістыя дадзеныя, калі можна выкарыстоўваць сінтэтычныя дадзеныя?

Што такое класічная ананімізацыя?

Пры класічнай ананімізацыі мы маем на ўвазе ўсе метадалогіі, у якіх маніпулюе або скажае зыходны набор дадзеных, каб перашкодзіць вышуку асоб.

Тыповыя прыклады класічнай ананімізацыі, якія мы бачым на практыцы, - гэта абагульненне, падаўленне / выціранне, псеўданімізацыя і перамешванне радкоў і слупкоў.

Тым самым гэтыя метады з адпаведнымі прыкладамі.

Тэхніка	Зыходныя дадзеныя	Апрацаваныя дадзеныя
абагульненне	27 гадоў	Ад 25 да 30 гадоў
Падаўленне / Выціранне	info@syntho.ai	xxxx@xxxxxx.xx
Псеўданімізацыя	Амстэрдам	hVFD6td3jdHHj78ghdgrewui6
Перамешванне радкоў і слупкоў	выраўнаваны	Перамешаныя

У чым недахопы класічнай ананімізацыі?

Маніпуляванне наборам дадзеных з класічнымі метадамі ананімізацыі прыводзіць да двух ключавых недахопаў:

Скажэнне набору дадзеных прыводзіць да зніжэння якасці дадзеных (г.зн. утыліта дадзеных). Гэта ўводзіць класічны прынцып вывазу смецця.
Рызыка прыватнасці будзе скарочана, але заўсёды будзе прысутнічаць. Гэта застаецца і маніпулюецца версія зыходнага набору дадзеных з адносінамі 1-1.

Мы дэманструем гэтыя 2 ключавыя недахопы, карыснасць дадзеных і абарону прыватнасці. Мы робім гэта з наступнай ілюстрацыяй з прыкладным падаўленнем і абагульненнем.

Заўвага: мы выкарыстоўваем выявы ў ілюстрацыйных мэтах. Той жа прынцып дзейнічае і для структураваных набораў дадзеных.

Злева: невялікае прымяненне класічнай ананімізацыі прыводзіць да рэпрэзентатыўнай ілюстрацыі. Аднак асобу можна лёгка ідэнтыфікаваць, і рызыка канфідэнцыяльнасці істотны.

Справа: жорсткае прымяненне класічнай ананімізацыі прыводзіць да надзейнай абароны прыватнасці. Аднак ілюстрацыя становіцца бескарыснай.

Класічныя метады ананімізацыі прапануюць неаптымальнае спалучэнне паміж утылітай дадзеных і абаронай прыватнасці.

Гэта ўводзіць кампраміс паміж утылітай перадачы дадзеных і абаронай прыватнасці, дзе класічныя метады ананімізацыі заўсёды прапануюць неаптымальную камбінацыю абодвух.

Ці з'яўляецца рашэнне выдалення ўсіх прамых ідэнтыфікатараў (напрыклад, імёнаў) з набору дадзеных?

Не. Гэта вялікая памылка і не прыводзіць да ананімных дадзеных. Вы ўсё яшчэ ўжываеце гэта як спосаб ананімізацыі вашага набору дадзеных? Тады гэты блог абавязкова трэба прачытаць для вас.

Чым адрозніваюцца сінтэтычныя дадзеныя?

Syntho распрацоўвае праграмнае забеспячэнне для стварэння цалкам новага набору свежых запісаў дадзеных. Інфармацыі для ідэнтыфікацыі сапраўдных асоб проста няма ў сінтэтычным наборы даных. Паколькі сінтэтычныя дадзеныя ўтрымліваюць запісы штучных дадзеных, якія ствараюцца праграмным забеспячэннем, асабістых дадзеных проста няма, што прыводзіць да сітуацыі без рызык для прыватнасці.

Ключавая розніца ў Syntho: мы ўжываем машыннае навучанне. Такім чынам, наша рашэнне прайгравае структуру і ўласцівасці зыходнага набору дадзеных у сінтэтычным наборы дадзеных, што прыводзіць да максімальнай карыснасці дадзеных. Адпаведна, вы зможаце атрымаць аналагічныя вынікі пры аналізе сінтэтычных дадзеных у параўнанні з выкарыстаннем зыходных дадзеных.

Гэта тэматычнае даследаванне дэманструе асноўныя моманты з нашага справаздачы аб якасці, які змяшчае розныя статыстычныя дадзеныя з сінтэтычных дадзеных, атрыманых з дапамогай нашага Syntho Engine у параўнанні з зыходнымі дадзенымі.

У заключэнне можна сказаць, што сінтэтычныя дадзеныя з'яўляюцца пераважным рашэннем для пераадолення тыповага неаптымальнага кампрамісу паміж карыснасцю дадзеных і абаронай прыватнасці, які прапануюць вам усе класічныя метады ананімізацыі.

Такім чынам, навошта выкарыстоўваць рэальныя (адчувальныя) дадзеныя, калі можна выкарыстоўваць сінтэтычныя дадзеныя?

У заключэнне, з пункту гледжання карыснасці дадзеных і абароны прыватнасці, заўсёды варта выбіраць сінтэтычныя дадзеныя, калі ваш варыянт выкарыстання дазваляе.

	Значэнне для аналізу	Рызыка прыватнасці
Сінтэтычныя дадзеныя	высокая	ні адзін
Рэальныя (асабістыя) дадзеныя	высокая	высокая
Апрацаваныя дадзеныя (праз класічную "ананімізацыю")	Нізка-сярэдні	Сярэдняй Вышыні

Сінтэтычныя дадзеныя кампаніі Syntho запаўняюць прабелы, калі класічныя метады ананімізацыі не дасягаюць максімуму абодвух утыліта дадзеных і абарона прыватнасці.

Зацікавіліся?

Даследуйце з намі дадатковую каштоўнасць сінтэтычных дадзеных

КНІГА ДЭМА

Што такое сінтэтычныя дадзеныя?

Справаздача аб якасці

Знешняя ацэнка па SAS

Сінтэтычныя даныя часавых шэрагаў

Сканер ідэнтыфікацыйных звестак

Сінтэтычныя макетныя даныя

Паслядоўнае адлюстраванне

Дэідэнтыфікацыя і сінтэтызацыя

Сінтэтычныя даныя на аснове правілаў

Падмноства

Разгортванне і інтэграцыя

Раздымы

Пашыраныя магчымасці

Падтрымліваюцца дадзеныя

дакументацыя карыстальніка

Сплануйце дэма

Цэннiк

Сінтэтычныя дадзеныя ў якасці тэставых дадзеных

Сінтэтычныя дадзеныя для аналітыкі

Сінтэтычныя даныя для абмену дадзенымі

Сінтэтычныя даныя для дэманстрацый прадукту

Здароўе

фінансаў

Грамадскія арганізацыі

дакументацыя карыстальніка

Белыя паперы і кіраўніцтва

Блог

Вебинары

Прыклады