Dlaczego klasyczna anonimizacja (i pseudonimizacja) nie skutkuje anonimowymi danymi

Ten blog obejmuje następujące tematy:

Czym jest klasyczna anonimizacja?
Jakie są wady klasycznej anonimizacji?
Dlaczego klasyczne techniki anonimizacji oferują nieoptymalne połączenie między wykorzystaniem danych a ochroną prywatności?
Czym różnią się dane syntetyczne?
Po co nadal korzystać z danych osobowych, jeśli możesz korzystać z danych syntetycznych?

Czym jest klasyczna anonimizacja?

W przypadku klasycznej anonimizacji zakładamy wszystkie metodologie, w których manipuluje się lub zniekształca oryginalny zbiór danych, aby utrudnić śledzenie osób.

Typowymi przykładami klasycznej anonimizacji, które widzimy w praktyce, są uogólnianie, tłumienie / czyszczenie, pseudonimizacja oraz tasowanie wierszy i kolumn.

Niniejszym te techniki z odpowiednimi przykładami.

Technika	Dane oryginalne	Manipulowane dane
Uogólnienie	27 lat	Między 25 a 30 lat
Tłumienie / wycieranie	info@syntho.ai	xxxx@xxxxxx.xx
Pseudonimizacja	Amsterdam	hVFD6td3jdHHj78ghdgrewui6
Tasowanie wierszy i kolumn	Wyrównany	Potasowane

Jakie są wady klasycznej anonimizacji?

Manipulowanie zbiorem danych za pomocą klasycznych technik anonimizacji ma 2 główne wady:

Zniekształcenie zbioru danych skutkuje obniżoną jakością danych (tj. użytecznością danych). Wprowadza to klasyczną zasadę garbage-in garbage-out.
Ryzyko prywatności zostanie zmniejszona, ale zawsze będzie obecny. Pozostaje i manipuluje wersją oryginalnego zestawu danych z relacjami 1-1.

Pokazujemy te 2 kluczowe wady, użyteczność danych i ochronę prywatności. Robimy to za pomocą poniższej ilustracji z zastosowanym tłumieniem i uogólnieniem.

Uwaga: używamy obrazów w celach ilustracyjnych. Ta sama zasada dotyczy uporządkowanych zbiorów danych.

Lewy: niewielkie zastosowanie klasycznej anonimizacji skutkuje reprezentatywną ilustracją. Jednak daną osobę można łatwo zidentyfikować, a ryzyko prywatności jest znaczne.

Po prawej: poważne zastosowanie klasycznej anonimizacji skutkuje silną ochroną prywatności. Jednak ilustracja staje się bezużyteczna.

Klasyczne techniki anonimizacji oferują nieoptymalne połączenie między wykorzystaniem danych a ochroną prywatności.

Wprowadza to kompromis między użytecznością danych a ochroną prywatności, gdzie klasyczne techniki anonimizacji zawsze oferują nieoptymalną kombinację obu.

Czy usunięcie wszystkich identyfikatorów bezpośrednich (takich jak nazwy) z zestawu danych jest rozwiązaniem?

Nie. To wielkie nieporozumienie i nie skutkuje anonimowymi danymi. Czy nadal stosujesz to jako sposób na anonimizację swojego zbioru danych? W takim razie ten blog jest dla Ciebie obowiązkową lekturą.

Czym różnią się dane syntetyczne?

Syntho opracowuje oprogramowanie do generowania całkowicie nowego zestawu danych ze świeżych rekordów danych. W syntetycznym zbiorze danych po prostu nie ma informacji umożliwiających identyfikację prawdziwych osób. Ponieważ dane syntetyczne zawierają sztuczne zapisy danych generowane przez oprogramowanie, dane osobowe po prostu nie są obecne, co skutkuje sytuacją bez zagrożenia prywatności.

Kluczowa różnica w Syntho: stosujemy uczenie maszynowe. W związku z tym nasze rozwiązanie odtwarza strukturę i właściwości oryginalnego zestawu danych w syntetycznym zestawie danych, co zapewnia maksymalną użyteczność danych. W związku z tym będziesz w stanie uzyskać takie same wyniki podczas analizy danych syntetycznych, jak przy użyciu danych oryginalnych.

To studium przypadku przedstawia najważniejsze informacje z naszego raportu jakości zawierającego różne statystyki z danych syntetycznych generowanych przez nasz silnik Syntho w porównaniu z danymi oryginalnymi.

Podsumowując, dane syntetyczne są preferowanym rozwiązaniem pozwalającym przezwyciężyć typowy nieoptymalny kompromis między wykorzystaniem danych a ochroną prywatności, który oferują wszystkie klasyczne techniki anonimizacji.

Po co więc używać prawdziwych (wrażliwych) danych, skoro można używać danych syntetycznych?

Podsumowując, z punktu widzenia użyteczności danych i ochrony prywatności, należy zawsze decydować się na dane syntetyczne, gdy pozwala na to Twój przypadek użycia.

	Wartość do analizy	Ryzyko prywatności
Dane syntetyczne	Wysoki	żaden
Dane rzeczywiste (osobowe)	Wysoki	Wysoki
Manipulowane dane (poprzez klasyczną „anonimizację”)	Low-Medium	Średnio-wysoki

Dane syntetyczne opracowane przez Syntho wypełniają luki, w których klasyczne techniki anonimizacji zawodzą, maksymalizując oba te aspekty narzędzie danych i ochrona prywatności.

Zainteresowany?

Poznaj z nami wartość dodaną danych syntetycznych

ZAREZERWUJ DEMO

Co to są dane syntetyczne?

Raport dotyczący zapewnienia jakości

Ocena zewnętrzna przez SAS

Dane syntetyczne szeregów czasowych

Skaner danych osobowych

Syntetyczne dane próbne

Spójne mapowanie

Deidentyfikacja i synteza

Dane syntetyczne oparte na regułach

Podzbiór

Wdrożenie i integracja

Złącza

Rozszerzone funkcje

Obsługiwane dane

Dokumentacja użytkownika

Zaplanuj demo

Cennik

Dane syntetyczne jako dane testowe

Dane syntetyczne do analityki

Dane syntetyczne do udostępniania danych

Syntetyczne dane do demonstracji produktów

Zdrowie

Finanse

Organizacje publiczne

Dokumentacja użytkownika

Białe księgi i przewodniki

Blog

Seminaria

Case Studies