Dlaczego klasyczna anonimizacja (i pseudonimizacja) nie skutkuje anonimowymi danymi

Czym jest klasyczna anonimizacja?

W przypadku klasycznej anonimizacji zakładamy wszystkie metodologie, w których manipuluje się lub zniekształca oryginalny zbiór danych, aby utrudnić śledzenie osób.

Typowymi przykładami klasycznej anonimizacji, które widzimy w praktyce, są uogólnianie, tłumienie / czyszczenie, pseudonimizacja oraz tasowanie wierszy i kolumn.

Niniejszym te techniki z odpowiednimi przykładami.

Technika Dane oryginalne Manipulowane dane
Uogólnienie 27 lat Między 25 a 30 lat
Tłumienie / wycieranie info@syntho.ai xxxx@xxxxxx.xx
Pseudonimizacja Amsterdam hVFD6td3jdHHj78ghdgrewui6
Tasowanie wierszy i kolumn Wyrównany Potasowane

Jakie są wady klasycznej anonimizacji?

Manipulowanie zbiorem danych za pomocą klasycznych technik anonimizacji ma 2 główne wady:

  1. Zniekształcenie zbioru danych skutkuje obniżoną jakością danych (tj. użytecznością danych). Wprowadza to klasyczną zasadę garbage-in garbage-out.
  2. Ryzyko prywatności zostanie zmniejszona, ale zawsze będzie obecny. Pozostaje i manipuluje wersją oryginalnego zestawu danych z relacjami 1-1.

Pokazujemy te 2 kluczowe wady, użyteczność danych i ochronę prywatności. Robimy to za pomocą poniższej ilustracji z zastosowanym tłumieniem i uogólnieniem.

Uwaga: używamy obrazów w celach ilustracyjnych. Ta sama zasada dotyczy uporządkowanych zbiorów danych.

Klasyczna anonimizacja kończy się niepowodzeniem
  • Lewy: niewielkie zastosowanie klasycznej anonimizacji skutkuje reprezentatywną ilustracją. Jednak daną osobę można łatwo zidentyfikować, a ryzyko prywatności jest znaczne.

 

  • Po prawej: poważne zastosowanie klasycznej anonimizacji skutkuje silną ochroną prywatności. Jednak ilustracja staje się bezużyteczna.

Klasyczne techniki anonimizacji oferują nieoptymalne połączenie między wykorzystaniem danych a ochroną prywatności.

Wprowadza to kompromis między użytecznością danych a ochroną prywatności, gdzie klasyczne techniki anonimizacji zawsze oferują nieoptymalną kombinację obu. 

klasyczna krzywa użyteczności anonimizacji

Czy usunięcie wszystkich identyfikatorów bezpośrednich (takich jak nazwy) z zestawu danych jest rozwiązaniem?

Nie. To wielkie nieporozumienie i nie skutkuje anonimowymi danymi. Czy nadal stosujesz to jako sposób na anonimizację swojego zbioru danych? W takim razie ten blog jest dla Ciebie obowiązkową lekturą.

Czym różnią się dane syntetyczne?

Syntho opracowuje oprogramowanie do generowania całkowicie nowego zestawu danych ze świeżych rekordów danych. W syntetycznym zbiorze danych po prostu nie ma informacji umożliwiających identyfikację prawdziwych osób. Ponieważ dane syntetyczne zawierają sztuczne zapisy danych generowane przez oprogramowanie, dane osobowe po prostu nie są obecne, co skutkuje sytuacją bez zagrożenia prywatności.

Kluczowa różnica w Syntho: stosujemy uczenie maszynowe. W związku z tym nasze rozwiązanie odtwarza strukturę i właściwości oryginalnego zestawu danych w syntetycznym zestawie danych, co zapewnia maksymalną użyteczność danych. W związku z tym będziesz w stanie uzyskać takie same wyniki podczas analizy danych syntetycznych, jak przy użyciu danych oryginalnych.

To studium przypadku przedstawia najważniejsze informacje z naszego raportu jakości zawierającego różne statystyki z danych syntetycznych generowanych przez nasz silnik Syntho w porównaniu z danymi oryginalnymi.

Podsumowując, dane syntetyczne są preferowanym rozwiązaniem pozwalającym przezwyciężyć typowy nieoptymalny kompromis między wykorzystaniem danych a ochroną prywatności, który oferują wszystkie klasyczne techniki anonimizacji.

klasyczna krzywa użyteczności anonimizacji

Po co więc używać prawdziwych (wrażliwych) danych, skoro można używać danych syntetycznych?

Podsumowując, z punktu widzenia użyteczności danych i ochrony prywatności, należy zawsze decydować się na dane syntetyczne, gdy pozwala na to Twój przypadek użycia.

 Wartość do analizyRyzyko prywatności
Dane syntetyczneWysokiżaden
Dane rzeczywiste (osobowe)WysokiWysoki
Manipulowane dane (poprzez klasyczną „anonimizację”)Low-MediumŚrednio-wysoki
pomysł

Dane syntetyczne opracowane przez Syntho wypełniają luki, w których klasyczne techniki anonimizacji zawodzą, maksymalizując oba te aspekty narzędzie danych i ochrona prywatności.

Zainteresowany?

Poznaj z nami wartość dodaną danych syntetycznych