W przypadku klasycznej anonimizacji zakładamy wszystkie metodologie, w których manipuluje się lub zniekształca oryginalny zbiór danych, aby utrudnić śledzenie osób.
Typowymi przykładami klasycznej anonimizacji, które widzimy w praktyce, są uogólnianie, tłumienie / czyszczenie, pseudonimizacja oraz tasowanie wierszy i kolumn.
Niniejszym te techniki z odpowiednimi przykładami.
Technika | Dane oryginalne | Manipulowane dane |
Uogólnienie | 27 lat | Między 25 a 30 lat |
Tłumienie / wycieranie | info@syntho.ai | xxxx@xxxxxx.xx |
Pseudonimizacja | Amsterdam | hVFD6td3jdHHj78ghdgrewui6 |
Tasowanie wierszy i kolumn | Wyrównany | Potasowane |
Manipulowanie zbiorem danych za pomocą klasycznych technik anonimizacji ma 2 główne wady:
Pokazujemy te 2 kluczowe wady, użyteczność danych i ochronę prywatności. Robimy to za pomocą poniższej ilustracji z zastosowanym tłumieniem i uogólnieniem.
Uwaga: używamy obrazów w celach ilustracyjnych. Ta sama zasada dotyczy uporządkowanych zbiorów danych.
Wprowadza to kompromis między użytecznością danych a ochroną prywatności, gdzie klasyczne techniki anonimizacji zawsze oferują nieoptymalną kombinację obu.
Nie. To wielkie nieporozumienie i nie skutkuje anonimowymi danymi. Czy nadal stosujesz to jako sposób na anonimizację swojego zbioru danych? W takim razie ten blog jest dla Ciebie obowiązkową lekturą.
Syntho opracowuje oprogramowanie do generowania całkowicie nowego zestawu danych ze świeżych rekordów danych. W syntetycznym zbiorze danych po prostu nie ma informacji umożliwiających identyfikację prawdziwych osób. Ponieważ dane syntetyczne zawierają sztuczne zapisy danych generowane przez oprogramowanie, dane osobowe po prostu nie są obecne, co skutkuje sytuacją bez zagrożenia prywatności.
Kluczowa różnica w Syntho: stosujemy uczenie maszynowe. W związku z tym nasze rozwiązanie odtwarza strukturę i właściwości oryginalnego zestawu danych w syntetycznym zestawie danych, co zapewnia maksymalną użyteczność danych. W związku z tym będziesz w stanie uzyskać takie same wyniki podczas analizy danych syntetycznych, jak przy użyciu danych oryginalnych.
To studium przypadku przedstawia najważniejsze informacje z naszego raportu jakości zawierającego różne statystyki z danych syntetycznych generowanych przez nasz silnik Syntho w porównaniu z danymi oryginalnymi.
Podsumowując, dane syntetyczne są preferowanym rozwiązaniem pozwalającym przezwyciężyć typowy nieoptymalny kompromis między wykorzystaniem danych a ochroną prywatności, który oferują wszystkie klasyczne techniki anonimizacji.
Podsumowując, z punktu widzenia użyteczności danych i ochrony prywatności, należy zawsze decydować się na dane syntetyczne, gdy pozwala na to Twój przypadek użycia.
Wartość do analizy | Ryzyko prywatności | |
Dane syntetyczne | Wysoki | żaden |
Dane rzeczywiste (osobowe) | Wysoki | Wysoki |
Manipulowane dane (poprzez klasyczną „anonimizację”) | Low-Medium | Średnio-wysoki |
Dane syntetyczne opracowane przez Syntho wypełniają luki, w których klasyczne techniki anonimizacji zawodzą, maksymalizując oba te aspekty narzędzie danych i ochrona prywatności.