고전적인 익명화는 개인 추적을 방해하기 위해 원래 데이터 세트를 조작하거나 왜곡하는 모든 방법론을 의미합니다.
실제로 볼 수 있는 고전적인 익명화의 전형적인 예는 일반화, 억제/삭제, 가명화, 행 및 열 섞기입니다.
그에 상응하는 예제가 포함된 기술.
기술 | 원본 데이터 | 조작된 데이터 |
일반화 | 27 세 | 25 ~ 30 세 |
억제/지우기 | info@syntho.ai | xxxx@xxxxxx.xx |
가명화 | 암스테르담 | hVFD6td3jdHHj78ghdgrewui6 |
행 및 열 섞기 | 정렬 | 셔플 |
고전적인 익명화 기술로 데이터 세트를 조작하면 2가지 주요 단점이 발생합니다.
우리는 이러한 두 가지 주요 단점, 데이터 유틸리티 및 개인 정보 보호를 보여줍니다. 억제 및 일반화가 적용된 다음 그림을 사용하여 이를 수행합니다.
참고: 예시 목적으로 이미지를 사용합니다. 구조화된 데이터 세트에도 동일한 원칙이 적용됩니다.
이것은 고전적인 익명화 기술이 항상 차선의 조합을 제공하는 데이터 유틸리티와 개인 정보 보호 사이의 균형을 도입합니다.
아니요. 이것은 큰 오해이며 익명 데이터로 이어지지 않습니다. 데이터 세트를 익명화하는 방법으로 여전히 이것을 적용합니까? 그렇다면 이 블로그는 반드시 읽어야 합니다.
Syntho는 새로운 데이터 레코드의 완전히 새로운 데이터 세트를 생성하는 소프트웨어를 개발합니다. 실제 개인을 식별하는 정보는 합성 데이터 세트에 존재하지 않습니다. 합성 데이터에는 소프트웨어에 의해 생성된 인공 데이터 레코드가 포함되어 있기 때문에 개인 데이터가 존재하지 않아 개인 정보 위험이 없는 상황이 됩니다.
Syntho의 주요 차이점은 기계 학습을 적용한다는 것입니다. 결과적으로 우리의 솔루션은 합성 데이터 세트에서 원래 데이터 세트의 구조와 속성을 재현하여 데이터 활용도를 극대화합니다. 따라서 합성 데이터를 분석할 때 원본 데이터를 사용할 때와 동일한 결과를 얻을 수 있습니다.
이 사례 연구 원본 데이터와 비교하여 Syntho Engine을 통해 생성된 합성 데이터의 다양한 통계가 포함된 품질 보고서의 하이라이트를 보여줍니다.
결론적으로, 합성 데이터는 모든 고전적인 익명화 기술이 제공하는 데이터 유용성과 개인 정보 보호 사이의 전형적인 차선책을 극복하기 위해 선호되는 솔루션입니다.
결론적으로 데이터 유틸리티 및 개인 정보 보호 관점에서 사용 사례가 허용하는 경우 항상 합성 데이터를 선택해야 합니다.
분석 가치 | 프라이버시 위험 | |
합성 데이터 | 높은 | 없음 |
실제(개인) 데이터 | 높은 | 높은 |
조작된 데이터(전통적인 '익명화'를 통해) | 낮은 중간 | 중간 고 |
Syntho의 합성 데이터는 두 가지 모두를 최대화하여 기존 익명화 기술이 부족한 부분을 채웁니다. 데이터 유틸리티 와 프라이버시 보호.