고전적인 익명화(및 가명화)로 인해 익명 데이터가 생성되지 않는 이유

고전적인 익명화란 무엇입니까?

고전적인 익명화는 개인 추적을 방해하기 위해 원래 데이터 세트를 조작하거나 왜곡하는 모든 방법론을 의미합니다.

실제로 볼 수 있는 고전적인 익명화의 전형적인 예는 일반화, 억제/삭제, 가명화, 행 및 열 섞기입니다.

그에 상응하는 예제가 포함된 기술.

기술 원본 데이터 조작된 데이터
일반화 27 세 25 ~ 30 세
억제/지우기 info@syntho.ai xxxx@xxxxxx.xx
가명화 암스테르담 hVFD6td3jdHHj78ghdgrewui6
행 및 열 섞기 정렬 셔플

기존 익명화의 단점은 무엇입니까?

고전적인 익명화 기술로 데이터 세트를 조작하면 2가지 주요 단점이 발생합니다.

  1. 데이터 세트를 왜곡하면 데이터 품질이 저하됩니다(예: 데이터 유용성). 이것은 전통적인 가비지 인 가비지 아웃 원칙을 소개합니다.
  2. 프라이버시 위험 줄어들겠지만 항상 존재할 것입니다. 1-1 관계로 원래 데이터 세트의 버전을 유지하고 조작합니다.

우리는 이러한 두 가지 주요 단점, 데이터 유틸리티 및 개인 정보 보호를 보여줍니다. 억제 및 일반화가 적용된 다음 그림을 사용하여 이를 수행합니다.

참고: 예시 목적으로 이미지를 사용합니다. 구조화된 데이터 세트에도 동일한 원칙이 적용됩니다.

클래식 익명화 실패
  • 왼쪽 : 고전적인 익명화를 거의 적용하지 않으면 대표적인 예시가 됩니다. 그러나 개인을 쉽게 식별할 수 있으며 개인 정보 위험이 상당합니다.

 

  • 오른쪽 : 고전적인 익명화를 엄격하게 적용하면 강력한 개인 정보 보호가 이루어집니다. 그러나 삽화는 무용지물이 됩니다.

고전적인 익명화 기술은 데이터 활용도와 개인 정보 보호 사이에 최적이 아닌 조합을 제공합니다.

이것은 고전적인 익명화 기술이 항상 차선의 조합을 제공하는 데이터 유틸리티와 개인 정보 보호 사이의 균형을 도입합니다. 

고전적인 익명화 효용 곡선

데이터 세트에서 모든 직접 식별자(예: 이름)를 제거하는 것이 해결책입니까?

아니요. 이것은 큰 오해이며 익명 데이터로 이어지지 않습니다. 데이터 세트를 익명화하는 방법으로 여전히 이것을 적용합니까? 그렇다면 이 블로그는 반드시 읽어야 합니다.

합성 데이터는 어떻게 다릅니까?

Syntho는 새로운 데이터 레코드의 완전히 새로운 데이터 세트를 생성하는 소프트웨어를 개발합니다. 실제 개인을 식별하는 정보는 합성 데이터 세트에 존재하지 않습니다. 합성 데이터에는 소프트웨어에 의해 생성된 인공 데이터 레코드가 포함되어 있기 때문에 개인 데이터가 존재하지 않아 개인 정보 위험이 없는 상황이 됩니다.

Syntho의 주요 차이점은 기계 학습을 적용한다는 것입니다. 결과적으로 우리의 솔루션은 합성 데이터 세트에서 원래 데이터 세트의 구조와 속성을 재현하여 데이터 활용도를 극대화합니다. 따라서 합성 데이터를 분석할 때 원본 데이터를 사용할 때와 동일한 결과를 얻을 수 있습니다.

이 사례 연구 원본 데이터와 비교하여 Syntho Engine을 통해 생성된 합성 데이터의 다양한 통계가 포함된 품질 보고서의 하이라이트를 보여줍니다.

결론적으로, 합성 데이터는 모든 고전적인 익명화 기술이 제공하는 데이터 유용성과 개인 정보 보호 사이의 전형적인 차선책을 극복하기 위해 선호되는 솔루션입니다.

고전적인 익명화 효용 곡선

그렇다면 합성 데이터를 사용할 수 있는데 실제(민감한) 데이터를 사용하는 이유는 무엇입니까?

결론적으로 데이터 유틸리티 및 개인 정보 보호 관점에서 사용 사례가 허용하는 경우 항상 합성 데이터를 선택해야 합니다.

 분석 가치프라이버시 위험
합성 데이터높은없음
실제(개인) 데이터높은높은
조작된 데이터(전통적인 '익명화'를 통해)낮은 중간중간 고
생각

Syntho의 합성 데이터는 두 가지 모두를 최대화하여 기존 익명화 기술이 부족한 부분을 채웁니다. 데이터 유틸리티 와 프라이버시 보호.

관심이 있으십니까?

우리와 함께 합성 데이터의 부가가치를 탐색하십시오.