누가 맞춰봐? 이름을 제거할 수 없는 5가지 예

누구 게임인지 맞춰보세요

추측 후 소개

누군지 맞춰봐? 여러분 대부분이 옛날부터 이 게임을 알고 계실 거라 확신하지만, 여기에서 간단히 요약해 보겠습니다. 게임의 목표: '그 사람이 모자를 쓰고 있습니까?'와 같은 '예'와 '아니오' 질문을 통해 상대방이 선택한 만화 캐릭터의 이름을 알아보세요. 또는 '그 사람은 안경을 착용합니까'? 플레이어는 상대방의 반응에 따라 후보자를 제거하고 상대방의 미스터리 캐릭터와 관련된 속성을 배웁니다. 다른 플레이어의 미스터리 캐릭터를 먼저 파악한 플레이어가 게임에서 승리합니다.

맞아요. 해당 속성에만 액세스하여 데이터 세트에서 개인을 식별해야 합니다. 실제로, 우리는 실제로 실제로 적용되었지만 실제 사람의 속성을 포함하는 행과 열로 형식이 지정된 데이터 세트에 사용된 추측 후의 개념을 정기적으로 봅니다. 데이터로 작업할 때의 주요 차이점은 사람들이 소수의 속성에만 액세스하여 실제 개인을 숨길 수 있는 용이성을 과소평가하는 경향이 있다는 것입니다.

추측 후 게임에서 알 수 있듯이 누군가는 몇 가지 속성에만 액세스하여 개인을 식별할 수 있습니다. 데이터 세트에서 '이름'(또는 기타 직접 식별자)만 제거하는 것이 익명화 기술로 실패하는 이유에 대한 간단한 예입니다. 이 블로그에서는 데이터 익명화 수단으로 열을 제거하는 것과 관련된 개인 정보 위험에 대해 알려주는 XNUMX가지 실제 사례를 제공합니다.

2) 연결 공격: 다른 (공개) 데이터 소스에 연결된 데이터 세트

연결 공격의 위험은 이름만 제거하는 것이 (더 이상) 익명화 방법으로 작동하지 않는 가장 중요한 이유입니다. 연결 공격을 통해 공격자는 원본 데이터를 액세스 가능한 다른 데이터 소스와 결합하여 개인을 고유하게 식별하고 이 사람에 대한 (종종 민감한) 정보를 학습합니다.

여기서 핵심은 현재 존재하거나 미래에 존재할 수 있는 다른 데이터 리소스의 가용성입니다. 자신에 대해 생각해보십시오. 연결 공격을 위해 잠재적으로 남용될 수 있는 Facebook, Instagram 또는 LinkedIn에서 자신의 개인 데이터를 얼마나 찾을 수 있습니까?

초기에는 데이터의 가용성이 훨씬 더 제한적이어서 이름을 제거하는 것이 개인의 사생활을 보호하기에 충분했던 이유를 부분적으로 설명합니다. 사용 가능한 데이터가 적다는 것은 데이터를 연결할 기회가 적다는 것을 의미합니다. 그러나 우리는 이제 데이터 양이 기하급수적으로 증가하는 데이터 중심 경제의 (활동적인) 참여자입니다. 더 많은 데이터와 데이터 수집 기술을 개선하면 연결 공격의 가능성이 높아집니다. 연결 공격의 위험에 대해 10년 후에 무엇을 쓸 것인가?

그림 1

기하급수적으로 증가하는 데이터는 사실입니다.

데이터 양

사례 연구

Sweeney(2002)는 학술 논문에서 공개적으로 사용 가능한 '병원 방문' 데이터 세트를 미국에서 공개적으로 사용 가능한 투표 등록 기관에 연결하여 개인의 민감한 의료 데이터를 식별하고 검색할 수 있는 방법을 보여주었습니다. 이름 및 기타 직접 식별자의 삭제를 통해 적절하게 익명화된 것으로 가정되는 두 데이터 세트.

그림 2

실전에서의 연계 공격

연계 공격

(1) 우편 번호, (2) 성별 및 (3) 생년월일의 세 가지 매개변수만을 기반으로 하여 그녀는 두 데이터 세트에서 앞서 언급한 속성을 일치시켜 전체 미국 인구의 87%를 재식별할 수 있음을 보여주었습니다. 그런 다음 Sweeney는 '우편 번호'의 대안으로 '국가'를 사용하여 작업을 반복했습니다. 또한 그녀는 전체 미국 인구의 18%가 (1) 본국, (2) 성별 및 (3) 생년월일에 대한 정보가 포함된 데이터 세트에 액세스해야만 식별할 수 있음을 보여주었습니다. 앞서 언급한 Facebook, LinkedIn 또는 Instagram과 같은 공개 소스를 생각해 보십시오. 귀하의 국가, 성별 및 생년월일이 표시됩니까? 아니면 다른 사용자가 공제할 수 있습니까?

그림 3

스위니의 결과

유사 식별자

미국 인구 중 고유하게 식별된 비율(248억 XNUMX만)

5자리 우편번호, 성별, 생년월일

87%

장소, 성별, 생년월일

53%

국가, 성별, 생년월일

18%

이 예는 겉보기에 익명인 데이터에서 개인을 익명화하는 것이 매우 쉬울 수 있음을 보여줍니다. 첫째, 이 연구는 다음과 같이 엄청난 규모의 위험을 나타냅니다. 미국 인구의 87%는 다음을 사용하여 쉽게 식별할 수 있습니다. 몇 가지 특성. 둘째, 본 연구에서 노출된 의료 데이터는 매우 민감하였다. 병원 방문 데이터 세트에서 노출된 개인 데이터의 예에는 민족, 진단 및 약물이 포함됩니다. 예를 들어 보험 회사로부터 비밀로 유지될 수 있는 속성.

3) 정보에 입각한 개인

이름과 같은 직접적인 식별자만 제거하는 또 다른 위험은 정보에 입각한 개인이 데이터 세트에서 특정 개인의 특성이나 행동에 대한 우수한 지식이나 정보를 가지고 있을 때 발생합니다.. 공격자는 지식을 기반으로 특정 데이터 레코드를 실제 사람과 연결할 수 있습니다.

사례 연구

우수한 지식을 사용하여 데이터 세트에 대한 공격의 예는 Atokar(2014)가 특정 개인의 마스크를 풀 수 있었던 New York 택시 사례입니다. 사용된 데이터 세트에는 시작 좌표, 끝 좌표, 가격 및 승차 팁과 같은 기본 속성이 풍부한 뉴욕의 모든 택시 여정이 포함되었습니다.

뉴욕을 아는 정보통 개인은 성인 클럽 '허슬러'로의 택시 여행을 유도할 수 있었습니다. 그는 '종료 위치'를 필터링하여 정확한 시작 주소를 추론함으로써 다양한 단골 방문자를 식별했습니다. 유사하게, 개인의 집 주소가 알려지면 택시 승차를 추론할 수 있습니다. 여러 유명 영화 배우의 시간과 위치가 가십 사이트에서 발견되었습니다. 이 정보를 NYC 택시 데이터에 연결하면 택시 승차, 지불한 금액, 팁을 줬는지 여부를 쉽게 파악할 수 있었습니다.

그림 4

정보에 입각한 개인

하차 좌표 Hustler

브래들리 쿠퍼

택시와 지도

제시카 알바

지도 추적

4) 지문으로서의 데이터

일반적인 주장은 '이 데이터는 가치가 없습니다' 또는 '아무도 이 데이터로 아무 것도 할 수 없습니다'입니다. 이것은 종종 오해입니다. 가장 무해한 데이터라도 고유한 '지문'을 형성하여 개인을 재식별하는 데 사용될 수 있습니다. 데이터 자체는 가치가 없지만 가치가 없다고 믿는 데서 파생되는 위험입니다.

데이터의 복잡한 관계를 밝혀낼 수 있는 데이터, AI, 기타 도구와 알고리즘이 증가함에 따라 식별 위험이 증가할 것입니다. 결과적으로, 데이터 세트가 지금 발견될 수 없고 현재 권한이 없는 사람에게 아마도 쓸모가 없더라도 내일은 아닐 수도 있습니다.

사례 연구

Netflix가 영화 추천 시스템을 개선하기 위해 공개 Netflix 경쟁을 도입하여 R&D 부서를 크라우드소싱하려는 경우가 좋은 예입니다. '영화에 대한 사용자 평가를 예측하는 협업 필터링 알고리즘을 개선한 사람이 미화 1,000,000만 달러의 상금을 받습니다'. 군중을 지원하기 위해 Netflix는 userID, 영화, 등급 날짜 및 등급과 같은 기본 속성만 포함하는 데이터 세트를 게시했습니다(그래서 사용자 또는 영화 자체에 대한 추가 정보는 없음).

그림 5

데이터세트 구조 Netflix 가격

사용자 ID 영화 학년 날짜 학년
123456789 불가능한 미션 10-12-2008 4

따로따로 데이터는 무의미해 보였습니다. '데이터 세트에 비공개로 유지해야 하는 고객 정보가 있습니까?'라는 질문에 대답은 다음과 같았습니다.

 '아니요, 모든 고객 식별 정보가 제거되었습니다. 남은 것은 등급과 날짜뿐입니다. 이것은 우리의 개인 정보 보호 정책을 따릅니다...'

그러나 오스틴에 있는 텍사스 대학의 Narayanan(2008)은 그렇지 않음을 증명했습니다. 개인의 등급, 학년, 영화의 조합은 독특한 영화 지문을 형성합니다. 자신의 Netflix 행동에 대해 생각해 보세요. 얼마나 많은 사람들이 같은 세트의 영화를 본 것 같습니까? 같은 세트의 영화를 동시에 본 사람은 몇 명입니까?

주요 질문, 이 지문을 일치시키는 방법은 무엇입니까? 그것은 오히려 간단했습니다. 잘 알려진 영화 평가 사이트 IMDb(Internet Movie Database)의 정보를 기반으로 유사한 지문이 형성될 수 있습니다. 결과적으로 개인을 재식별할 수 있습니다.

영화 감상 행동은 민감한 정보로 간주되지 않을 수 있지만 자신의 행동에 대해 생각해 보십시오. 공개해도 괜찮겠습니까? Narayanan이 그의 논문에서 제공한 예로는 쉽게 증류될 수 있는 정치적 선호('나자렛 예수' 및 '요한복음'에 대한 평가) 및 성적 선호('벤트' 및 '퀴어로서의 퀴어'에 대한 평가)가 있습니다.

5) 일반 데이터 보호 규정(GDPR)

GDPR은 그다지 흥미롭지 않을 수도 있고 블로그 주제 중 은총알이 아닐 수도 있습니다. 그러나 개인 데이터를 처리할 때 정의를 바로 잡는 것이 도움이 됩니다. 이 블로그는 데이터를 익명화하고 데이터 처리자로서 교육하기 위한 방법으로 열을 제거하는 일반적인 오해에 관한 것이므로 GDPR에 따른 익명화의 정의를 살펴보는 것부터 시작하겠습니다. 

GDPR의 Recital 26에 따르면 익명 정보는 다음과 같이 정의됩니다.

'식별되거나 식별 가능한 자연인과 관련이 없는 정보 또는 데이터 주체를 더 이상 식별할 수 없거나 식별할 수 없는 방식으로 익명으로 처리된 개인 데이터'

자연인과 관련된 개인 데이터를 처리하기 때문에 정의의 2부만 관련됩니다. 정의를 준수하려면 데이터 주체(개인)를 더 이상 식별할 수 없거나 식별할 수 없도록 해야 합니다. 그러나 이 블로그에서 설명한 것처럼 몇 가지 속성을 기반으로 개인을 식별하는 것은 매우 간단합니다. 따라서 데이터 세트에서 이름을 제거하는 것은 익명화에 대한 GDPR 정의를 준수하지 않습니다.

결론

우리는 일반적으로 고려되고 불행히도 여전히 자주 적용되는 데이터 익명화 접근 방식인 이름 제거에 도전했습니다. 추측 후 게임과 다음에 관한 네 가지 다른 예:

  • 연결 공격
  • 정보에 입각한 개인
  • 데이터를 지문으로
  • 일반 데이터 보호 규정 (GDPR)

이름을 제거하면 익명화에 실패하는 것으로 나타났습니다. 예가 눈에 띄는 경우이지만 각각의 재식별의 단순성을 보여줍니다. 개인의 사생활에 대한 잠재적인 부정적인 영향.

결론적으로 데이터 세트에서 이름을 제거해도 익명 데이터는 생성되지 않습니다. 따라서 두 용어를 서로 바꿔서 사용하는 것을 피하는 것이 좋습니다. 익명화를 위해 이러한 접근 방식을 적용하지 않기를 진심으로 바랍니다. 그리고 여전히 이해하고 있다면 귀하와 귀하의 팀이 개인 정보 보호 위험을 완전히 이해하고 영향을 받는 개인을 대신하여 이러한 위험을 수용할 수 있는지 확인하십시오.

웃고 있는 사람들의 그룹

데이터는 합성이지만 우리 팀은 진짜입니다!

신토에 문의 그리고 우리 전문가 중 한 명이 합성 데이터의 가치를 탐구하기 위해 빛의 속도로 연락을 드릴 것입니다!

  • D. Reinsel, J. Gantz, John Rydning. 에지에서 코어로의 세계 디지털화, 데이터 시대 2025, 2018
  • 엘. 스위니. k-익명성: 프라이버시 보호를 위한 모델. 불확실성, 퍼지 및 지식 기반 시스템에 관한 국제 저널, 10(5), 2002: 557-570
  • 엘. 스위니. 단순 인구 통계는 종종 사람들을 고유하게 식별합니다. Carnegie Mellon University, 데이터 개인 정보 보호 작업 문서 3. Pittsburgh 2000
  • P. 사마라티. 마이크로데이터 릴리스에서 응답자의 신원 보호. IEEE Transactions on Knowledge and Data Engineering, 13(6), 2001: 1010-1027
  • 아토카르. Riding with the Stars: NYC Taxicab 데이터 세트의 승객 개인정보 보호, 2014
  • Narayanan, A., & Shmatikov, V. (2008). 대규모 희소 데이터 세트의 강력한 익명화. In Proceedings – 2008 IEEE Symposium on Security and Privacy, SP (pp. 111-125)
  • 일반 데이터 보호 규정(GDPR), Recital 26, 익명 데이터에는 적용되지 않음