익명 데이터 vs 합성 데이터

데이터 분석의 데이터 테스트를 수행하기 전에 데이터를 익명화하는 경우 몇 가지 요인이 작용합니다.

  1. 거의 모든 경우에 익명화된 데이터는 특정 행(예: 의료 기록)으로 인해 여전히 개인으로 역추적될 수 있습니다.
  2. 더 많이 익명화하거나 일반화할수록 더 많은 데이터를 파괴합니다. 이렇게 하면 데이터의 품질이 낮아져 통찰력이 저하됩니다.
  3. 익명화는 데이터 형식에 따라 다르게 작동합니다. 이는 확장할 수 없고 시간이 많이 소요될 수 있음을 의미합니다.

합성 데이터는 이러한 모든 단점 등을 해결합니다. 아래 비디오를 시청하여 SAS(분석 분야의 글로벌 시장 리더)의 분석 전문가가 원본 데이터, 익명 데이터 및 Syntho에서 생성한 합성 데이터 간의 품질 차이에 대한 평가에 대해 설명합니다.

이 비디오는 Syntho x SAS D[N]A Café에서 AI 생성 합성 데이터에 대해 캡처한 것입니다. 여기에서 전체 비디오를 찾으십시오.

Edwin van Unen은 원본 데이터 세트를 Syntho에 보냈고 우리는 데이터 세트를 합성했습니다. 그러나 문제는 "합성 데이터를 익명 데이터와 비교하면 어떻게 될까요?"였습니다. 익명화된 데이터에서 많은 정보를 잃어버리기 때문에 데이터세트를 합성할 때도 이런 일이 발생합니까? 우리는 56.000행과 128열의 회사 이탈 정보가 있는 통신 산업의 데이터 세트로 시작했습니다. 이 데이터 세트는 합성 및 익명화되어 Edwin이 합성과 익명화를 비교할 수 있었습니다. 그런 다음 Edwin은 SAS Viya를 사용하여 모델링을 시작했습니다. 그는 고전적인 회귀 기술과 의사 결정 트리를 사용하여 원래 데이터 세트에 몇 가지 이탈 모델을 구축했지만 신경망, 그래디언트 부스팅, 랜덤 포레스트와 같은 보다 정교한 기술도 사용했습니다. 이러한 종류의 기술입니다. 모델을 구축할 때 표준 SAS Viya 옵션을 사용합니다.

다음으로 결과를 살펴보는 시간을 가졌습니다. 결과는 익명화가 아닌 합성 데이터에 대해 매우 유망했습니다. 청중의 비 머신 러닝 전문가를 위해 모델의 정확도에 대해 알려주는 ROC 곡선 아래 영역을 봅니다. 원본 데이터를 익명화된 데이터와 비교하면 원본 데이터 모델의 ROC 곡선 아래 면적이 .8로 꽤 좋은 것을 알 수 있습니다. 그러나 익명화된 데이터는 ROC 곡선 아래 면적이 .6입니다. 이것은 우리가 익명화된 모델로 많은 정보를 잃는다는 것을 의미하므로 많은 예측력을 잃게 됩니다.

그러나 질문은 합성 데이터는 어떻습니까? 여기에서 우리는 정확히 동일하지만 데이터를 익명화하는 대신 Syntho가 데이터를 합성했습니다. 이제 원본 데이터와 합성 데이터의 ROC 곡선 아래 영역이 8로 매우 유사한 것을 볼 수 있습니다. 변동성으로 인해 정확히 동일하지는 않지만 매우 유사합니다. 이는 합성 데이터의 잠재력이 매우 유망하다는 것을 의미합니다. Edwin은 이에 대해 매우 만족하고 있습니다.

웃고 있는 사람들의 그룹

데이터는 합성이지만 우리 팀은 진짜입니다!

신토에 문의 그리고 우리 전문가 중 한 명이 합성 데이터의 가치를 탐구하기 위해 빛의 속도로 연락을 드릴 것입니다!