SAS 데이터 전문가의 합성 데이터 외부 평가

우리의 합성 데이터는 평가인가 된 데이터 전문가가 제공하는 SAS

SAS 데이터 전문가의 합성 데이터 외부 평가 소개

우리는 무엇을 했습니까?

Syntho에서 생성된 합성 데이터는 SAS의 데이터 전문가가 외부적이고 객관적인 관점에서 평가, 검증 및 승인합니다.

SAS의 데이터 전문가가 우리의 합성 데이터를 외부에서 평가하는 이유는 무엇입니까?

Syntho는 사용자에게 고급 품질 보증 보고서를 제공하게 된 것을 자랑스럽게 생각하지만 업계 리더로부터 합성 데이터에 대한 외부적이고 객관적인 평가를 받는 것의 중요성도 이해하고 있습니다. 이것이 바로 우리가 분석 분야의 선두주자인 SAS와 협력하여 합성 데이터를 평가하는 이유입니다.

SAS는 원본 데이터와 비교하여 Syntho의 AI 생성 합성 데이터의 데이터 정확성, 개인 정보 보호 및 유용성에 대해 다양하고 철저한 평가를 수행합니다. 결론적으로 SAS는 Syntho의 합성 데이터가 원본 데이터와 비교하여 정확하고 안전하며 사용 가능한 것으로 평가하고 승인했습니다.

이 평가 중에 SAS는 무엇을 했나요?

'이탈' 예측에 사용되는 통신 데이터를 타겟 데이터로 사용했습니다. 평가의 목표는 합성 데이터를 사용하여 다양한 이탈 예측 모델을 훈련하고 각 모델의 성능을 평가하는 것이었습니다. 이탈 예측은 분류 작업이므로 SAS는 다음을 포함하여 예측을 수행하기 위해 널리 사용되는 분류 모델을 선택했습니다.

  1. 랜덤 포레스트
  2. 그라디언트 부스팅
  3. 로지스틱 회귀
  4. 신경망

SAS는 합성 데이터를 생성하기 전에 통신 데이터 세트를 기차 세트(모델 학습용)와 홀드아웃 세트(모델 채점용)로 무작위로 분할합니다. 스코어링을 위한 별도의 홀드아웃 세트를 사용하면 분류 모델이 새 데이터에 적용될 때 얼마나 잘 할 수 있는지에 대한 편견 없는 평가가 가능합니다.

Syntho는 기차 세트를 입력으로 사용하여 Syntho 엔진을 사용하여 합성 데이터 세트를 생성했습니다. 벤치마킹을 위해 SAS는 특정 임계값(k-익명성)에 도달하기 위해 다양한 익명화 기술을 적용한 후 열차 세트의 익명화된 버전도 생성했습니다. 이전 단계에서는 다음과 같은 4개의 데이터 세트가 생성되었습니다.

  1. 기차 데이터세트(즉, 원본 데이터세트에서 홀드아웃 데이터세트를 뺀 값)
  2. 홀드아웃 데이터세트(즉, 원본 데이터세트의 하위 집합)
  3. 익명화된 데이터세트(기차 데이터세트의 익명화된 데이터, 원본 데이터세트에서 홀드아웃 데이터세트를 뺀 데이터)
  4. 합성 데이터 세트(기차 데이터 세트의 합성 데이터, 원본 데이터 세트에서 홀드아웃 데이터 세트를 뺀 데이터)

데이터세트 1, 3, 4는 각 분류 모델을 훈련하는 데 사용되어 12(3 x 4)개의 훈련된 모델이 생성되었습니다. 이후 SAS는 홀드아웃 데이터 세트를 사용하여 고객 이탈 예측에서 각 모델의 정확도를 측정했습니다.

SAS는 원본 데이터와 비교하여 Syntho의 AI 생성 합성 데이터의 데이터 정확성, 개인 정보 보호 및 유용성에 대해 다양하고 철저한 평가를 수행합니다. 결론적으로 SAS는 Syntho의 합성 데이터가 원본 데이터와 비교하여 정확하고 안전하며 사용 가능한 것으로 평가하고 승인했습니다.

질문있으세요?

전문가와 상담하세요.

SAS의 데이터 평가 초기 결과

합성 데이터로 훈련된 모델은 원본 데이터로 훈련된 모델과 비교하여 매우 유사한 점수를 얻습니다.

Syntho의 합성 데이터는 기본 패턴뿐만 아니라 고급 분석 작업에 필요한 심층적인 '숨겨진' 통계 패턴도 포착합니다. 후자는 막대 차트에 나와 있으며, 이는 합성 데이터로 훈련된 모델과 원본 데이터로 훈련된 모델의 정확도가 유사함을 나타냅니다. 따라서 합성 데이터는 모델의 실제 학습에 사용될 수 있습니다. 원본 데이터와 비교하여 합성 데이터에 대한 알고리즘이 선택한 입력 및 변수 중요도는 매우 유사했습니다. 따라서 실제 민감한 데이터를 사용하는 대신 합성 데이터를 대상으로 모델링 프로세스를 수행할 수 있다는 결론을 얻었습니다.

익명화된 데이터로 훈련된 모델의 점수가 더 낮은 이유는 무엇입니까?

전통적인 익명화 기술은 개인의 역추적을 방해하기 위해 원본 데이터를 조작한다는 공통점이 있습니다. 이들은 데이터를 조작하여 그 과정에서 데이터를 파괴합니다. 익명화를 많이 할수록 데이터가 더 잘 보호되지만 데이터가 더 많이 파괴됩니다. 이는 "예측력"이 필수적인 AI 및 모델링 작업에 특히 치명적입니다. 품질이 좋지 않은 데이터는 AI 모델에서 잘못된 통찰력을 가져오기 때문입니다. SAS는 곡선 아래 면적(AUC*)이 0.5에 가까워 익명화된 데이터에 대해 훈련된 모델의 성능이 단연 최악임을 입증했습니다.

SAS의 합성 데이터 평가에 대한 추가 결과

SAS의 합성 데이터 평가에 대한 추가 결과

변수 간의 상관 관계와 관계는 합성 데이터에서 정확하게 보존되었습니다.

모델 성능 측정 지표인 AUC(Area Under the Curve)는 일관되게 유지되었습니다.

또한 모델에서 변수의 예측력을 나타내는 변수 중요도는 합성 데이터를 원본 데이터 세트와 비교할 때 그대로 유지되었습니다.

SAS와 SAS Viya의 이러한 관찰을 바탕으로 Syntho 엔진에서 생성된 합성 데이터가 실제로 품질 측면에서 실제 데이터와 동등하다는 결론을 내릴 수 있습니다. 이를 통해 모델 개발을 위한 합성 데이터의 사용을 검증하고 합성 데이터를 사용한 고급 분석의 기반을 마련합니다.

SAS 데이터 전문가의 결론

사스 로고

우리의 합성 데이터는 인가 된 SAS의 데이터 전문가에 의해

참고 기사

신토 가이드 커버

지금 합성 데이터 가이드를 저장하십시오!