AI 생성 합성 데이터, 고품질 데이터에 쉽고 빠르게 액세스?

AI가 실제로 생성한 합성 데이터

AI 생성 합성 데이터 전문가인 Syntho는 privacy by design AI 생성 합성 데이터로 경쟁 우위 확보 조직이 고품질 데이터에 쉽고 빠르게 액세스하여 강력한 데이터 기반을 구축할 수 있도록 지원하며 최근에는 Philips Innovation Award를 수상했습니다.

그러나 AI를 사용한 합성 데이터 생성은 일반적으로 자주 묻는 질문을 소개하는 비교적 새로운 솔루션입니다. 이에 대한 답을 찾기 위해 Syntho는 고급 분석 및 AI 소프트웨어의 시장 리더인 SAS와 함께 사례 연구를 시작했습니다.

네덜란드 AI 연합(NL AIC)과 협력하여 데이터 품질, 법적 유효성 및 사용성에 대한 다양한 평가를 통해 Syntho Engine에서 생성된 AI 생성 합성 데이터를 원본 데이터와 비교하여 합성 데이터의 가치를 조사했습니다.

데이터 익명화는 솔루션이 아닙니까?

고전적인 익명화 기술은 개인을 추적하는 것을 방해하기 위해 원본 데이터를 조작한다는 공통점이 있습니다. 예를 들면 일반화, 억제, 삭제, 가명화, 데이터 마스킹, 행 및 열 섞기 등이 있습니다. 아래 표에서 예를 찾을 수 있습니다.

데이터 익명화

이러한 기술에는 3가지 주요 과제가 있습니다.

  1. 데이터 유형 및 데이터 세트마다 다르게 작동하므로 확장하기 어렵습니다. 또한 서로 다르게 작동하기 때문에 어떤 방법을 적용하고 어떤 기술 조합이 필요한지에 대한 논쟁이 항상 있을 것입니다.
  2. 원본 데이터와 항상 일대일 관계가 있습니다. 이는 특히 모든 공개 데이터 세트와 이러한 데이터 세트를 연결하는 데 사용할 수 있는 기술로 인해 개인 정보 보호 위험이 항상 있음을 의미합니다.
  3. 그들은 데이터를 조작하여 프로세스에서 데이터를 파괴합니다. 이는 "예측력"이 필수적인 AI 작업에 특히 치명적입니다. 왜냐하면 나쁜 품질의 데이터는 AI 모델의 나쁜 통찰력을 가져오기 때문입니다(가비지 인은 가비지 아웃을 초래함).

이러한 점은 이 사례 연구를 통해서도 평가됩니다.

사례 연구 소개

사례 연구의 대상 데이터 세트는 56.600명의 고객 데이터가 포함된 SAS에서 제공한 통신 데이터 세트였습니다. 데이터 세트에는 고객이 회사를 떠났는지(즉, '이탈') 여부를 나타내는 128개의 열을 포함하여 XNUMX개의 열이 있습니다. 사례 연구의 목표는 합성 데이터를 사용하여 일부 모델을 훈련시켜 고객 이탈을 예측하고 훈련된 모델의 성능을 평가하는 것이었습니다. 이탈 예측은 분류 작업이므로 SAS는 다음을 포함하여 예측을 수행하기 위해 XNUMX가지 인기 있는 분류 모델을 선택했습니다.

  1. 랜덤 포레스트
  2. 그라디언트 부스팅
  3. 로지스틱 회귀
  4. 신경망

SAS는 합성 데이터를 생성하기 전에 통신 데이터 세트를 기차 세트(모델 학습용)와 홀드아웃 세트(모델 채점용)로 무작위로 분할합니다. 점수를 매기기 위한 별도의 홀드아웃 세트를 사용하면 새 데이터에 적용할 때 분류 모델이 얼마나 잘 수행될 수 있는지에 대한 편견 없는 평가가 가능합니다.

기차 세트를 입력으로 사용하여 Syntho는 Syntho 엔진을 사용하여 합성 데이터 세트를 생성했습니다. 벤치마킹을 위해 SAS는 다양한 익명화 기술을 적용하여 특정 임계값(k-익명성)에 도달한 후 조작된 버전의 기차 세트도 만들었습니다. 이전 단계에서는 XNUMX개의 데이터세트가 생성되었습니다.

  1. 기차 데이터세트(즉, 원본 데이터세트에서 홀드아웃 데이터세트를 뺀 값)
  2. 홀드아웃 데이터세트(즉, 원본 데이터세트의 하위 집합)
  3. 익명화된 데이터세트(기차 데이터세트 기반)
  4. 합성 데이터 세트(기차 데이터 세트 기반)

데이터 세트 1, 3 및 4는 각 분류 모델을 훈련하는 데 사용되어 12개(3 x 4)개의 훈련된 모델이 생성되었습니다. SAS는 이후 홀드아웃 데이터 세트를 사용하여 각 모델이 고객 이탈을 예측하는 정확도를 측정했습니다. 결과는 몇 가지 기본 통계로 시작하여 아래에 나와 있습니다.

SAS에서 생성된 머신 러닝 파이프라인

그림: SAS Visual Data Mining 및 Machine Learning에서 생성된 Machine Learning 파이프라인

익명 데이터와 원본 데이터 비교 시 기본 통계

익명화 기술은 기본 패턴, 비즈니스 논리, 관계 및 통계도 파괴합니다(아래 예 참조). 따라서 기본 분석에 익명 데이터를 사용하면 신뢰할 수 없는 결과가 생성됩니다. 사실, 익명화된 데이터의 품질이 좋지 않아 고급 분석 작업(예: AI/ML 모델링 및 대시보드)에 사용하는 것이 거의 불가능했습니다.

익명화된 데이터를 원본 데이터와 비교

합성 데이터와 원본 데이터 비교 시 기본 통계

AI를 사용한 합성 데이터 생성은 기본 패턴, 비즈니스 로직, 관계 및 통계를 보존합니다(아래 예와 같이). 따라서 기본 분석에 합성 데이터를 사용하면 신뢰할 수 있는 결과를 얻을 수 있습니다. 핵심 질문은 합성 데이터가 고급 분석 작업(예: AI/ML 모델링 및 대시보드)에 적용됩니까?

합성 데이터를 원본 데이터와 비교

AI 생성 합성 데이터 및 고급 분석

합성 데이터는 기본 패턴(이전 플롯에 표시됨)뿐만 아니라 고급 분석 작업에 필요한 깊은 '숨겨진' 통계 패턴도 캡처합니다. 후자는 아래 막대 차트에 나와 있으며, 합성 데이터에서 훈련된 모델과 원본 데이터에서 훈련된 모델의 정확도가 유사함을 나타냅니다. 또한 AUC*(Area under the Curve)가 0.5에 가까우면 익명화된 데이터에 대해 훈련된 모델이 훨씬 더 나쁜 성능을 보입니다. 원본 데이터와 비교한 합성 데이터에 대한 모든 고급 분석 평가가 포함된 전체 보고서는 요청 시 제공됩니다.

*AUC: 곡선 아래 영역은 참 양성, 거짓 양성, 거짓 음성 및 참 음성을 고려하여 고급 분석 모델의 정확도를 측정한 것입니다. 0,5는 모델이 무작위로 예측하고 예측력이 없음을 의미하고 1은 모델이 항상 정확하고 완전한 예측력을 가짐을 의미합니다.

또한, 이 합성 데이터는 모델의 실제 훈련에 필요한 데이터 특성 및 주요 변수를 이해하는 데 사용할 수 있습니다. 원본 데이터와 비교하여 합성 데이터에 대한 알고리즘에 의해 선택된 입력은 매우 유사했습니다. 따라서 이 합성 버전에서 모델링 프로세스를 수행할 수 있으므로 데이터 유출 위험이 줄어듭니다. 그러나 개별 기록(예: 통신사 고객)을 추론할 때 원래 데이터에 대한 재교육은 설명 가능성, 수용도 증가 또는 규정 때문에 권장됩니다.                              

방법별로 그룹화된 알고리즘별 AUC

AUC

결론 :

  • 원본 데이터로 훈련된 모델과 합성 데이터로 훈련된 모델은 매우 유사한 성능을 보여줍니다.
  • '고전적인 익명화 기법'으로 익명화된 데이터로 훈련된 모델은 원본 데이터 또는 합성 데이터로 훈련된 모델에 비해 성능이 떨어짐
  • 이 기술은 데이터 세트 및 데이터 유형별로 정확히 동일하게 작동하기 때문에 합성 데이터 생성이 쉽고 빠릅니다.

부가 가치 합성 데이터 사용 사례

사용 사례 1: 모델 개발 및 고급 분석을 위한 합성 데이터

사용 가능한 고품질 데이터에 쉽고 빠르게 액세스할 수 있는 강력한 데이터 기반을 갖추는 것은 모델을 개발하는 데 필수적입니다(예: 대시보드[BI] 및 고급 분석[AI 및 ML]). 그러나 많은 조직이 최적이 아닌 데이터 기반으로 인해 3가지 주요 과제를 안고 있습니다.

  • (프라이버시) 규정, 내부 프로세스 또는 데이터 사일로로 인해 데이터에 액세스하는 데 오랜 시간이 걸립니다.
  • 고전적인 익명화 기술은 데이터를 파괴하여 데이터를 더 이상 분석 및 고급 분석에 적합하지 않게 만듭니다(가비지 인 = 가비지 아웃).
  • 기존 솔루션은 데이터 세트 및 데이터 유형별로 다르게 작동하고 대규모 다중 테이블 데이터베이스를 처리할 수 없기 때문에 확장할 수 없습니다.

합성 데이터 접근 방식: 실제와 같은 합성 데이터로 모델을 개발하여 다음을 수행합니다.

  • 개발자를 방해하지 않으면서 원본 데이터의 사용을 최소화합니다.
  • 개인 데이터의 잠금을 해제하고 이전에 제한되었던 더 많은 데이터에 액세스할 수 있습니다(예: 개인 정보 보호로 인해).
  • 관련 데이터에 대한 쉽고 빠른 데이터 액세스
  • 각 데이터 세트, 데이터 유형 및 대규모 데이터베이스에 대해 동일하게 작동하는 확장 가능한 솔루션

이를 통해 조직은 사용 가능한 고품질 데이터에 쉽고 빠르게 액세스하여 데이터를 잠금 해제하고 데이터 기회를 활용할 수 있는 강력한 데이터 기반을 구축할 수 있습니다.

 

사용 사례 2: 소프트웨어 테스트, 개발 및 제공을 위한 스마트 합성 테스트 데이터

고품질 테스트 데이터를 사용한 테스트 및 개발은 최첨단 소프트웨어 솔루션을 제공하는 데 필수적입니다. 원본 생산 데이터를 사용하는 것은 당연해 보이지만 (프라이버시) 규정으로 인해 허용되지 않습니다. 대안 Test Data Management (TDM) 도구는 "legacy-by-design" 테스트 데이터를 올바르게 가져오는 데:

  • 프로덕션 데이터 및 비즈니스 로직을 반영하지 않으며 참조 무결성이 유지되지 않습니다.
  • 작업이 느리고 시간이 많이 소요됨
  • 수작업이 필요합니다

합성 데이터 접근 방식: AI 생성 합성 테스트 데이터로 테스트 및 개발하여 다음을 통해 스마트한 최첨단 소프트웨어 솔루션 제공:

  • 비즈니스 로직과 참조 무결성이 보존된 프로덕션과 유사한 데이터
  • 최첨단 AI로 쉽고 빠른 데이터 생성
  • 개인 정보 보호
  • 쉽고 빠르고 agile

이를 통해 조직은 차세대 테스트 데이터로 테스트 및 개발하여 최첨단 소프트웨어 솔루션을 제공할 수 있습니다!

더 알아보기

관심 있는? 합성 데이터에 대한 자세한 내용은 Syntho 웹사이트를 방문하거나 Wim Kees Janssen에 문의하십시오. SAS에 대한 자세한 내용은 다음을 참조하십시오. www.sas.com 또는 kees@syntho.ai로 연락하십시오.

이 사용 사례에서 Syntho, SAS 및 NL AIC는 의도한 결과를 달성하기 위해 함께 작동합니다. Syntho는 AI 생성 합성 데이터의 전문가이고 SAS는 분석 분야의 시장 리더이며 데이터 탐색, 분석 및 시각화를 위한 소프트웨어를 제공합니다.

* 2021년 예측 – 디지털 비즈니스를 관리, 확장 및 변환하기 위한 데이터 및 분석 전략, Gartner, 2020.

신토 가이드 커버

지금 합성 데이터 가이드를 저장하십시오!