합성 데이터란 무엇입니까?

집중 과정 합성 데이터

 

 

개요

합성 데이터란 무엇입니까?

대답은 비교적 간단합니다. 원본 데이터는 실제 사람(예: 고객, 환자, 직원 등)과의 모든 상호 작용 및 모든 내부 프로세스를 통해 수집되는 반면 합성 데이터는 컴퓨터 알고리즘에 의해 생성됩니다. 이 컴퓨터 알고리즘은 완전히 새롭고 인공적인 데이터 포인트를 생성합니다.

데이터 개인 정보 보호 문제 해결

종합적으로 생성된 데이터는 원본 데이터와 일대일 관계가 없는 완전히 새로운 인공 데이터 포인트로 구성됩니다. 따라서 합성 데이터 포인트는 원본 데이터로 역추적하거나 역설계할 수 없습니다. 결과적으로 합성 데이터는 GDPR과 같은 개인 정보 보호 규정에서 면제되며 데이터 개인 정보 문제를 해결하고 극복하는 솔루션 역할을 합니다.

증강 및 시뮬레이션

합성 데이터 생성의 생성적 측면을 통해 완전히 새로운 데이터를 보강하고 시뮬레이션할 수 있습니다. 이것은 데이터가 충분하지 않거나(데이터 희소성), 에지 케이스를 업샘플링하려는 경우 또는 아직 데이터가 없을 때 솔루션으로 작동합니다.

여기에서 Syntho의 초점은 구조화된 데이터(Excel 시트에서 볼 수 있는 것처럼 행과 열이 포함된 테이블 형식의 데이터)이지만 우리는 항상 합성 데이터의 개념을 이미지를 통해 설명하는 것을 좋아합니다. 왜냐하면 그것이 더 매력적이기 때문입니다.

합성 데이터의 유형

합성 데이터 우산에는 세 가지 유형의 합성 데이터가 존재합니다. 그 3가지 유형의 합성 데이터는 더미 데이터, 규칙 기반 생성 합성 데이터 및 인공 지능(AI)에 의해 생성된 합성 데이터입니다. 3가지 유형의 합성 데이터가 무엇인지 간단히 설명합니다.

더미 데이터 / 모의 데이터

더미 데이터는 무작위로 생성된 데이터입니다(예: 모의 데이터 생성기에 의해).

결과적으로 원본 데이터에 있는 특성, 관계 및 통계 패턴이 생성된 더미 데이터에 보존, 캡처 및 재생되지 않습니다. 따라서 더미 데이터/모의 데이터의 대표성은 원본 데이터에 비해 최소화됩니다.

  • 사용 시기: 직접 식별자(PII)를 대체하거나 데이터가 없고(아직) 규칙을 정의하는 데 시간과 에너지를 소비하고 싶지 않을 때.

규칙 기반 생성 합성 데이터

규칙 기반 생성 합성 데이터는 미리 정의된 규칙 집합에 의해 생성된 합성 데이터입니다. 미리 정의된 규칙의 예로는 특정 최소값, 최대값 또는 평균값을 가진 합성 데이터를 원할 수 있습니다. 규칙 기반으로 생성된 합성 데이터에서 재현하려는 특성, 관계 및 통계 패턴은 미리 정의되어야 합니다.

결과적으로 데이터 품질은 미리 정의된 규칙 집합만큼 우수합니다. 따라서 높은 데이터 품질이 핵심인 경우 문제가 발생합니다. 첫째, 합성 데이터에서 캡처할 제한된 규칙 집합만 정의할 수 있습니다. 또한 여러 규칙을 설정하면 일반적으로 규칙이 겹치고 충돌하게 됩니다. 또한 모든 관련 규칙을 완전히 다루지는 않을 것입니다. 게다가, 당신이 알지 못하는 관련 규칙이 있을 수 있습니다. 그리고 마지막으로 (그리고 잊지 말아야 할 것), 이것은 당신에게 많은 시간과 에너지를 필요로 하여 비효율적인 솔루션을 초래할 것입니다.

  • 사용 시기: 데이터가 없을 때(아직)

인공 지능(AI)이 생성한 합성 데이터

이름에서 알 수 있듯 인공지능(AI)이 생성하는 합성 데이터는 인공지능(AI) 알고리즘이 생성하는 합성 데이터다. AI 모델은 모든 특성, 관계 및 통계 패턴을 학습하기 위해 원본 데이터에 대해 학습됩니다. 그 후 이 AI 알고리즘은 완전히 새로운 데이터 포인트를 생성하고 원래 데이터 세트의 특성, 관계 및 통계 패턴을 재현하는 방식으로 새로운 데이터 포인트를 모델링할 수 있습니다. 이것을 합성 데이터 쌍이라고 합니다.

AI 모델은 원본 데이터를 모방하여 원본 데이터처럼 사용할 수 있는 합성 데이터 쌍을 생성합니다. 이는 AI 생성 합성 데이터를 테스트 데이터, 데모 데이터 또는 분석용으로 사용하는 것과 같이 AI 생성 합성 데이터를 원본(민감한) 데이터 사용의 대안으로 사용할 수 있는 다양한 사용 사례를 잠금 해제합니다.

합성 데이터 생성 방법 시각화

규칙 기반 생성 합성 데이터와 비교: 관련 규칙을 연구하고 정의하는 대신 AI 알고리즘이 자동으로 이를 수행합니다. 여기에서는 여러분이 알고 있는 특성, 관계 및 통계 패턴뿐만 아니라 인식하지 못하는 특성, 관계 및 통계 패턴도 다룹니다.

  • 사용 시기: 스마트 데이터 생성 및 증강 기능을 위한 시작점으로 사용하거나 모방할 입력으로 (일부) 데이터가 있는 경우

어떤 유형의 합성 데이터를 사용할 것인가?

사용 사례에 따라 더미 데이터/모의 데이터, 규칙 기반 생성 합성 데이터 또는 인공 지능(AI)에 의해 생성된 합성 데이터의 조합을 권장합니다. 이 개요는 사용할 합성 데이터 유형에 대한 첫 번째 표시를 제공합니다. Syntho는 이 모든 것을 지원하므로 언제든지 당사 전문가에게 연락하여 사용 사례를 심층 분석하십시오.

이 차트는 다양한 유형의 합성 데이터를 나타냅니다.

신토 가이드 커버

지금 합성 데이터 가이드를 저장하십시오!