합성 데이터 생성 가이드: 정의, 유형 및 애플리케이션

기업이 고품질 데이터를 획득하고 공유하는 데 어려움을 겪고 있다는 것은 비밀이 아닙니다. 합성 데이터 생성 개인 정보 보호 위험이나 관료주의 없이 대규모 인공 데이터 세트와 고품질 테스트 데이터를 생성하는 데 도움이 되는 실용적인 솔루션입니다.

다양한 응용 프로그램을 제공하는 다양한 방법을 사용하여 합성 데이터 세트를 생성할 수 있습니다. 적절하게 평가되면 고급 알고리즘을 사용하여 생성된 합성 데이터 세트는 조직의 분석, 연구 및 테스트 속도를 높이는 데 도움이 됩니다. 그럼 좀 더 자세히 살펴보겠습니다.

이 문서에서는 주요 유형, 익명화된 데이터세트와의 차이점, 규제상의 미묘한 차이를 포함한 합성 데이터를 소개합니다. 인위적으로 생성된 데이터가 중요한 데이터 문제를 해결하고 특정 위험을 최소화하는 방법을 배우게 됩니다. 또한 사례 연구의 예와 함께 산업 전반에 걸친 응용 프로그램에 대해 논의할 것입니다.

차례

합성 데이터: 정의 및 시장 통계

합성 데이터 기밀 내용 없이 인위적으로 생성된 정보로, 실제 데이터 세트를 대체하는 역할을 합니다. 데이터 과학자들이 자주 전화하는 경우 AI 생성 합성 데이터 실제 데이터를 모방할 때 통계적 정확도가 높기 때문에 합성 데이터 쌍입니다.

인공 데이터 세트는 원본 데이터의 패턴과 상관 관계를 유지하는 인공 지능(AI) 알고리즘과 시뮬레이션을 사용하여 생성됩니다. 이 데이터에는 텍스트, 표, 그림이 포함될 수 있습니다. 알고리즘은 개인 식별 정보(PII)를 다음으로 대체합니다. 모의 데이터.

모든 솔루션 그래프가 포함된 합성 데이터 플랫폼 Syntho

그랜드 뷰 리서치 전망 그 시장은 Generative AI를 사용한 합성 데이터 생성 1.63년 2022억 13.5천만 달러에서 2030년까지 CAGR 35%로 약 XNUMX억 달러로 성장할 것입니다. 가트너에 따르면, 60년 AI에 사용되는 데이터의 2024%는 합성 데이터가 될 것 — 이는 60년보다 2021배 더 많은 수치입니다.

합성 데이터 플랫폼도 증가하고 있습니다. 마켓 스테이츠빌은 기대합니다 글로벌 합성 데이터 플랫폼 시장은 218년 2022억 3.7만 달러에서 2033년 XNUMX억 달러로 성장할 것입니다.

인공 데이터가 증가하는 이유는 무엇입니까? 한 가지 주요 요인은 규제 감독이 없다는 것입니다.

개인 정보 보호법은 AI가 생성한 합성 데이터를 규제합니까?

많은 미국과 EU 데이터 보안 및 개인 정보 식별 가능한 개인 데이터에는 규정이 적용됩니다. 

하지만 해당 규정은 다음에는 적용되지 않습니다. 합성 데이터 — 합성 데이터는 다음과 유사하게 처리됩니다. 익명화된 데이터. 이는 다른 법적 규칙의 소위 "핵심"을 형성합니다.

예를 들어, GDPR 26조 개인 정보 보호 규칙은 식별 가능한 개인과 관련된 데이터에만 적용된다고 말합니다. 식별 가능한 개인을 추적할 수 없도록 합성 데이터가 생성된 경우 규제 감독에서 제외됩니다. 규제 감독 외에도 기업이 합성 데이터를 생성하도록 유도하는 실제 데이터를 사용하는 데에는 다른 장애물이 있습니다.

실제 데이터 사용의 주요 과제

많은 기업은 특히 AI 알고리즘 훈련에 충분한 양의 관련 고품질 데이터를 찾고 사용하는 데 어려움을 겪고 있습니다. 데이터 세트를 찾았더라도 개인 정보 보호 위험 및 호환성 문제로 인해 데이터 세트를 공유하거나 활용하는 것이 어려울 수 있습니다. 이 섹션에서는 핵심 내용을 설명합니다. 합성 데이터에 도전하다 해결할 수 있습니다.

개인 정보 보호 위험으로 인해 데이터 사용 및 공유가 방해됩니다.

GDPR 및 HIPAA와 같은 데이터 보안 및 개인 정보 보호 규정은 데이터 공유 및 활용에 관료적 장애물을 도입합니다. 의료와 같은 산업에서는 동일한 조직 내의 부서 간에 PII를 공유하는 것조차 거버넌스 점검으로 인해 시간이 많이 걸릴 수 있습니다. 외부 엔터티와 데이터를 공유하는 것은 훨씬 더 어렵고 더 많은 보안 위험을 수반합니다.

의 연구 포춘 비즈니스 통찰력 증가하는 개인 정보 보호 위험을 합성 데이터 관행을 채택하는 주요 촉매제로 식별합니다. 더 많은 데이터를 저장할수록 개인 정보가 침해될 위험이 커집니다. 에 따르면 2023년 IBM 데이터 침해로 인한 보안 비용 보고서, 미국의 평균 데이터 유출 비용은 9.48만 달러였습니다. 전 세계적으로 평균 비용은 4.45만 달러였습니다. 직원이 500명 미만인 기업은 위반당 3.31만 달러의 손실을 입습니다. 그리고 그것은 평판 손상을 설명하지 않습니다.

고품질 데이터를 찾는 데 어려움이 있음

2022 설문 조사 500명의 데이터 전문가 중 77%의 엔지니어, 분석가, 데이터 과학자가 데이터 품질 문제에 직면했다고 밝혔습니다. 보고서에 따르면 데이터 품질은 회사의 재무 성과와 생산성을 방해하고 서비스에 대한 전체적인 관점을 달성하기 어렵게 만듭니다.

기업에서는 기계 학습(ML) 모델을 적절하게 교육하기 위해 특정 인구 통계의 데이터가 충분하지 않을 수 있습니다. 그리고 데이터세트에는 불일치, 부정확성, 누락된 값이 포함되는 경우가 많습니다. AI 플랫폼을 훈련시키면 기계 학습 모델 인구통계학적 다양성이 결여된 품질이 낮은 데이터에 대해서는 부정확하고 편향된 예측을 하게 됩니다. 마찬가지로 익명화된 데이터 생성과 마찬가지로 정제되지 않은 알고리즘은 데이터 분석 결과에 영향을 미치는 신뢰할 수 없는 인공 데이터 세트를 생성할 수 있습니다.

합성 데이터를 사용한 업샘플링은 데이터 세트의 불균형을 해결하여 데이터 품질을 향상시킬 수 있습니다. 이렇게 하면 과소 대표되는 클래스가 더 많은 비례 대표를 받고 편향이 줄어듭니다. 더욱 강력하고 대표적인 데이터 세트를 통해 향상된 분석 결과와 모델 교육이 가능합니다.

데이터세트 비호환성

다양한 원본이나 다중 테이블 데이터베이스 내에서 가져온 데이터 세트는 비호환성을 초래하여 데이터 처리 및 분석에 복잡성을 야기하고 혁신을 방해할 수 있습니다.

예를 들어 의료 분야의 데이터 수집에는 전자 건강 기록(EHR), 웨어러블, 독점 소프트웨어 및 타사 도구가 포함됩니다. 각 소스는 고유한 데이터 형식과 정보 시스템을 활용할 수 있으므로 통합 중에 데이터 형식, 구조 또는 단위에 차이가 발생할 수 있습니다. 합성 데이터를 사용하면 이러한 문제를 해결할 수 있으며 호환성을 보장하고 다음을 허용할 수 있습니다. 데이터를 생성하다 원하는 형식으로.

익명화가 불충분하다

익명화 기술은 개인 정보 보호 위험이나 데이터 품질 문제를 극복하는 데 충분하지 않습니다. 게다가, 식별자를 마스킹하거나 제거하면 심층 분석에 필요한 세부 정보가 제거될 수 있습니다. 대규모 데이터 세트에서.

게다가 익명화된 데이터는 개인을 재식별하고 추적할 수 있습니다. 악의적인 행위자는 고급 분석을 사용하여 식별이 제거된 것처럼 보이는 데이터의 익명성을 손상시키는 시간 기반 패턴을 찾아낼 수 있습니다. 그런 점에서 합성 데이터는 익명화된 데이터보다 우수합니다.

같지 않은 익명화, 합성 데이터 기존 데이터 세트를 변경하지 않지만 데이터 세트의 특성 및 구조와 유사한 새로운 데이터를 생성합니다. 원시 데이터, 유틸리티를 보존합니다. 개인 식별 정보가 포함되지 않은 완전히 새로운 데이터 세트입니다.

하지만 그보다 더 미묘한 차이가 있습니다. 여러 유형이 있습니다 합성 데이터 생성 방법.

합성 데이터 생성 유형

합성 데이터 생성 프로세스는 필요한 데이터 유형에 따라 다릅니다. 합성 데이터 유형에는 완전한 AI 생성, 규칙 기반 및 모의 데이터가 포함되며, 각각은 서로 다른 요구 사항을 충족합니다.

완전 AI 생성 합성 데이터

이러한 유형의 합성 데이터 ML 알고리즘을 사용하여 처음부터 구축되었습니다. 그만큼 기계 학습 모델 기차를 타다 실제 데이터 데이터의 구조, 패턴 및 관계에 대해 알아봅니다. 그런 다음 Generative AI는 이 지식을 사용하여 원본의 통계적 속성과 매우 유사한 새로운 데이터를 생성합니다(역시 식별 불가능하게 만듭니다).

이러한 유형의 완전 합성 데이터 AI 모델 훈련에 유용하고, 실제 데이터처럼 활용하기에도 충분합니다. 계약상의 개인 정보 보호 계약으로 인해 데이터 세트를 공유할 수 없는 경우 특히 유용합니다. 그러나 합성 데이터를 생성하려면 시작점으로 상당한 양의 원본 데이터가 필요합니다. 기계 학습 모델 교육 자료를 제공합니다.

합성 모의 데이터

합성 데이터 유형이란 실제 데이터의 구조와 형식을 모방하지만 반드시 실제 정보를 반영하지는 않는 인위적으로 생성된 데이터를 의미합니다. 이를 통해 개발자는 애플리케이션이 정품, 개인 정보 또는 기타 정보를 사용하지 않고도 다양한 입력 및 시나리오를 처리할 수 있도록 보장할 수 있습니다. 민감한 데이터 그리고 가장 중요한 것은 실제 데이터에 의존하지 않는다는 것입니다. 이러한 관행은 통제되고 안전한 방식으로 기능을 테스트하고 소프트웨어 애플리케이션을 개선하는 데 필수적입니다.

사용 시기: 직접 식별자(PII)를 대체하거나 현재 데이터가 부족하고 규칙 정의에 시간과 에너지를 투자하고 싶지 않은 경우. 개발자는 일반적으로 개발 초기 단계에서 응용 프로그램의 기능과 모양을 평가하기 위해 모의 데이터를 사용하여 잠재적인 문제나 설계 결함을 식별할 수 있습니다. 

모의 데이터에는 실제 정보의 신뢰성이 부족하지만 실제 데이터 통합 ​​전에 시스템의 적절한 기능과 시각적 표현을 보장하는 데 여전히 귀중한 도구입니다. 

참고: 합성 모의 데이터는 종종 '가짜 데이터,'라는 의미가 다를 수 있으므로 이러한 용어를 서로 바꿔서 사용하는 것은 권장하지 않습니다. 

합성 모의 데이터

규칙 기반 합성 데이터

규칙 기반 합성 데이터 사전 정의된 규칙, 제약 조건 및 논리를 기반으로 맞춤형 데이터 세트를 생성하는 데 유용한 도구입니다. 이 방법은 사용자가 특정 비즈니스 요구에 따라 데이터 출력을 구성하고 최소값, 최대값, 평균값과 같은 매개변수를 조정함으로써 유연성을 제공합니다. 사용자 정의가 부족한 완전한 AI 생성 데이터와 달리 규칙 기반 합성 데이터는 고유한 운영 요구 사항을 충족하기 위한 맞춤형 솔루션을 제공합니다. 이것 합성 데이터 생성 프로세스 정확하고 제어된 데이터 생성이 필수적인 테스트, 개발 및 분석에 특히 유용하다는 것이 입증되었습니다.

각 합성 데이터 생성 방법에는 서로 다른 응용 프로그램이 있습니다. Syntho의 플랫폼은 사용자의 노력이 거의 또는 전혀 없이 합성 데이터 쌍을 생성한다는 점에서 돋보입니다. 통계적으로 정확해지고, 고품질 합성 데이터 규정 준수 오버헤드가 없는 요구사항을 충족합니다.

표 형식의 합성 데이터

용어 표 형식의 합성 데이터 를 의미 인공 데이터 생성 실제 세계의 구조와 통계적 특성을 모방하는 하위 집합 표 데이터, 예를 들어 테이블이나 스프레드시트에 저장된 데이터입니다. 이것 합성 데이터 사용하여 생성됩니다 합성 데이터 생성 알고리즘 그리고 그 특성을 재현하도록 고안된 기술 소스 데이터 기밀을 보장하면서 또는 민감한 데이터 공개되지 않습니다.

생성 기술 표의 합성 데이터 일반적으로 통계적 모델링이 포함됩니다. 기계 학습 모델또는 생성적 적대 네트워크(GAN) 및 변형 자동 인코더(VAE)와 같은 생성 모델이 있습니다. 이것들 합성 데이터 생성 도구 패턴, 분포, 상관관계를 분석합니다. 실제 데이터세트 그런 다음 새로운 생성 데이터 점수실제 데이터와 매우 유사 하지만 실제 정보는 포함되어 있지 않습니다.

일반적인 표 합성 데이터 사용 사례 여기에는 개인 정보 보호 문제 해결, 데이터 가용성 향상, 데이터 기반 애플리케이션의 연구 및 혁신 촉진이 포함됩니다. 그러나 다음 사항을 확인하는 것이 중요합니다. 합성 데이터 원본 데이터의 기본 패턴과 분포를 정확하게 캡처하여 유지 관리합니다. 데이터 유틸리티 다운스트림 작업에 대한 유효성.

규칙 기반 합성 데이터 그래프

가장 널리 사용되는 합성 데이터 애플리케이션

인위적으로 생성된 데이터는 의료, 소매, 제조, 금융 및 기타 산업에 혁신 가능성을 열어줍니다. 첫째의 사용 사례 데이터 업샘플링, 분석, 테스트 및 공유가 포함됩니다.

데이터세트 향상을 위한 업샘플링

업샘플링은 확장 및 다양화를 위해 작은 데이터세트에서 더 큰 데이터세트를 생성하는 것을 의미합니다. 이 방법은 실제 데이터가 부족하거나, 불균형하거나, 불완전한 경우에 적용됩니다.

몇 가지 예를 고려하십시오. 금융 기관의 경우 개발자는 드문 관찰 및 활동 패턴을 업샘플링하여 사기 탐지 모델의 정확성을 향상시킬 수 있습니다. 재무 데이터. 마찬가지로, 마케팅 대행사는 업샘플링을 통해 과소대표된 그룹과 관련된 데이터를 보강하여 세분화 정확도를 높일 수 있습니다.

AI 생성 데이터를 사용한 고급 분석

기업은 데이터 모델링, 비즈니스 분석 및 임상 연구를 위해 AI로 생성된 고품질 합성 데이터를 활용할 수 있습니다. 데이터 합성 실제 데이터 세트를 획득하는 데 비용이 너무 많이 들거나 시간이 많이 소요될 때 실행 가능한 대안임이 입증되었습니다.

합성 데이터 연구자들이 환자의 기밀을 침해하지 않고 심층 분석을 수행할 수 있도록 지원합니다. 데이터 과학자 연구자들은 환자 데이터, 임상 상태에 대한 정보, 치료 세부 사항에 접근하여 실제 데이터를 사용하면 훨씬 더 많은 시간이 소요되는 통찰력을 얻을 수 있습니다. 또한 제조업체는 조작된 GPS 및 위치 데이터를 통합하여 성능 테스트를 위한 알고리즘을 생성하거나 예측 유지 관리를 강화함으로써 공급업체와 데이터를 자유롭게 공유할 수 있습니다.

그러나, 합성 데이터 평가 중요합니다. Syntho Engine의 출력은 내부 품질 보증 팀에 의해 검증되며 SAS Institute의 외부 전문가. 예측 모델링 연구에서 우리는 네 가지를 교육했습니다. 기계 학습 모델 실제, 익명화된, 합성 데이터에 대해. 결과에 따르면 합성 데이터 세트로 훈련된 모델은 실제 데이터 세트로 훈련된 모델과 동일한 수준의 정확성을 보인 반면, 익명화된 데이터는 모델의 유용성을 감소시키는 것으로 나타났습니다.

외부 및 내부 데이터 공유

합성 데이터는 조직 내 및 조직 간 데이터 공유를 단순화합니다. 당신은 할 수 있습니다 합성 데이터를 사용하다 개인정보 침해나 규제 위반 위험 없이 정보를 교환합니다. 합성 데이터의 이점에는 연구 결과 가속화와 보다 효과적인 협업이 포함됩니다.

소매업체는 고객 행동, 재고 수준 또는 기타 주요 지표를 반영하는 합성 데이터를 사용하여 공급업체 또는 유통업체와 통찰력을 공유할 수 있습니다. 그러나 최고 수준의 서비스를 보장하기 위해 데이터 프라이버시, 민감한 고객 데이터 및 기업 비밀은 기밀로 유지됩니다.

Syntho가 2023년 글로벌 SAS Hackathon에서 우승했습니다. 생성하고 공유하는 능력을 위해 a정확한 합성 데이터 효과적이고 위험이 없습니다. 우리는 예측 모델의 효능을 입증하기 위해 환자 집단이 서로 다른 여러 병원의 환자 데이터를 종합했습니다. 결합된 합성 데이터 세트를 사용하는 것은 실제 데이터를 사용하는 것만큼 정확한 것으로 나타났습니다.

합성 테스트 데이터

합성 테스트 데이터는 시뮬레이션을 위해 인위적으로 생성된 데이터입니다. 데이터 테스트 소프트웨어 개발 환경. 개인 정보 보호 위험을 줄이는 것 외에도 합성 테스트 데이터를 사용하면 개발자는 실제 시스템에 영향을 주지 않고 다양한 잠재적 시나리오에서 애플리케이션의 성능, 보안 및 기능을 엄격하게 평가할 수 있습니다.

네덜란드 최대 은행 중 하나와의 협력 쇼케이스 합성 데이터의 이점 소프트웨어 테스트용. 테스트 데이터 생성 Syntho Engine을 사용하면 은행이 소프트웨어 개발 및 버그 감지 속도를 높이는 데 도움이 되는 프로덕션과 유사한 데이터 세트가 생성되어 더 빠르고 안전한 소프트웨어 릴리스가 가능해졌습니다.

생성 기술 표의 합성 데이터 일반적으로 통계적 모델링이 포함됩니다. 기계 학습 모델또는 생성적 적대 네트워크(GAN) 및 변형 자동 인코더(VAE)와 같은 생성 모델이 있습니다. 이것들 합성 데이터 생성 도구 패턴, 분포, 상관관계를 분석합니다. 실제 데이터세트 그런 다음 새로운 생성 데이터 점수실제 데이터와 매우 유사 하지만 실제 정보는 포함되어 있지 않습니다.

일반적인 표 합성 데이터 사용 사례 여기에는 개인 정보 보호 문제 해결, 데이터 가용성 향상, 데이터 기반 애플리케이션의 연구 및 혁신 촉진이 포함됩니다. 그러나 다음 사항을 확인하는 것이 중요합니다. 합성 데이터 원본 데이터의 기본 패턴과 분포를 정확하게 캡처하여 유지 관리합니다. 데이터 유틸리티 다운스트림 작업에 대한 유효성.

Syntho의 합성 데이터 생성 플랫폼

Syntho는 스마트 합성 데이터 생성 플랫폼을 제공하여 조직이 지능적으로 데이터를 경쟁 우위로 전환할 수 있도록 지원합니다. 모든 합성 데이터 생성 방법을 하나의 플랫폼에 제공함으로써 Syntho는 다음을 포함하는 데이터 활용을 목표로 하는 조직을 위한 포괄적인 솔루션을 제공합니다.

  • AI 생성 합성 데이터 인공지능의 힘으로 합성 데이터에서 원본 데이터의 통계적 패턴을 모방하는 기술입니다.
  • 스마트 비식별화 보호 민감한 데이터 개인 식별 정보(PII)를 제거하거나 수정합니다.
  • Test data management 가능하게하는 비생산 환경을 위한 대표적인 테스트 데이터의 생성, 유지 관리 및 제어.

당사의 플랫폼은 모든 클라우드 또는 온프레미스 환경에 통합됩니다. 또한 우리는 계획과 배포를 담당합니다. 우리 팀은 직원들에게 사용 방법을 교육할 것입니다. 신토 엔진 효과적으로 배포 후 지속적인 지원을 제공하겠습니다.

Syntho의 기능에 대해 자세히 알아볼 수 있습니다. 합성 데이터 세대 플랫폼 당사 웹사이트의 솔루션 섹션.

합성 데이터의 미래는 어떻게 될까요?

생성 AI를 통한 합성 데이터 생성 대량의 데이터를 생성하고 공유하는 데 도움이 됩니다. 관련 데이터, 형식 호환성 문제, 규제 제약 및 데이터 침해 위험을 우회합니다.

익명화와 달리 합성 데이터 생성 데이터의 구조적 관계를 보존할 수 있습니다. 이는 합성 데이터를 고급 분석, 연구 개발, 다양화 및 테스트에 적합하게 만듭니다.

합성 데이터세트의 사용은 산업 전반에 걸쳐 확대될 것입니다. 기업들은 다음과 같은 준비를 하고 있다. 합성 데이터를 생성하고, 복잡한 이미지, 오디오, 비디오 콘텐츠로 범위를 확장합니다. 기업은 활용 범위를 확대할 예정이다. 기계 학습 모델 더욱 발전된 시뮬레이션과 어플리케이션.

좀 더 실용적인 응용을 배우고 싶나요? 합성 데이터? 자유롭게 데모 일정을 잡아 저희 웹 사이트.

신토 소개

신토 스마트함을 제공합니다 합성 데이터 생성 플랫폼, 활용 여러 합성 데이터 형식 및 생성 방법을 통해 조직이 지능적으로 데이터를 경쟁 우위로 전환할 수 있도록 지원합니다. AI가 생성한 합성 데이터는 원본 데이터의 통계 패턴을 모방하여 SAS와 같은 외부 전문가가 평가한 정확성, 개인 정보 보호 및 속도를 보장합니다. 스마트한 비식별화 기능과 일관된 매핑을 통해 참조 무결성을 유지하면서 중요한 정보를 보호합니다. 우리의 플랫폼은 규칙 기반을 활용하여 비프로덕션 환경에 대한 테스트 데이터의 생성, 관리 및 제어를 가능하게 합니다. 합성 데이터 생성 방법 타겟 시나리오용. 또한 사용자는 다음을 수행할 수 있습니다. 프로그래밍 방식으로 합성 데이터 생성 그리고 얻다 현실적인 테스트 데이터 포괄적인 테스트 및 개발 시나리오를 쉽게 개발할 수 있습니다.

저자,

Syntho의 CEO이자 공동 창립자인 Wim Kees Jannsen의 사진 얼굴 사진

빔 키스 얀센

CEO 및 설립자

AI가 생성한 합성 데이터로 데이터 산업을 뒤흔드는 스케일업 신토(Syntho). Wim Kees는 조직이 데이터 중심 혁신을 실현할 수 있도록 개인 정보 보호에 민감한 데이터를 잠금 해제하여 데이터를 더 스마트하고 빠르게 사용할 수 있도록 Syntho를 통해 입증했습니다. 그 결과, Wim Kees와 Syntho는 권위 있는 Philips Innovation Award를 수상하고, 의료 및 생명 과학 분야 SAS 글로벌 해커톤에서 우승했으며, NVIDIA의 선도적인 생성 AI 스케일업으로 선정되었습니다.

게재
2024년 2월 19일