Ръководство за генериране на синтетични данни: дефиниция, типове и приложения

Не е тайна, че бизнесът е изправен пред предизвикателства при придобиването и споделянето на висококачествени данни. Синтетично генериране на данни е практично решение, което помага за създаването на големи изкуствени набори от данни и висококачествени тестови данни без рискове за поверителността или бюрокрация.

Синтетичните набори от данни могат да бъдат създадени с помощта на различни методи, предлагащи различни приложения. Когато са правилно оценени, синтетичните набори от данни, генерирани с помощта на усъвършенствани алгоритми, помагат на организациите да ускорят своите анализи, изследвания и тестове. Така че нека да разгледаме по-отблизо.

Тази статия ви запознава със синтетичните данни, включително основните типове, разликите от анонимизираните набори от данни и регулаторните нюанси. Ще научите как изкуствено генерираните данни решават критични проблеми с данните и минимизират определени рискове. Ще обсъдим и неговите приложения в различни индустрии, придружени с примери от нашите казуси.

Съдържание

Синтетични данни: дефиниция и пазарна статистика

Синтетични данни е изкуствено генерирана информация, лишена от поверително съдържание, и служи като алтернатива на реалните набори от данни. Учените по данни често се обаждат Генерирани от AI синтетични данни близнак на синтетични данни поради високата му статистическа точност при имитиране на реални данни.

Изкуствените набори от данни се създават с помощта на алгоритми и симулации с изкуствен интелект (AI), които поддържат моделите и корелациите на оригиналните данни. Тези данни могат да включват текст, таблици и снимки. Алгоритмите заменят личната информация (PII) с фиктивни данни.

Платформа за синтетични данни Syntho с графика на всички решения

Прогнози на Grand View Research че пазарът за генериране на синтетични данни с Generative AI ще нарасне от $1.63 милиарда през 2022 г. до около $13.5 милиарда до 2030 г. при CAGR от 35%. Според Gartner, 60% от данните, използвани за AI през 2024 г., ще бъдат синтетични — това е 60 пъти повече от 2021 г.

Платформите за синтетични данни също се увеличават. Пазар Стейтсвил очаква глобалният пазар на платформа за синтетични данни ще нарасне от 218 милиона долара през 2022 г. до 3.7 милиарда долара до 2033 г.

Защо изкуствените данни се увеличават? Един от движещите фактори е свободата от регулаторен надзор.

Законите за поверителността регулират ли синтетичните данни, генерирани от AI?

Много САЩ и ЕС сигурност на данните и поверителност регулациите се прилагат за идентифициращи лични данни. 

Но тези разпоредби не важат за синтетични данни — синтетичните данни се третират подобно на анонимизирани данни. Те формират така нареченото „ядро“ на други правни норми.

Например, съображение 26 от GDPR казва, че правилата за защита на поверителността се прилагат само за данни, които се отнасят до идентифицирано лице. Ако вашите синтетични данни са генерирани така, че да не могат да бъдат проследени до лица, които могат да бъдат идентифицирани, те са освободени от регулаторен надзор. Като оставим настрана регулаторния надзор, има и други пречки пред използването на реални данни, които карат бизнеса да генерира синтетични данни.

Основни предизвикателства при използването на реални данни

Много компании срещат трудности при намирането и използването на подходящи, висококачествени данни, особено в достатъчни количества за обучение на AI алгоритъм. Дори когато го намерят, споделянето или използването на наборите от данни може да бъде предизвикателство поради рискове за поверителността и проблеми със съвместимостта. Този раздел очертава ключа предизвиква синтетични данни може да реши.

Рисковете за поверителността възпрепятстват използването и споделянето на данни

Регламентите за сигурност и поверителност на данните, като GDPR и HIPAA, въвеждат бюрократични пречки пред споделянето и използването на данни. В индустрии като здравеопазването дори споделянето на PII между отдели в една и съща организация може да отнеме много време поради проверки на управлението. Споделянето на данни с външни обекти е още по-голямо предизвикателство и носи повече рискове за сигурността.

Изследвания от Fortune Business Insights идентифицира нарастващите рискове за поверителността като основен катализатор за възприемане на практики за синтетични данни. Колкото повече данни съхранявате, толкова повече рискувате да компрометирате поверителността. Според разходите за сигурност на IBM за 2023 г. за доклад за нарушаване на данните, средната цена за нарушаване на данните в САЩ е 9.48 милиона долара. В световен мащаб средната цена е 4.45 милиона долара; компании с по-малко от 500 работници губят $3.31 милиона на нарушение. И това не отчита увреждане на репутацията.

Трудности при намирането на висококачествени данни

Проучване за 2022 г. от 500 професионалисти в областта на данните разкриха, че 77% от инженерите, анализаторите и специалистите по данни са се сблъскали с проблеми с качеството на данните. Според доклада качеството на данните пречи на финансовите резултати и производителността на компанията и прави постигането на холистичен поглед върху нейните услуги трудно постижимо.

Компаниите може да нямат достатъчно данни от конкретни демографски данни, за да обучат правилно своите модели за машинно обучение (ML). А наборите от данни често съдържат несъответствия, неточности и липсващи стойности. Ако тренирате вашите AI платформи с модели за машинно обучение върху данни с ниско качество, на които им липсва демографско разнообразие, ще направи неточни, пристрастни прогнози. По същия начин, подобно на генерирането на анонимни данни, неусъвършенстваните алгоритми могат да произведат ненадеждни изкуствени набори от данни, които влияят на резултата от анализа на данните.

Повишаването на дискретизацията със синтетични данни може да подобри качеството на данните чрез справяне с дисбалансите в наборите от данни. Това гарантира, че недостатъчно представените класове получават по-пропорционално представителство и намалява пристрастията. По-стабилният и представителен набор от данни дава подобрени резултати от анализа и обучение на модела.

Несъвместимост на набор от данни

Наборите от данни, произхождащи от различни източници или в рамките на многотаблични бази данни, могат да въведат несъвместимости, създавайки сложности при обработката и анализа на данни и възпрепятствайки иновациите.

Например, агрегирането на данни в здравеопазването включва електронни здравни досиета (EHR), преносими устройства, патентован софтуер и инструменти на трети страни. Всеки източник може да използва различни формати на данни и информационни системи, което води до несъответствия във форматите на данните, структурите или единиците по време на интеграцията. Използването на синтетични данни може да отговори на това предизвикателство, като гарантира съвместимост и позволява генериране на данни в желания формат.

Анонимизирането е недостатъчно

Техниките за анонимизиране не са достатъчни за преодоляване на рисковете за поверителността или проблемите с качеството на данните. Освен това, маскирането или премахването на идентификатори може да премахне подробностите, необходими за задълбочен анализ в големи набори от данни.

Освен това анонимизираните данни могат да бъдат повторно идентифицирани и проследени обратно до лица. Злонамерените участници могат да използват усъвършенствани анализи, за да разкрият базирани на времето модели, които компрометират анонимността на привидно деидентифицирани данни. В това отношение синтетичните данни превъзхождат анонимните.

За разлика от анонимизация, синтетични данни не променя съществуващите набори от данни, а генерира нови данни, които наподобяват характеристиките и структурата на необработени данни, запазвайки своята полезност. Това е изцяло нов набор от данни, който не съдържа лична информация.

Но това е по-нюансирано от това. Има няколко вида на методи за генериране на синтетични данни.

Видове генериране на синтетични данни

Създаване на синтетични данни процесите варират в зависимост от вида на необходимите данни. Синтетичните типове данни включват изцяло генерирани от изкуствен интелект, базирани на правила и фалшиви данни — всеки отговаря на различни нужди.

Напълно генерирани от AI синтетични данни

Този тип синтетични данни е изграден от нулата с помощта на ML алгоритми. The модел на машинно обучение влакове на действителни данни за да научите за структурата, моделите и връзките на данните. Generative AI след това използва това знание, за да генерира нови данни, които много приличат на статистическите свойства на оригинала (отново, като същевременно го правят неидентифициран).

Този тип напълно синтетични данни е полезен за обучение на AI модели и е достатъчно добър, за да се използва, сякаш са реални данни. Това е особено полезно, когато не можете да споделяте вашите набори от данни поради договорни споразумения за поверителност. Въпреки това, за да генерирате синтетични данни, имате нужда от значително количество оригинални данни като отправна точка за модел на машинно обучение обучение.

Синтетични фиктивни данни

Това синтетични данни типът се отнася до изкуствено създадени данни, които имитират структурата и формата на реални данни, но не отразяват непременно действителната информация. Помага на разработчиците да гарантират, че техните приложения могат да обработват различни входове и сценарии, без да използват оригинални, частни или чувствителни данни и най-важното, без да се разчита на данни от реалния свят. Тази практика е от съществено значение за тестване на функционалността и усъвършенстване на софтуерни приложения по контролиран и сигурен начин.

Кога да го използвате: За да замените директните идентификатори (PII) или когато в момента ви липсват данни и предпочитате да не инвестирате време и енергия в дефиниране на правила. Разработчиците обикновено използват фиктивни данни, за да оценят функционалността и външния вид на приложенията по време на ранните етапи на разработка, което им позволява да идентифицират потенциални проблеми или дефекти в дизайна. 

Въпреки че на фиктивните данни липсва автентичността на информацията от реалния свят, те остават ценен инструмент за гарантиране на правилното функциониране на системите и визуалното представяне преди действителното интегриране на данни. 

Забележка: Синтетичните подигравани данни често се наричат ​​"фалшиви данни,“, въпреки че не препоръчваме да използвате тези термини взаимозаменяемо, тъй като те могат да се различават в конотациите. 

Синтетични фалшиви данни

Базирани на правила синтетични данни

Базирани на правила синтетични данни е полезен инструмент за генериране на персонализирани набори от данни въз основа на предварително дефинирани правила, ограничения и логика. Този метод осигурява гъвкавост, като позволява на потребителите да конфигурират извеждането на данни според конкретни бизнес нужди, като коригират параметри като минимални, максимални и средни стойности. За разлика от изцяло генерираните от AI данни, на които липсва персонализиране, базираните на правила синтетични данни предлагат персонализирано решение за посрещане на различни оперативни изисквания. Това процес на генериране на синтетични данни се оказва особено полезен при тестване, разработка и анализи, където прецизното и контролирано генериране на данни е от съществено значение.

Всеки метод за генериране на синтетични данни има различни приложения. Платформата на Syntho се отличава със създаването на синтетични двойни данни с малко или никакви усилия от ваша страна. Получавате статистически точни, висококачествени синтетични данни за вашите нужди, което е без допълнителни разходи за съответствие.

Таблични синтетични данни

Терминът таблични синтетични данни отнася се до създаване на изкуствени данни подмножества, които имитират структурата и статистическите свойства на реалния свят таблични данни, като например данни, съхранени в таблици или електронни таблици. Това синтетични данни е създаден с помощта на алгоритми за генериране на синтетични данни и техники, предназначени да възпроизвеждат характеристиките на изходни данни като същевременно се гарантира, че поверителни или чувствителни данни не се разкрива.

Техники за генериране плосък синтетични данни обикновено включват статистическо моделиране, модели за машинно обучение, или генеративни модели като генеративни състезателни мрежи (GAN) и вариационни автоенкодери (VAE). Тези инструменти за генериране на синтетични данни анализира моделите, разпределенията и корелациите, присъстващи в реален набор от данни и след това генерирайте нови точки от данни че много приличат на реални данни но не съдържат реална информация.

Типичен табличен случаи на използване на синтетични данни включват справяне с проблемите, свързани с поверителността, увеличаване на наличността на данни и улесняване на изследванията и иновациите в приложения, управлявани от данни. Важно е обаче да се гарантира, че синтетични данни точно улавя основните модели и разпределения на оригиналните данни за поддържане помощна програма за данни и валидност за задачи надолу по веригата.

базирана на правила синтетична графика на данни

Най-популярните приложения за синтетични данни

Изкуствено генерираните данни отварят възможности за иновации за здравеопазването, търговията на дребно, производството, финансите и други индустрии. Основното случаи на употреба включват повишаване на семплирането на данни, анализи, тестване и споделяне.

Повишаване на дискретизацията за подобряване на наборите от данни

Повишаване на дискретизацията означава генериране на по-големи набори от данни от по-малки за мащабиране и диверсификация. Този метод се прилага, когато реалните данни са оскъдни, небалансирани или непълни.

Помислете за няколко примера. За финансовите институции разработчиците могат да подобрят точността на моделите за откриване на измами, като извадят редки наблюдения и модели на активност в финансови данни. По подобен начин една маркетингова агенция може да направи допълнителна извадка, за да увеличи данните, свързани с недостатъчно представени групи, като подобри точността на сегментиране.

Усъвършенстван анализ с данни, генерирани от AI

Компаниите могат да използват генерирани от AI висококачествени синтетични данни за моделиране на данни, бизнес анализи и клинични изследвания. Синтезиране на данни се оказва жизнеспособна алтернатива, когато придобиването на реални масиви от данни е твърде скъпо или отнема много време.

Синтетични данни дава възможност на изследователите да извършват задълбочени анализи, без да нарушават поверителността на пациента. Учени за данни и изследователите получават достъп до данни за пациенти, информация за клинични състояния и подробности за лечението, като получават прозрения, които биха отнели значително повече време с реални данни. Освен това, производителите могат свободно да споделят данни с доставчици, като включват манипулиран GPS и данни за местоположение, за да създадат алгоритми за тестване на производителността или да подобрят прогнозната поддръжка.

Въпреки това, оценка на синтетични данни е критично. Изходът на Syntho Engine е валидиран от вътрешен екип за осигуряване на качеството и външни експерти от SAS Institute. В проучване на прогнозно моделиране ние обучихме четирима модели за машинно обучение върху реални, анонимизирани и синтетични данни. Резултатите показаха, че моделите, обучени на нашите синтетични набори от данни, имат същото ниво на точност като тези, обучени на реални набори от данни, докато анонимизираните данни намаляват полезността на моделите.

Външно и вътрешно споделяне на данни

Синтетичните данни опростяват споделянето на данни в и между организациите. Можеш използвайте синтетични данни да се обмен на информация, без риск от нарушаване на поверителността или неспазване на нормативните изисквания. Ползите от синтетичните данни включват ускорени резултати от изследвания и по-ефективно сътрудничество.

Компаниите за търговия на дребно могат да споделят информация с доставчици или дистрибутори, използвайки синтетични данни, които отразяват поведението на клиентите, нивата на запасите или други ключови показатели. Въпреки това, за да се гарантира най-високото ниво на Защита на личните данни, чувствителните клиентски данни и корпоративните тайни се пазят поверителни.

Syntho спечели 2023 Global SAS Hackathon за способността ни да генерираме и споделяме aточни синтетични данни ефективно и без риск. Ние синтезирахме данни за пациенти за множество болници с различни популации пациенти, за да демонстрираме ефикасността на прогнозните модели. Показано е, че използването на комбинираните синтетични набори от данни е също толкова точно, колкото използването на реални данни.

Данни от синтетичен тест

Синтетичните тестови данни са изкуствено генерирани данни, предназначени за симулация тестване на данни среди за разработка на софтуер. В допълнение към намаляването на рисковете за поверителността, синтетичните тестови данни позволяват на разработчиците да оценят строго производителността, сигурността и функционалността на приложенията в набор от потенциални сценарии, без да засягат реалната система.

Нашето сътрудничество с една от най-големите холандски банки витрини предимства на синтетичните данни за тестване на софтуер. Генериране на тестови данни със Syntho Engine доведе до набори от данни, подобни на производството, които помогнаха на банката да ускори разработката на софтуер и откриването на грешки, което доведе до по-бързи и по-сигурни версии на софтуера.

Техники за генериране плосък синтетични данни обикновено включват статистическо моделиране, модели за машинно обучение, или генеративни модели като генеративни състезателни мрежи (GAN) и вариационни автоенкодери (VAE). Тези инструменти за генериране на синтетични данни анализира моделите, разпределенията и корелациите, присъстващи в реален набор от данни и след това генерирайте нови точки от данни че много приличат на реални данни но не съдържат реална информация.

Типичен табличен случаи на използване на синтетични данни включват справяне с проблемите, свързани с поверителността, увеличаване на наличността на данни и улесняване на изследванията и иновациите в приложения, управлявани от данни. Важно е обаче да се гарантира, че синтетични данни точно улавя основните модели и разпределения на оригиналните данни за поддържане помощна програма за данни и валидност за задачи надолу по веригата.

Платформата за генериране на синтетични данни на Syntho

Syntho предоставя интелигентна платформа за генериране на синтетични данни, която дава възможност на организациите интелигентно да трансформират данните в конкурентно предимство. Предоставяйки всички методи за генериране на синтетични данни в една платформа, Syntho предлага цялостно решение за организации, целящи да използват данни, които обхващат:

  • Генерирани от AI синтетични данни който имитира статистически модели на оригинални данни в синтетични данни със силата на изкуствения интелект.
  • Интелигентна деидентификация защитавам чувствителни данни чрез премахване или модифициране на лична информация (PII).
  • Test data management което позволява създаване, поддръжка и контрол на представителни тестови данни за непроизводствени среди.

Нашите платформи се интегрират във всяка облачна или локална среда. Освен това ние се грижим за планирането и внедряването. Нашият екип ще обучи вашите служители да използват Syntho Engine ефективно и ние ще осигурим непрекъсната поддръжка след внедряването.

Можете да прочетете повече за възможностите на Syntho's синтетични данни поколение платформа в Раздел за решения на нашия уебсайт.

Какво предстои в бъдеще за синтетичните данни?

Генериране на синтетични данни с генериращ AI помага за създаване и споделяне на големи обеми от съответните данни, заобикаляйки проблемите със съвместимостта на форматите, регулаторните ограничения и риска от нарушения на данните.

За разлика от анонимизирането, генериране на синтетични данни позволява запазване на структурни връзки в данните. Това прави синтетичните данни подходящи за напреднали анализи, изследвания и разработки, диверсификация и тестване.

Използването на синтетични набори от данни ще се разшири в различните индустрии. Компаниите са готови да създаване на синтетични данни, разширяване на обхвата му до сложни изображения, аудио и видео съдържание. Компаниите ще разширят използването на модели за машинно обучение към по-напреднали симулации и приложения.

Искате ли да научите повече практически приложения на синтетични данни? Чувствай се свободен да насрочете демонстрация на нашия уебсайт.

За Синто

Синто осигурява смарт генериране на синтетични данни платформа, ливъридж множество синтетични форми на данни и методи за генериране, даващи възможност на организациите интелигентно да трансформират данните в конкурентно предимство. Нашите генерирани от изкуствен интелект синтетични данни имитират статистически модели на оригинални данни, като гарантират точност, поверителност и скорост, оценени от външни експерти като SAS. С интелигентни функции за деидентификация и последователно картографиране, чувствителната информация е защитена, като същевременно се запазва референтната цялост. Нашата платформа позволява създаването, управлението и контрола на тестови данни за непроизводствени среди, използвайки базирани на правила методи за генериране на синтетични данни за целеви сценарии. Освен това потребителите могат генерирайте синтетични данни програмно и да получите реалистични тестови данни за разработване на изчерпателни сценарии за тестване и разработка с лекота.

За автора

Снимка на главен изпълнителен директор и съосновател на Syntho, Вим Кийс Янсен

Уим Кийс Янсен

Изпълнителен директор и основател

Syntho, мащабирането, което разстройва индустрията за данни със синтетични данни, генерирани от AI. Wim Kees доказа със Syntho, че може да отключи чувствителни към поверителността данни, за да направи данните по-интелигентни и по-бързи, така че организациите да могат да реализират иновации, управлявани от данни. В резултат на това Wim Kees и Syntho спечелиха престижната награда за иновации на Philips, спечелиха глобалния хакатон SAS в областта на здравеопазването и науката за живота и бяха избрани за водещ генеративен AI Scale-Up от NVIDIA.

Публикуван
Февруари 19, 2024