Průvodce generováním syntetických dat: Definice, typy a aplikace

Není žádným tajemstvím, že podniky čelí výzvám při získávání a sdílení vysoce kvalitních dat. Generování syntetických dat je praktické řešení, které pomáhá vytvářet velké umělé datové sady a vysoce kvalitní testovací data bez rizika ochrany soukromí nebo byrokracie.

Syntetické datové sady lze vytvářet pomocí různých metod, které nabízejí různé aplikace. Když jsou správně vyhodnoceny, syntetické datové sady generované pomocí pokročilých algoritmů pomáhají organizacím urychlit jejich analýzy, výzkum a testování. Pojďme se na to tedy podívat blíže.

Tento článek vám představí syntetická data, včetně hlavních typů, rozdílů od anonymizovaných datových sad a regulačních nuancí. Dozvíte se, jak uměle generovaná data řeší kritické problémy s daty a minimalizují určitá rizika. Budeme také diskutovat o jeho aplikacích napříč odvětvími spolu s příklady z našich případových studií.

Obsah

Syntetická data: definice a statistiky trhu

Syntetická data je uměle generovaná informace bez důvěrného obsahu a slouží jako alternativa ke skutečným datovým sadám. Datoví vědci často volají Syntetická data generovaná AI dvojče syntetických dat, protože má vysokou statistickou přesnost při napodobování skutečných dat.

Umělé datové sady jsou vytvářeny pomocí algoritmů umělé inteligence (AI) a simulací, které zachovávají vzory a korelace původních dat. Tato data mohou obsahovat text, tabulky a obrázky. Algoritmy nahrazují osobně identifikovatelné informace (PII). falešná data.

Syntetická datová platforma Syntho s grafem všech řešení

Předpovědi Grand View Research že trh pro syntetické generování dat pomocí generativní umělé inteligence vzroste z 1.63 miliardy $ v roce 2022 na přibližně 13.5 miliardy $ do roku 2030 při CAGR 35%. Podle společnosti Gartner 60 % dat použitých pro AI v roce 2024 bude syntetických — to je 60krát více než v roce 2021.

Syntetické datové platformy jsou také na vzestupu. Trh Statesville očekává globální trh syntetických datových platforem poroste z 218 milionů USD v roce 2022 na 3.7 miliardy USD do roku 2033.

Proč jsou umělá data na vzestupu? Jedním z hnacích faktorů je osvobození od regulačního dohledu.

Regulují zákony na ochranu soukromí syntetická data generovaná AI?

Mnoho USA a EU bezpečnost dat a soukromí na identifikovatelné osobní údaje se vztahují předpisy. 

Ale tyto předpisy se na ně nevztahují syntetická data — se syntetickými údaji se zachází podobně jako anonymizovaná data. Tvoří tzv. „jádro“ dalších právních norem.

Například, bod odůvodnění 26 GDPR říká, že pravidla ochrany soukromí se vztahují pouze na údaje, které se týkají identifikovatelné osoby. Pokud jsou vaše syntetická data generována tak, že je nelze zpětně vysledovat k identifikovatelným jednotlivcům, nepodléhají regulačnímu dohledu. Pomineme-li regulační dohled, existují další překážky při používání skutečných dat, které podniky nutí generovat syntetická data.

Klíčové výzvy používání reálných dat

Mnoho společností má problém najít a použít relevantní, vysoce kvalitní data, zejména v dostatečném množství pro školení algoritmů AI. I když je najdou, sdílení nebo využití datových sad může být náročné kvůli rizikům ochrany soukromí a problémům s kompatibilitou. Tato část popisuje klíč zpochybňuje syntetická data může vyřešit.

Rizika ochrany osobních údajů brání využití a sdílení dat

Nařízení o zabezpečení dat a soukromí, jako je GDPR a HIPAA, zavádějí byrokratické překážky sdílení a využívání dat. V odvětvích, jako je zdravotnictví, může být i sdílení osobních údajů mezi odděleními v rámci jedné organizace časově náročné kvůli kontrolám správy a řízení. Sdílení dat s externími subjekty je ještě náročnější a přináší více bezpečnostních rizik.

Výzkum od Statistiky štěstí společnosti identifikuje rostoucí rizika pro soukromí jako primární katalyzátor pro zavádění syntetických datových postupů. Čím více dat ukládáte, tím více riskujete ohrožení soukromí. Podle 2023 IBM Security Cost of a Data Breach Report, průměrné náklady na únik dat v USA byly 9.48 milionu dolarů. Celosvětově byly průměrné náklady 4.45 milionu dolarů; společnosti s méně než 500 zaměstnanci přijdou o 3.31 milionu dolarů za porušení. A to nezohledňuje poškození pověsti.

Potíže s nalezením vysoce kvalitních dat

Průzkum 2022 z 500 datových profesionálů odhalilo, že 77 % inženýrů, analytiků a datových vědců čelilo problémům s kvalitou dat. Podle zprávy kvalita dat brání finanční výkonnosti a produktivitě společnosti a činí dosažení holistického pohledu na její služby těžko dosažitelné.

Společnosti mohou postrádat dostatek dat z konkrétních demografických údajů, aby mohly správně trénovat své modely strojového učení (ML). A datové sady často obsahují nekonzistence, nepřesnosti a chybějící hodnoty. Pokud trénujete své platformy AI pomocí modely strojového učení na nekvalitních datech postrádajících demografickou rozmanitost, bude vytvářet nepřesné a neobjektivní předpovědi. Podobně jako generování anonymizovaných dat mohou nerafinované algoritmy vytvářet nespolehlivé umělé datové sady, které ovlivňují výsledek analýzy dat.

Převzorkování pomocí syntetických dat může zlepšit kvalitu dat tím, že řeší nerovnováhu v souborech dat. To zajišťuje, že nedostatečně zastoupené třídy obdrží proporcionálnější zastoupení a snižuje zkreslení. Robustnější a reprezentativnější datová sada přináší lepší výsledky analýzy a trénování modelů.

Nekompatibilita datových sad

Datové sady pocházející z různých zdrojů nebo v rámci vícetabulkových databází mohou představovat nekompatibilitu, vytvářet složitosti při zpracování a analýze dat a bránit inovaci.

Například agregace dat ve zdravotnictví zahrnuje elektronické zdravotní záznamy (EHR), nositelná zařízení, proprietární software a nástroje třetích stran. Každý zdroj může využívat odlišné datové formáty a informační systémy, což vede k rozdílům v datových formátech, strukturách nebo jednotkách během integrace. Použití syntetických dat může vyřešit tento problém, zajistit kompatibilitu a umožnit generovat data v požadovaném formátu.

Anonymizace je nedostatečná

Techniky anonymizace nestačí k překonání rizik ochrany soukromí nebo problémů s kvalitou dat. Navíc, maskování nebo odstranění identifikátorů může odstranit podrobnosti potřebné pro hloubkovou analýzu ve velkých souborech dat.

Kromě toho lze anonymizovaná data znovu identifikovat a zpětně vysledovat k jednotlivcům. Zlomyslní aktéři mohou využít pokročilé analýzy k odhalení vzorců založených na čase, které narušují anonymitu zdánlivě neidentifikovatelných dat. Syntetická data jsou v tomto ohledu lepší než anonymizovaná data.

Na rozdíl od anonymizace, syntetická data nemění existující datové sady, ale generuje nová data, která se podobají charakteristikám a struktuře nezpracovaná data, zachovávající jeho užitečnost. Jde o zcela nový soubor dat, který neobsahuje žádné osobní údaje.

Ale je to jemnější než to. Existuje několik typů syntetické metody generování dat.

Typy generování syntetických dat

Tvorba syntetických dat procesy se liší podle typu požadovaných dat. Syntetické datové typy zahrnují plně generovaná AI, na pravidlech a falešná data – každý splňuje jiné potřeby.

Plně syntetická data generovaná AI

Tento typ syntetická data je postaven od nuly pomocí algoritmů ML. The model strojového učení vlaky dál skutečné údaje dozvědět se o struktuře dat, vzorcích a vztazích. Generativní umělá inteligence pak tyto znalosti využívá ke generování nových dat, která se velmi podobají statistickým vlastnostem originálu (opět je však činí neidentifikovatelnými).

Tento typ plně syntetická data je užitečný pro trénování modelu AI a je dost dobrý na to, aby byl použit jako skutečná data. Je to zvláště výhodné, když nemůžete sdílet své datové sady kvůli smluvním dohodám o ochraně osobních údajů. Chcete-li však generovat syntetická data, potřebujete jako výchozí bod značné množství původních dat model strojového učení školení.

Syntetická falešná data

Tento syntetická data typ odkazuje na uměle vytvořená data, která napodobují strukturu a formát skutečných dat, ale nemusí nutně odrážet skutečné informace. Pomáhá vývojářům zajistit, aby jejich aplikace zvládly různé vstupy a scénáře bez použití originálních, soukromých nebo soukromých citlivá data a co je nejdůležitější, bez spoléhání se na data z reálného světa. Tento postup je nezbytný pro testování funkčnosti a zdokonalování softwarových aplikací kontrolovaným a bezpečným způsobem.

Kdy jej použít: Chcete-li nahradit přímé identifikátory (PII), nebo když vám aktuálně chybí data a nechcete investovat čas a energii do definování pravidel. Vývojáři běžně používají falešná data k vyhodnocení funkčnosti a vzhledu aplikací v raných fázích vývoje, což jim umožňuje identifikovat potenciální problémy nebo konstrukční chyby. 

I když falešná data postrádají autenticitu skutečných informací, zůstávají cenným nástrojem pro zajištění správného fungování systémů a vizuální reprezentace před skutečnou integrací dat. 

Poznámka: Syntetická zesměšněná data se často označují jako „falešná data,“ i když nedoporučujeme používat tyto výrazy zaměnitelně, protože se mohou lišit v konotacích. 

Syntetická falešná data

Syntetická data založená na pravidlech

Syntetická data založená na pravidlech je užitečný nástroj pro generování přizpůsobených datových sad na základě předem definovaných pravidel, omezení a logiky. Tato metoda poskytuje flexibilitu tím, že umožňuje uživatelům konfigurovat výstup dat podle specifických obchodních potřeb a upravovat parametry, jako jsou minimální, maximální a průměrné hodnoty. Na rozdíl od dat plně generovaných AI, která postrádají přizpůsobení, nabízejí syntetická data založená na pravidlech řešení šité na míru pro splnění různých provozních požadavků. Tento syntetický proces generování dat se ukazuje jako zvláště užitečný při testování, vývoji a analýze, kde je nezbytné přesné a kontrolované generování dat.

Každá metoda generování syntetických dat má různé aplikace. Platforma Syntho vyniká vytvářením syntetických datových dvojčat s malým nebo žádným úsilím z vaší strany. Získáte statistickou přesnost, vysoce kvalitní syntetická data pro vaše potřeby bez režijních nákladů na dodržování předpisů.

Tabulková syntetická data

termín tabulková syntetická data odkazuje na vytváření umělých dat podmnožiny, které napodobují strukturu a statistické vlastnosti reálného světa tabulkových dat, jako jsou data uložená v tabulkách nebo tabulkách. Tento syntetická data je vytvořen pomocí syntetické algoritmy pro generování dat a techniky navržené k replikaci charakteristik zdrojová data při zajištění toho, že důvěrné popř citlivá data není zveřejněn.

Techniky k vytvoření tabelární syntetická data obvykle zahrnují statistické modelování, modely strojového učenínebo generativní modely, jako jsou generativní adversariální sítě (GAN) a variační autokodéry (VAE). Tyto syntetické nástroje pro generování dat analyzovat vzory, distribuce a korelace přítomné v skutečný datový soubor a poté vygenerovat nové datové body že velmi podobají skutečným datům ale neobsahují žádné skutečné informace.

Typický tabulkový případy použití syntetických dat zahrnují řešení obav o soukromí, zvýšení dostupnosti dat a usnadnění výzkumu a inovací v aplikacích založených na datech. Je však nezbytné zajistit, aby syntetická data přesně zachycuje základní vzorce a distribuce původních dat, která se mají udržovat datová utilita a platnost pro následné úkoly.

graf syntetických dat založený na pravidlech

Nejoblíbenější syntetické datové aplikace

Uměle generovaná data otevírají možnosti inovací pro zdravotnictví, maloobchod, výrobu, finance a další průmyslová odvětví. Primární případy užití zahrnují převzorkování dat, analýzy, testování a sdílení.

Upsampling pro vylepšení datových sad

Upsampling znamená generování větších datových sad z menších pro škálování a diverzifikaci. Tato metoda se používá, když jsou skutečná data vzácná, nevyvážená nebo neúplná.

Zvažte několik příkladů. Pro finanční instituce mohou vývojáři zlepšit přesnost modelů detekce podvodů převzorkováním vzácných pozorování a vzorců aktivit v systému finanční data. Podobně může marketingová agentura převzorkovat a rozšířit data související s nedostatečně zastoupenými skupinami, čímž se zvýší přesnost segmentace.

Pokročilá analytika s daty generovanými AI

Společnosti mohou využít vysoce kvalitní syntetická data generovaná umělou inteligencí pro datové modelování, obchodní analýzy a klinický výzkum. Syntetizace dat se ukazuje jako životaschopná alternativa, když je získávání skutečných datových sad příliš nákladné nebo časově náročné.

Syntetická data umožňuje výzkumníkům provádět hloubkové analýzy, aniž by byla ohrožena důvěrnost pacienta. Datoví vědci a výzkumní pracovníci získají přístup k údajům o pacientech, informacím o klinických stavech a podrobnostech o léčbě, čímž získají poznatky, které by se skutečnými údaji byly podstatně časově náročnější. Výrobci mohou navíc volně sdílet data s dodavateli, začlenit zmanipulovaná GPS a lokalizační data k vytvoření algoritmů pro testování výkonu nebo zlepšení prediktivní údržby.

Nicméně, syntetické vyhodnocování dat je kritický. Výstup Syntho Engine je ověřován interním týmem pro zajištění kvality a externí odborníci z Ústavu SAV. Ve studii prediktivního modelování jsme trénovali čtyři modely strojového učení na skutečných, anonymizovaných a syntetických datech. Výsledky ukázaly, že modely natrénované na našich syntetických souborech dat měly stejnou úroveň přesnosti jako modely natrénované na skutečných souborech dat, zatímco anonymizovaná data snížila užitečnost modelů.

Externí a interní sdílení dat

Syntetická data zjednodušují sdílení dat v rámci organizací i mezi nimi. Můžeš používat syntetická data na vyměňovat si informace, aniž by riskovali narušení soukromí nebo nedodržení předpisů. Mezi výhody syntetických dat patří zrychlené výsledky výzkumu a efektivnější spolupráce.

Maloobchodní společnosti mohou sdílet poznatky s dodavateli nebo distributory pomocí syntetických dat, která odrážejí chování zákazníků, úrovně zásob nebo jiné klíčové metriky. Pro zajištění nejvyšší úrovně soukromí údajů, citlivé údaje o zákaznících a firemní tajemství jsou důvěrné.

Syntho vyhrál 2023 Global SAS Hackathon pro naši schopnost vytvářet a sdílet apřesná syntetická data efektivně a bez rizika. Syntetizovali jsme data pacientů pro více nemocnic s různými populacemi pacientů, abychom prokázali účinnost prediktivních modelů. Ukázalo se, že použití kombinovaných syntetických datových souborů je stejně přesné jako použití skutečných dat.

Syntetická testovací data

Syntetická testovací data jsou uměle generovaná data určená k simulaci testování dat prostředí pro vývoj softwaru. Kromě snížení rizik ochrany soukromí umožňují syntetická testovací data vývojářům přísně hodnotit výkon, zabezpečení a funkčnost aplikací v celé řadě potenciálních scénářů, aniž by to ovlivnilo skutečný systém.

Naše spolupráce s jednou z největších nizozemských bank vitríny výhody syntetických dat pro testování softwaru. Generování testovacích dat se Syntho Engine vyústily v produkční datové sady, které bance pomohly urychlit vývoj softwaru a detekci chyb, což vedlo k rychlejšímu a bezpečnějšímu vydávání softwaru.

Techniky k vytvoření tabelární syntetická data obvykle zahrnují statistické modelování, modely strojového učenínebo generativní modely, jako jsou generativní adversariální sítě (GAN) a variační autokodéry (VAE). Tyto syntetické nástroje pro generování dat analyzovat vzory, distribuce a korelace přítomné v skutečný datový soubor a poté vygenerovat nové datové body že velmi podobají skutečným datům ale neobsahují žádné skutečné informace.

Typický tabulkový případy použití syntetických dat zahrnují řešení obav o soukromí, zvýšení dostupnosti dat a usnadnění výzkumu a inovací v aplikacích založených na datech. Je však nezbytné zajistit, aby syntetická data přesně zachycuje základní vzorce a distribuce původních dat, která se mají udržovat datová utilita a platnost pro následné úkoly.

Syntho je platforma pro generování syntetických dat

Syntho poskytuje inteligentní platformu pro generování syntetických dat, která organizacím umožňuje inteligentně transformovat data na konkurenční výhodu. Tím, že Syntho poskytuje všechny metody generování syntetických dat na jedné platformě, nabízí komplexní řešení pro organizace, které chtějí využívat data, která pokrývají:

Naše platformy se integrují do jakéhokoli cloudového nebo on-premise prostředí. Kromě toho se postaráme o plánování a nasazení. Náš tým vyškolí vaše zaměstnance k používání Syntho Engine efektivně a budeme poskytovat nepřetržitou podporu po nasazení.

Můžete si přečíst více o možnostech Syntho's syntetická data generační platforma v Sekce řešení na našem webu.

Jaká je budoucnost syntetických dat?

Generování syntetických dat s generativní AI pomáhá vytvářet a sdílet velké objemy relevantní údaje, obcházení problémů s kompatibilitou formátů, regulačních omezení a rizika narušení dat.

Na rozdíl od anonymizace, generování syntetických dat umožňuje zachovat strukturální vztahy v datech. Díky tomu jsou syntetická data vhodná pro pokročilou analýzu, výzkum a vývoj, diverzifikaci a testování.

Použití syntetických datových sad se bude rozšiřovat pouze napříč průmyslovými odvětvími. Společnosti jsou připraveny vytvářet syntetická data, rozšiřuje svůj rozsah na komplexní obrázky, audio a video obsah. Firmy rozšíří využití modely strojového učení na pokročilejší simulace a aplikace.

Chcete se dozvědět více praktických aplikací syntetická data? Neváhejte naplánujte si demo naše stránky.

O Synthovi

Syntho poskytuje chytrý syntetické generování dat platforma, pákový efekt více syntetických datových formulářů a metody generování, které umožňují organizacím inteligentní transformaci dat na konkurenční výhodu. Naše syntetická data vygenerovaná umělou inteligencí napodobují statistické vzorce původních dat a zajišťují přesnost, soukromí a rychlost, jak je posoudili externí odborníci, jako je SAS. Díky inteligentním funkcím deidentifikace a konzistentnímu mapování jsou citlivé informace chráněny při zachování referenční integrity. Naše platforma umožňuje vytváření, správu a kontrolu testovacích dat pro neprodukční prostředí s využitím pravidel syntetické metody generování dat pro cílené scénáře. Uživatelé navíc mohou generovat syntetická data programově a získat realistická testovací data snadno vyvíjet komplexní testovací a vývojové scénáře.

O autorovi

Fotografický headshot generálního ředitele a spoluzakladatele společnosti Syntho, Wima Keese Jannsena

Wim Kees Janssen

Výkonný ředitel a zakladatel

Syntho, škálování, které narušuje datový průmysl syntetickými daty generovanými umělou inteligencí. Wim Kees se Syntho dokázal, že dokáže odemknout data citlivá na soukromí, aby byla data chytřejší a rychlejší, aby organizace mohly realizovat inovace založené na datech. V důsledku toho vyhráli Wim Kees a Syntho prestižní ocenění Philips Innovation Award, vyhráli globální hackathon SAS ve zdravotnictví a vědě o živé přírodě a jsou společností NVIDIA vybráni jako vedoucí generativní AI Scale-Up.

Zveřejněno
Února 19, 2024