Hodnocení užitečnosti a podobnosti v generátorech syntetických dat: Technický hluboký ponor a srovnávací analýza

Publikováno:
Února 27, 2024

Úvod

V dnešní digitální době se povědomí o ochraně osobních údajů výrazně zvýšilo. Uživatelé stále častěji rozpoznávají svá data jako jedinečný digitální otisk prstu, což představuje riziko pro jejich soukromí v případě narušení dat. Tato obava je dále umocněna nařízeními, jako je GDPR, které uživatelům umožňují požádat o vymazání svých údajů. I když je tato legislativa velmi potřebná, může být pro společnosti velmi nákladná, protože přístup k údajům je minimalizován; omezení, jejichž překonání je často náročné na čas a zdroje. 

Obsah

Co jsou generátory syntetických dat?

Zadejte syntetická data, řešení tohoto rébusu. Generátory syntetických dat vytvářejí datové sady, které napodobují skutečná uživatelská data a zároveň zachovávají anonymitu a důvěrnost. Tento přístup se prosazuje napříč odvětvími, od zdravotnictví po finance, kde je soukromí prvořadé.  

Tento příspěvek je přizpůsoben datovým profesionálům a nadšencům se zaměřením na vyhodnocování generátorů syntetických dat. Ponoříme se do klíčových metrik a provedeme srovnávací analýzu mezi Syntho's Engine a jeho open-source alternativami a nabídneme informace o tom, jak efektivně hodnotit kvalitu řešení generování syntetických dat. Dále také vyhodnotíme časové náklady každého z těchto modelů, abychom poskytli další pohled na fungování modelů. 

Jak vybrat správnou metodu generování syntetických dat?

V rozmanitém prostředí syntetického generování dat je k dispozici množství metod, z nichž každá soupeří o pozornost svými jedinečnými schopnostmi. Výběr nejvhodnější metody pro konkrétní aplikaci vyžaduje důkladné pochopení výkonnostních charakteristik každé možnosti. To vyžaduje komplexní vyhodnocení různých generátorů syntetických dat na základě sady dobře definovaných metrik, aby bylo možné učinit informované rozhodnutí. 

Následuje rigorózní srovnávací analýza Syntho Engine spolu se známým open-source frameworkem, Synthetic Data Vault (SDV). V této analýze jsme použili mnoho běžně používaných metrik, jako je statistická věrnost, prediktivní přesnost a vztah mezi proměnnými. 

Metriky hodnocení syntetických dat

Před zavedením jakékoli konkrétní metriky musíme uznat, že existuje mnoho ideologií o vyhodnocování syntetických dat, z nichž každá poskytuje náhled na určitý aspekt dat. S ohledem na to jsou následující tři kategorie důležité a komplexní. Tyto metriky poskytují přehled o různých aspektech kvality dat. Jedná se o tyto kategorie: 

      1. Metriky statistické věrnosti: Zkoumání základních statistických vlastností dat, jako jsou průměry a rozptyly, aby se zajistilo, že syntetická data budou v souladu se statistickým profilem původního souboru dat. 

        1. Prediktivní přesnost: Zkoumání výkonu modelu generování syntetických dat, trénovaného s původními daty a vyhodnocovaného na syntetických datech (Train Real – Test Synthetic, TRTS) a naopak (Train Synthetic – Test Real, TSTR) 

          1. Meziproměnné vztahy: Tato kombinovaná kategorie zahrnuje: 

            • Korelace funkcí: Hodnotíme, jak dobře syntetická data udržují vztahy mezi proměnnými pomocí korelačních koeficientů. Známá metrika jako Propensity Mean Squared Error (PMSE) by byla tohoto typu. 

            • Vzájemné informace: Měříme vzájemné závislosti mezi proměnnými, abychom porozuměli hloubce těchto vztahů nad rámec pouhých korelací. 

          Srovnávací analýza: Syntho Engine vs. Open-Source alternativy

          Srovnávací analýza byla provedena pomocí standardizovaného hodnotícího rámce a identických testovacích technik napříč všemi modely, včetně modelů Syntho Engine a SDV. Syntetizací datových sad z identických zdrojů a jejich podrobením stejným statistickým testům a hodnocení modelů strojového učení zajišťujeme spravedlivé a nestranné srovnání. Následující část podrobně popisuje výkon každého generátoru syntetických dat v rozsahu výše uvedených metrik.  

           

          Pokud jde o datový soubor použitý pro hodnocení, použili jsme Soubor údajů o sčítání dospělých UCI což je dobře známá datová sada v komunitě strojového učení. Před veškerým školením jsme data vyčistili a poté jsme datovou sadu rozdělili do dvou sad (tréninkové a zkušební sady). Tréninkovou sadu jsme použili ke generování 1 milionu nových datových bodů s každým z modelů a vyhodnotili jsme různé metriky na těchto vygenerovaných datových sadách. Pro další vyhodnocení strojového učení jsme použili sadu výdrže k vyhodnocení metrik, jako jsou ty související s TSTR a TRTS.  

           

          Každý generátor byl spuštěn s výchozími parametry. Vzhledem k tomu, že některé modely, jako je Syntho, dokážou okamžitě pracovat s libovolnými tabulkovými daty, nebylo provedeno žádné jemné doladění. Hledání správných hyperparametrů pro každý model by zabralo značné množství času a tabulka 2 již ukazuje velký časový rozdíl mezi modelem Syntho a těmi, které byly testovány. 

           

          Je pozoruhodné, že na rozdíl od ostatních modelů v SDV je Gaussian Copula Synthesizer založen na statistických metodách. Naproti tomu zbytek je založen na neuronových sítích, jako jsou modely Generative Adversarial Networks (GAN) a variační automatické kodéry. To je důvod, proč lze Gaussovu kopulu považovat za základní linii pro všechny diskutované modely. 

          výsledky

          Kvalita dat

          Obrázek 1. Vizualizace výsledků základní kvality pro všechny modely

          Dříve diskutované dodržování trendů a reprezentace v datech lze nalézt na obrázku 1 a tabulce 1. Zde lze každou z používaných metrik interpretovat následovně:

          • Celkové skóre kvality: Celkové hodnocení kvality syntetických dat, kombinující různé aspekty, jako je statistická podobnost a charakteristiky dat. 
          • Tvary sloupců: Posuzuje, zda si syntetická data zachovávají stejný tvar rozložení jako skutečná data pro každý sloupec. 
          • Trendy párů sloupců: Vyhodnocuje vztah nebo korelace mezi páry sloupců v syntetických datech ve srovnání se skutečnými daty. 
          •  

          Celkově si lze všimnout, že Syntho dosahuje velmi vysokých skóre napříč všemi oblastmi. Pro začátek, když se podíváme na celkovou kvalitu dat (vyhodnocenou pomocí knihovny metrik SDV), Syntho může dosáhnout výsledku až 99 % (s přilnavostí tvaru sloupce 99.92 % a přilnavostí tvaru páru sloupců 99.31 %). To je, zatímco SDV získá výsledek maximálně 90.84 % (s Gaussovou kopulí, která má přilnavost tvaru sloupce 93.82 % a přilnavost tvaru sloupcového páru 87.86 %). 

          Tabulková reprezentace skóre kvality každé generované datové sady na model

          Tabulka 1. Tabulkové znázornění skóre kvality každého generovaného souboru dat na model 

          Pokrytí dat

          Modul Diagnostické zprávy SDV nás upozorňuje, že v datech generovaných SDV (ve všech případech) chybí více než 10 % číselných rozsahů; V případě Triplet-Based Variational Autoencoder (TVAE) také chybí stejné množství kategorických dat ve srovnání s původní datovou sadou. Žádná taková varování nebyla generována s výsledky dosaženými pomocí Syntho.  

          vizualizace průměrných metrik výkonu po sloupcích pro všechny modely
           
           

          Obrázek 2. Vizualizace průměrné metriky výkonu po sloupcích pro všechny modely 

          Ve srovnávací analýze graf na obrázku 2 ilustruje, že SDV archivuje u některých svých modelů nepatrně lepší výsledky v pokrytí kategorií (zejména s GaussianCopula, CopulaGAN a Conditional Tabular GAN – CTGAN). Nicméně je důležité zdůraznit, že spolehlivost dat společnosti Syntho předčí spolehlivost modelů SDV, protože nesrovnalosti v pokrytí napříč kategoriemi a rozsahy jsou minimální a vykazují rozptyl pouhých 1.1 %. Naproti tomu modely SDV vykazují značnou variabilitu v rozmezí od 14.6 % do 29.2 %. 

           

          Zde uvedené metriky lze interpretovat následovně: 

          • Pokrytí kategorií: Měří přítomnost všech kategorií v syntetických datech ve srovnání se skutečnými daty.
          • Rozsah pokrytí: Vyhodnocuje, jak dobře se rozsah hodnot v syntetických datech shoduje s rozsahem skutečných dat. 
          Tabulkové znázornění průměrného pokrytí daného typu atributu na model

          Tabulka 2. Tabulkové znázornění průměrného pokrytí daného typu atributu na model 

          Užitečnost

          Když přejdeme k tématu užitečnosti syntetických dat, stává se aktuální otázka trénovacích modelů na datech. Abychom měli vyvážené a spravedlivé srovnání všech rámců, zvolili jsme výchozí klasifikátor zesílení gradientu z knihovny SciKit Learn, protože je poměrně akceptován jako dobře fungující model s přednastaveným nastavením.  

           

          Trénují se dva různé modely, jeden na syntetických datech (pro TSTR) a jeden na původních datech (pro TRTS). Model trénovaný na syntetických datech je vyhodnocen pomocí sady testů výdrže (která nebyla použita při generování syntetických dat) a model trénovaný na původních datech je testován na syntetické datové sadě.  

          vizualizace skóre oblasti pod křivkou (AUC) podle metody a modelu

          Obrázek 3. Vizualizace skóre oblasti pod křivkou (AUC) podle metody a modelu 

           Výsledky vizualizované výše demonstrují nadřazenost generování syntetických dat pomocí motoru Syntho ve srovnání s jinými metodami, protože mezi výsledky získanými různými metodami není žádný rozdíl (což ukazuje na vysokou podobnost mezi syntetickými a skutečnými daty). Také červená tečkovaná čára přítomná v grafu je výsledkem získaným vyhodnocením základního výkonu testu Train Real, Test Real (TRTR) pro poskytnutí základní linie pro pozorované metriky. Tato čára představuje hodnotu 0.92, což je skóre oblasti pod křivkou (AUC skóre) dosažené modelem trénovaným na reálných datech a testovaným na reálných datech. 

          Tabulkové znázornění skóre AUC dosaženého pomocí TRTS a TSTR na model.

          Tabulka 3. Tabulkové znázornění skóre AUC dosažených pomocí TRTS a TSTR na model. 

          Časové srovnání

          Přirozeně je důležité zvážit čas investovaný do generování těchto výsledků. Vizualizace níže to ilustruje.

          vizualizace času potřebného k trénování a provádění syntetického generování dat jednoho milionu datových bodů s modelem s GPU a bez něj.

          Obrázek 5. Vizualizace času potřebného k tréninku a výkonu syntetické generování dat jednoho milionu datových bodů s modelem s GPU i bez něj. 

          Obrázek 5 znázorňuje čas potřebný k vytvoření syntetických dat ve dvou různých nastaveních. První z nich (zde označované jako Bez GPU) byly testovací běhy na systému s CPU Intel Xeon s 16 jádry běžícími na 2.20 GHz. Testy označené jako „běh s GPU“ byly na systému s CPU AMD Ryzen 9 7945HX s 16 jádry běžícími na 2.5 GHz a GPU notebooku NVIDIA GeForce RTX 4070. Jak je patrné z obrázku 2 a v tabulce 2 níže, lze pozorovat, že Syntho je výrazně rychlejší při generování syntetických dat (v obou scénářích), což je kritické v dynamickém pracovním postupu. 

          tabulka znázorňující čas potřebný k vygenerování syntetických dat 1 milionu datových bodů s každým modelem s GPU a bez něj

          Tabulka 5. Tabulkové znázornění času potřebného do syntetické generování dat jeden milion datových bodů s každým modelem s GPU i bez něj 

          Závěrečné poznámky a budoucí pokyny 

          Zjištění podtrhují důležitost důkladného hodnocení kvality při výběru správné metody generování syntetických dat. Syntho's Engine se svým přístupem řízeným umělou inteligencí demonstruje pozoruhodné silné stránky v určitých metrikách, zatímco open source nástroje jako SDV vynikají svou všestranností a komunitními vylepšeními. 

          Protože se oblast syntetických dat neustále vyvíjí, doporučujeme vám použít tyto metriky ve svých projektech, prozkoumat jejich složitosti a podělit se o své zkušenosti. Zůstaňte naladěni na budoucí příspěvky, kde se ponoříme hlouběji do dalších metrik a upozorníme na skutečné příklady jejich použití. 

          Nakonec, pro ty, kteří chtějí testovat vody na syntetických datech, může být předložená open-source alternativa ospravedlnitelnou volbou vzhledem k dostupnosti; profesionálové, kteří začleňují tuto moderní technologii do svého vývojového procesu, však musí využít jakoukoli šanci na zlepšení a vyhnout se všem překážkám. Je proto důležité vybrat tu nejlepší dostupnou možnost. S výše uvedenými analýzami je docela zřejmé, že Syntho as tím Syntho Engine je velmi schopný nástroj pro praktiky. 

          O Synthovi

          Syntho poskytuje inteligentní platformu pro generování syntetických dat, která využívá více forem syntetických dat a metod generování a umožňuje organizacím inteligentně transformovat data na konkurenční výhodu. Naše syntetická data vygenerovaná umělou inteligencí napodobují statistické vzorce původních dat a zajišťují přesnost, soukromí a rychlost, jak je posoudili externí odborníci, jako je SAS. Díky inteligentním funkcím deidentifikace a konzistentnímu mapování jsou citlivé informace chráněny při zachování referenční integrity. Naše platforma umožňuje vytváření, správu a kontrolu testovacích dat pro neprodukční prostředí s využitím metod generování syntetických dat založených na pravidlech pro cílené scénáře. Kromě toho mohou uživatelé programově generovat syntetická data a získávat realistická testovací data pro snadnou tvorbu komplexních testovacích a vývojových scénářů.  

          Chcete se dozvědět více praktických aplikací syntetických dat? Neváhejte naplánovat demo!

          O autorech

          Softwarové inženýrství stážista

          syrovýam je studentem bakalářského studia na Technologické univerzitě v Delftu a stáží v softwarovém inženýrství Syntho 

          Strojírenský inženýr

          Mihai získal titul PhD University of Bristol na téma Hierarchical Reinforcement Learning aplikované na robotiku a je Inženýr strojového učení at Syntho. 

          kryt průvodce syntho

          Uložte si průvodce syntetickými daty hned teď!