Syntetická data generovaná Syntho jsou posuzována, validována a schvalována z externího a objektivního hlediska datovými experty SAS.
Přestože Syntho je hrdé na to, že svým uživatelům nabízí pokročilou zprávu o zajištění kvality, chápeme také důležitost externího a objektivního hodnocení našich syntetických dat od předních průmyslových výrobců. To je důvod, proč spolupracujeme se společností SAS, lídrem v oblasti analytiky, na hodnocení našich syntetických dat.
SAS provádí různá důkladná hodnocení přesnosti dat, ochrany soukromí a použitelnosti syntetických dat generovaných AI společnosti Syntho ve srovnání s původními daty. Na závěr SAS vyhodnotil a schválil syntetická data Syntho jako přesná, bezpečná a použitelná ve srovnání s původními daty.
Jako cílová data jsme použili telekomunikační data, která se používají pro predikci „churn“. Cílem hodnocení bylo použít syntetická data k trénování různých modelů predikce odchodu a posouzení výkonnosti každého modelu. Vzhledem k tomu, že predikce odchodu je klasifikačním úkolem, SAS vybral oblíbené klasifikační modely, aby předpověděl, včetně:
Před generováním syntetických dat SAS náhodně rozdělí telekomunikační datovou sadu na vlakovou sadu (pro trénování modelů) a vyčkávací sadu (pro hodnocení modelů). Samostatná sada rezerv pro bodování umožňuje nezaujaté posouzení toho, jak dobře by mohl model klasifikace fungovat při aplikaci na nová data.
S použitím vlakové sady jako vstupu použilo Syntho svůj Syntho Engine ke generování syntetické datové sady. Pro benchmarking SAS také vytvořil anonymizovanou verzi vlakové soupravy po aplikaci různých anonymizačních technik pro dosažení určité hranice (k-anonymity). Předchozí kroky vedly ke čtyřem datovým sadám:
K trénování každého klasifikačního modelu byly použity datové sady 1, 3 a 4, což vedlo k 12 (3 x 4) trénovaným modelům. Společnost SAS následně použila datovou sadu k měření přesnosti každého modelu v predikci odchodu zákazníků.
SAS provádí různá důkladná hodnocení přesnosti dat, ochrany soukromí a použitelnosti syntetických dat generovaných AI společnosti Syntho ve srovnání s původními daty. Na závěr SAS vyhodnotil a schválil syntetická data Syntho jako přesná, bezpečná a použitelná ve srovnání s původními daty.
Syntetická data ze Syntho platí nejen pro základní vzory, ale také zachycují hluboké „skryté“ statistické vzory potřebné pro pokročilé analytické úlohy. To je demonstrováno ve sloupcovém grafu, což ukazuje, že přesnost modelů trénovaných na syntetických datech oproti modelům trénovaným na původních datech je podobná. Syntetická data lze tedy použít pro vlastní trénování modelů. Vstupy a proměnná důležitost zvolené algoritmy na syntetických datech ve srovnání s původními daty byly velmi podobné. Dospělo se tedy k závěru, že proces modelování lze provést na syntetických datech jako alternativu k použití skutečných citlivých dat.
Klasické anonymizační techniky mají společné to, že manipulují s původními daty, aby zabránily zpětnému dohledání jednotlivců. Manipulují s daty a tím data v procesu ničí. Čím více anonymizujete, tím lépe jsou vaše data chráněna, ale také tím více jsou vaše data zničena. To je zničující zejména pro úlohy umělé inteligence a modelování, kde je nezbytná „prediktivní síla“, protože špatná kvalita dat bude mít za následek špatné poznatky z modelu umělé inteligence. SAS to prokázal s plochou pod křivkou (AUC*) blízkou 0.5, což dokazuje, že modely trénované na anonymizovaných datech fungují zdaleka nejhůře.
V syntetických datech byly přesně zachovány korelace a vztahy mezi proměnnými.
Oblast pod křivkou (AUC), metrika pro měření výkonu modelu, zůstala konzistentní.
Kromě toho význam proměnné, který indikoval prediktivní sílu proměnných v modelu, zůstal při porovnávání syntetických dat s původním souborem dat nedotčen.
Na základě těchto pozorování SAS a pomocí SAS Viya můžeme s jistotou dojít k závěru, že syntetická data generovaná Syntho Engine jsou skutečně na stejné úrovni jako skutečná data, pokud jde o kvalitu. To ověřuje použití syntetických dat pro vývoj modelů a připravuje cestu pro pokročilou analýzu pomocí syntetických dat.