Externí hodnocení našich syntetických dat datovými experty SAS

Naše syntetická data jsou posoudit a schválený datovými experty SAS

Úvod do externího hodnocení našich syntetických dat datovými experty SAS

co jsme udělali?

Syntetická data generovaná Syntho jsou posuzována, validována a schvalována z externího a objektivního hlediska datovými experty SAS.

Proč jsou naše syntetická data externě vyhodnocována datovými experty SAS?

Přestože Syntho je hrdé na to, že svým uživatelům nabízí pokročilou zprávu o zajištění kvality, chápeme také důležitost externího a objektivního hodnocení našich syntetických dat od předních průmyslových výrobců. To je důvod, proč spolupracujeme se společností SAS, lídrem v oblasti analytiky, na hodnocení našich syntetických dat.

SAS provádí různá důkladná hodnocení přesnosti dat, ochrany soukromí a použitelnosti syntetických dat generovaných AI společnosti Syntho ve srovnání s původními daty. Na závěr SAS vyhodnotil a schválil syntetická data Syntho jako přesná, bezpečná a použitelná ve srovnání s původními daty.

Co dělal SAS během tohoto hodnocení?

Jako cílová data jsme použili telekomunikační data, která se používají pro predikci „churn“. Cílem hodnocení bylo použít syntetická data k trénování různých modelů predikce odchodu a posouzení výkonnosti každého modelu. Vzhledem k tomu, že predikce odchodu je klasifikačním úkolem, SAS vybral oblíbené klasifikační modely, aby předpověděl, včetně:

  1. Náhodný les
  2. Zesílení gradientu
  3. Logistická regrese
  4. Nervová síť

Před generováním syntetických dat SAS náhodně rozdělí telekomunikační datovou sadu na vlakovou sadu (pro trénování modelů) a vyčkávací sadu (pro hodnocení modelů). Samostatná sada rezerv pro bodování umožňuje nezaujaté posouzení toho, jak dobře by mohl model klasifikace fungovat při aplikaci na nová data.

S použitím vlakové sady jako vstupu použilo Syntho svůj Syntho Engine ke generování syntetické datové sady. Pro benchmarking SAS také vytvořil anonymizovanou verzi vlakové soupravy po aplikaci různých anonymizačních technik pro dosažení určité hranice (k-anonymity). Předchozí kroky vedly ke čtyřem datovým sadám:

  1. Datový soubor vlaku (tj. původní datový soubor minus datový soubor o pozastavení)
  2. Zádržná datová sada (tj. podmnožina původní datové sady)
  3. Anonymizovaná datová sada (anonymizovaná data datové sady vlaku, původní datová sada mínus datová sada pozastavení)
  4. Syntetická datová sada (syntetizovaná data datové sady vlaku, původní datová sada minus datová sada pozastavení)

K trénování každého klasifikačního modelu byly použity datové sady 1, 3 a 4, což vedlo k 12 (3 x 4) trénovaným modelům. Společnost SAS následně použila datovou sadu k měření přesnosti každého modelu v predikci odchodu zákazníků.

SAS provádí různá důkladná hodnocení přesnosti dat, ochrany soukromí a použitelnosti syntetických dat generovaných AI společnosti Syntho ve srovnání s původními daty. Na závěr SAS vyhodnotil a schválil syntetická data Syntho jako přesná, bezpečná a použitelná ve srovnání s původními daty.

Máte nějaké dotazy?

Promluvte si s jedním z našich odborníků

Prvotní výsledky vyhodnocení dat SAS

Modely trénované na syntetických datech dosahují velmi podobné hodnoty ve srovnání s modely trénovanými na původních datech

Syntetická data ze Syntho platí nejen pro základní vzory, ale také zachycují hluboké „skryté“ statistické vzory potřebné pro pokročilé analytické úlohy. To je demonstrováno ve sloupcovém grafu, což ukazuje, že přesnost modelů trénovaných na syntetických datech oproti modelům trénovaným na původních datech je podobná. Syntetická data lze tedy použít pro vlastní trénování modelů. Vstupy a proměnná důležitost zvolené algoritmy na syntetických datech ve srovnání s původními daty byly velmi podobné. Dospělo se tedy k závěru, že proces modelování lze provést na syntetických datech jako alternativu k použití skutečných citlivých dat.

Proč mají modely trénované na anonymizovaných datech horší skóre?

Klasické anonymizační techniky mají společné to, že manipulují s původními daty, aby zabránily zpětnému dohledání jednotlivců. Manipulují s daty a tím data v procesu ničí. Čím více anonymizujete, tím lépe jsou vaše data chráněna, ale také tím více jsou vaše data zničena. To je zničující zejména pro úlohy umělé inteligence a modelování, kde je nezbytná „prediktivní síla“, protože špatná kvalita dat bude mít za následek špatné poznatky z modelu umělé inteligence. SAS to prokázal s plochou pod křivkou (AUC*) blízkou 0.5, což dokazuje, že modely trénované na anonymizovaných datech fungují zdaleka nejhůře.

Další výsledky hodnocení syntetických dat SAS

Další výsledky hodnocení syntetických dat SAS

V syntetických datech byly přesně zachovány korelace a vztahy mezi proměnnými.

Oblast pod křivkou (AUC), metrika pro měření výkonu modelu, zůstala konzistentní.

Kromě toho význam proměnné, který indikoval prediktivní sílu proměnných v modelu, zůstal při porovnávání syntetických dat s původním souborem dat nedotčen.

Na základě těchto pozorování SAS a pomocí SAS Viya můžeme s jistotou dojít k závěru, že syntetická data generovaná Syntho Engine jsou skutečně na stejné úrovni jako skutečná data, pokud jde o kvalitu. To ověřuje použití syntetických dat pro vývoj modelů a připravuje cestu pro pokročilou analýzu pomocí syntetických dat.

Závěry datových expertů SAS

Logo Sas

Naše syntetická data jsou schválený datovými experty SAS

Referenční články

kryt průvodce syntho

Uložte si průvodce syntetickými daty hned teď!