Anonymizovaná data vs. Syntetická data

Pokud anonymizujete svá data před provedením testování dat analýzy dat, hraje roli několik faktorů:

  1. Téměř ve všech případech lze anonymizovaná data stále zpětně vysledovat k jednotlivcům díky specifickým a jedinečným řádkům (např. lékařské záznamy)
  2. Čím více anonymizujete nebo zobecňujete, tím více dat zničíte. Snižuje to kvalitu vašich dat a tím i vaše statistiky
  3. Anonymizace funguje odlišně pro různé formáty dat. To znamená, že není škálovatelné a může být velmi časově náročné

Syntetická data řeší všechny tyto nedostatky a další. Podívejte se na video níže a uvidíte, jak analytik ze společnosti SAS (vedoucí globální analytika) vysvětluje své hodnocení rozdílu v kvalitě mezi původními daty, anonymizovanými daty a syntetickými daty generovanými Syntho.

Toto video je zachyceno z kavárny Syntho x SAS D[N]A Café o syntetických datech generovaných umělou inteligencí. Celé video najdete zde.

Edwin van Unen poslal do Syntho originální datovou sadu a my jsme datovou sadu syntetizovali. Otázka však také zněla: „Co se stane, když porovnáme syntetická data s anonymizovanými daty? Protože v anonymizovaných datech ztratíte mnoho informací, stane se to také při syntéze datové sady? Začali jsme s datovým souborem z telekomunikačního průmyslu s 56.000 128 řádky a XNUMX sloupci informací o společnosti. Tato datová sada byla syntetizována i anonymizována, takže Edwin mohl porovnat syntetizaci s anonymizací. Poté Edwin začal modelovat pomocí SAS Viya. Na původním datovém souboru postavil několik modelů churn, za použití klasických regresních technik a rozhodovacích stromů, ale také sofistikovanějších technik, jako jsou neuronové sítě, zesílení gradientu, náhodný les – tyto druhy technik. Použití standardních možností SAS Viya při sestavování modelů.

Pak byl čas podívat se na výsledky. Výsledky byly velmi slibné pro syntetická data a ne pro anonymizaci. Pro odborníky na strojové učení z publika se podíváme na oblast pod křivkou ROC, která něco vypovídá o přesnosti modelu. Porovnáním původních dat s anonymizovanými daty vidíme, že původní datový model má oblast pod ROC křivkou 8, což je docela dobré. Nicméně anonymizovaná data mají plochu pod ROC křivkou 6. To znamená, že s anonymizovaným modelem ztrácíme mnoho informací, takže ztrácíte mnoho prediktivní schopnosti.

Ale pak je otázka, co s daty ze syntetiky? Zde jsme udělali přesně totéž, ale místo anonymizace dat Syntho syntetizovala data. Nyní vidíme, že původní data i syntetická data mají oblast pod ROC křivkou 8, což je velmi podobné. Ne úplně stejné kvůli variabilitě, ale velmi podobné. To znamená, že potenciál syntetických dat je velmi slibný – Edwin má z toho velkou radost.

skupina lidí s úsměvem

Data jsou syntetická, ale náš tým je skutečný!

Kontaktujte Syntho a jeden z našich odborníků se s vámi spojí rychlostí světla, aby prozkoumal hodnotu syntetických dat!