Anonymizovaná data vs. Syntetická data

Pokud anonymizujete svá data před provedením testování dat analýzy dat, hraje roli několik faktorů:

Téměř ve všech případech lze anonymizovaná data stále zpětně vysledovat k jednotlivcům díky specifickým a jedinečným řádkům (např. lékařské záznamy)
Čím více anonymizujete nebo zobecňujete, tím více dat zničíte. Snižuje to kvalitu vašich dat a tím i vaše statistiky
Anonymizace funguje odlišně pro různé formáty dat. To znamená, že není škálovatelné a může být velmi časově náročné

Syntetická data řeší všechny tyto nedostatky a další. Podívejte se na video níže a uvidíte, jak analytik ze společnosti SAS (vedoucí globální analytika) vysvětluje své hodnocení rozdílu v kvalitě mezi původními daty, anonymizovanými daty a syntetickými daty generovanými Syntho.

Toto video je zachyceno z kavárny Syntho x SAS D[N]A Café o syntetických datech generovaných umělou inteligencí. Celé video najdete zde.

Edwin van Unen poslal do Syntho originální datovou sadu a my jsme datovou sadu syntetizovali. Otázka však také zněla: „Co se stane, když porovnáme syntetická data s anonymizovanými daty? Protože v anonymizovaných datech ztratíte mnoho informací, stane se to také při syntéze datové sady? Začali jsme s datovým souborem z telekomunikačního průmyslu s 56.000 128 řádky a XNUMX sloupci informací o společnosti. Tato datová sada byla syntetizována i anonymizována, takže Edwin mohl porovnat syntetizaci s anonymizací. Poté Edwin začal modelovat pomocí SAS Viya. Na původním datovém souboru postavil několik modelů churn, za použití klasických regresních technik a rozhodovacích stromů, ale také sofistikovanějších technik, jako jsou neuronové sítě, zesílení gradientu, náhodný les – tyto druhy technik. Použití standardních možností SAS Viya při sestavování modelů.

Pak byl čas podívat se na výsledky. Výsledky byly velmi slibné pro syntetická data a ne pro anonymizaci. Pro odborníky na strojové učení z publika se podíváme na oblast pod křivkou ROC, která něco vypovídá o přesnosti modelu. Porovnáním původních dat s anonymizovanými daty vidíme, že původní datový model má oblast pod ROC křivkou 8, což je docela dobré. Nicméně anonymizovaná data mají plochu pod ROC křivkou 6. To znamená, že s anonymizovaným modelem ztrácíme mnoho informací, takže ztrácíte mnoho prediktivní schopnosti.

Ale pak je otázka, co s daty ze syntetiky? Zde jsme udělali přesně totéž, ale místo anonymizace dat Syntho syntetizovala data. Nyní vidíme, že původní data i syntetická data mají oblast pod ROC křivkou 8, což je velmi podobné. Ne úplně stejné kvůli variabilitě, ale velmi podobné. To znamená, že potenciál syntetických dat je velmi slibný – Edwin má z toho velkou radost.

Data jsou syntetická, ale náš tým je skutečný!

Kontaktujte Syntho a jeden z našich odborníků se s vámi spojí rychlostí světla, aby prozkoumal hodnotu syntetických dat!

Co jsou syntetická data?

Zpráva o zajištění kvality

Externí hodnocení SAS

Syntetická data časových řad

Skener PII

Syntetická falešná data

Konzistentní mapování

Deidentifikace a syntetizace

Syntetická data založená na pravidlech

Podmnožina

Nasazení a integrace

Konektory

Rozšířené funkce

Podporovaná data

Uživatelská dokumentace

Naplánujte si ukázku

CENY

Syntetická data jako testovací data

Syntetická data pro analytiku

Syntetická data pro sdílení dat

Syntetická data pro ukázky produktů

Zdravotní péče

Finance

Veřejné organizace

Uživatelská dokumentace

Bílé knihy a průvodce

Blog

Webináře

Ukázkové studie

CENY

O nás

Kariéra

Anonymizovaná data vs. Syntetická data

Data jsou syntetická, ale náš tým je skutečný!

Naším oborem jsou:

O nás

Zdroje

Newsletter Syntho

Hlavní menu