Anonymizované údaje verzus syntetické údaje

Ak anonymizujete svoje údaje pred vykonaním testovania údajov v rámci analýzy údajov, v hre je niekoľko faktorov:

  1. Takmer vo všetkých prípadoch možno anonymizované údaje stále spätne vysledovať k jednotlivcom vďaka špecifickým a jedinečným riadkom (napr. lekárske záznamy)
  2. Čím viac budete anonymizovať alebo zovšeobecňovať, tým viac údajov zničíte. Znižuje to kvalitu vašich údajov a tým aj prehľadov
  3. Anonymizácia funguje odlišne pre rôzne formáty údajov. To znamená, že nie je škálovateľný a môže byť časovo veľmi náročný

Syntetické dáta riešia všetky tieto nedostatky a ešte viac. Pozrite si video nižšie a uvidíte, ako odborník na analytiku zo spoločnosti SAS (globálny líder v oblasti analytiky) vysvetľuje svoje hodnotenie rozdielu v kvalite medzi pôvodnými údajmi, anonymizovanými údajmi a syntetickými údajmi generovanými spoločnosťou Syntho.

Toto video je zachytené z kaviarne Syntho x SAS D[N]A Café o syntetických údajoch generovaných AI. Celé video nájdete tu.

Edwin van Unen poslal originálny súbor údajov spoločnosti Syntho a my sme súbor údajov syntetizovali. Otázka však tiež znela: „Čo sa stane, ak porovnáme syntetické údaje s anonymizovanými údajmi? Pretože stratíte veľa informácií v anonymizovaných údajoch, stane sa to aj pri syntéze súboru údajov? Začali sme so súborom údajov z telekomunikačného priemyslu s 56.000 128 riadkami a XNUMX stĺpcami s informáciami o strate spoločnosti. Tento súbor údajov bol syntetizovaný aj anonymizovaný, takže Edwin mohol porovnať syntetizáciu s anonymizáciou. Potom Edwin začal modelovať pomocou SAS Viya. Na pôvodnom súbore údajov postavil niekoľko modelov churn, pričom použil klasické regresné techniky a rozhodovacie stromy, ale aj sofistikovanejšie techniky, ako sú neurónové siete, zvyšovanie gradientu, náhodný les – tieto druhy techník. Použitie štandardných možností SAS Viya pri zostavovaní modelov.

Potom bol čas pozrieť sa na výsledky. Výsledky boli veľmi sľubné pre syntetické dáta a nie pre anonymizáciu. Pre odborníkov z publika, ktorí nie sú na strojové učenie, sa pozrieme na oblasť pod krivkou ROC, ktorá hovorí niečo o presnosti modelu. Porovnaním pôvodných údajov s anonymizovanými údajmi vidíme, že pôvodný dátový model má oblasť pod ROC krivkou 8, čo je celkom dobré. Avšak anonymizované údaje majú oblasť pod ROC krivkou 6. To znamená, že s anonymizovaným modelom stratíme veľa informácií, takže stratíte veľkú predikčnú silu.

Otázkou však je, čo so syntetickými údajmi? Tu sme urobili presne to isté, ale namiesto anonymizácie údajov spoločnosť Syntho syntetizovala údaje. Teraz vidíme, že pôvodné údaje aj syntetické údaje majú oblasť pod ROC krivkou 8, čo je veľmi podobné. Nie úplne rovnaké kvôli variabilite, ale veľmi podobné. To znamená, že potenciál syntetických údajov je veľmi sľubný – Edwin má z toho veľkú radosť.

skupina ľudí s úsmevom

Dáta sú syntetické, ale náš tím je skutočný!

Kontaktujte Syntho a jeden z našich odborníkov sa s vami spojí rýchlosťou svetla, aby preskúmal hodnotu syntetických údajov!