Sintetični podatki, ustvarjeni z umetno inteligenco, enostaven in hiter dostop do visokokakovostnih podatkov?

Umetna inteligenca je v praksi ustvarila sintetične podatke

Syntho, strokovnjak za sintetične podatke, ustvarjene z umetno inteligenco, želi obrniti privacy by design v konkurenčno prednost s sintetičnimi podatki, ustvarjenimi z umetno inteligenco. Pomagajo organizacijam zgraditi močne podatkovne temelje z enostavnim in hitrim dostopom do visokokakovostnih podatkov in so nedavno prejeli nagrado Philips za inovacije.

Vendar pa je sintetično ustvarjanje podatkov z AI relativno nova rešitev, ki običajno uvaja pogosto zastavljena vprašanja. Da bi odgovorili na te, je Syntho začel študijo primera skupaj s SAS, vodilnim na trgu na področju napredne analitike in programske opreme AI.

V sodelovanju z nizozemsko koalicijo za umetno inteligenco (NL AIC) so raziskali vrednost sintetičnih podatkov s primerjavo sintetičnih podatkov, ustvarjenih z umetno inteligenco, ki jih je ustvaril Syntho Engine, z izvirnimi podatki prek različnih ocen kakovosti podatkov, pravne veljavnosti in uporabnosti.

Ali anonimizacija podatkov ni rešitev?

Klasične tehnike anonimizacije imajo skupno to, da manipulirajo z izvirnimi podatki, da bi ovirali sledenje posameznikom. Primeri so posploševanje, zatiranje, brisanje, psevdonimizacija, maskiranje podatkov in premeščanje vrstic in stolpcev. Primere najdete v spodnji tabeli.

anonimizacija podatkov

Te tehnike predstavljajo 3 ključne izzive:

  1. Delujejo različno glede na vrsto podatkov in nabor podatkov, zaradi česar jih je težko povečati. Poleg tega, ker delujejo drugače, bo vedno potekala razprava o tem, katere metode uporabiti in kakšna kombinacija tehnik je potrebna.
  2. Vedno obstaja odnos ena proti ena z izvirnimi podatki. To pomeni, da bo vedno obstajalo tveganje za zasebnost, zlasti zaradi vseh odprtih podatkovnih nizov in razpoložljivih tehnik za povezovanje teh naborov podatkov.
  3. Manipulirajo s podatki in s tem uničijo podatke v procesu. To je še posebej uničujoče za naloge umetne inteligence, kjer je "moč napovedovanja" bistvena, saj bodo podatki slabe kakovosti povzročili slabe vpoglede iz modela AI (Garbage-in bo povzročilo smeti).

Te točke se ocenjujejo tudi s to študijo primera.

Uvod v študijo primera

Za študijo primera je bil ciljni nabor podatkov o telekomunikacijah, ki ga je zagotovil SAS, ki vsebuje podatke 56.600 strank. Podatkovni nabor vsebuje 128 stolpcev, vključno z enim stolpcem, ki označuje, ali je stranka zapustila podjetje (tj. 'zapuščena') ali ne. Cilj študije primera je bil uporabiti sintetične podatke za usposabljanje nekaterih modelov za napovedovanje odliva strank in za oceno uspešnosti teh usposobljenih modelov. Ker je napovedovanje odliva naloga klasifikacije, je SAS za izdelavo napovedi izbral štiri priljubljene modele klasifikacije, vključno z:

  1. Naključni gozd
  2. Povečanje gradienta
  3. Logistična regresija
  4. Zivcno omrezje

Pred generiranjem sintetičnih podatkov je SAS naključno razdelil nabor telekomunikacijskih podatkov na niz vlakov (za usposabljanje modelov) in niz zadrževanja (za točkovanje modelov). Ločen nabor zadrževanja za točkovanje omogoča nepristransko oceno o tem, kako dobro bi lahko klasifikacijski model deloval, če bi ga uporabili za nove podatke.

Z uporabo nabora vlakov kot vhoda je Syntho uporabil svoj Syntho Engine za ustvarjanje sintetičnega nabora podatkov. Za primerjalno analizo je SAS ustvaril tudi manipulirano različico sklopa vlakov, potem ko je uporabil različne tehnike anonimizacije, da bi dosegel določen prag (k-anonimnosti). Prejšnji koraki so privedli do štirih podatkovnih nizov:

  1. Nabor podatkov o vlaku (tj. izvirni nabor podatkov minus nabor podatkov o zadržanju)
  2. Zadrževalni nabor podatkov (tj. podmnožica izvirnega nabora podatkov)
  3. Anonimiziran nabor podatkov (na podlagi nabora podatkov o vlaku)
  4. Sintetični nabor podatkov (na podlagi nabora podatkov o vlaku)

Nabori podatkov 1, 3 in 4 so bili uporabljeni za usposabljanje vsakega modela klasifikacije, kar je povzročilo 12 (3 x 4) usposobljenih modelov. SAS je nato uporabil nabor podatkov o zadržanju za merjenje natančnosti, s katero vsak model napoveduje odliv strank. Rezultati so predstavljeni spodaj, začenši z nekaj osnovnimi statističnimi podatki.

Cevovod strojnega učenja, ustvarjen v SAS

Slika: cevovod strojnega učenja, ustvarjen v SAS Visual Data Mining in Machine Learning

Osnovna statistika pri primerjavi anonimiziranih podatkov z izvirnimi podatki

Tehnike anonimizacije uničijo celo osnovne vzorce, poslovno logiko, odnose in statistiko (kot v spodnjem primeru). Uporaba anonimiziranih podatkov za osnovno analitiko tako daje nezanesljive rezultate. Pravzaprav je bila zaradi slabe kakovosti anonimiziranih podatkov skoraj nemogoča uporaba za napredne analitične naloge (npr. modeliranje AI/ML in nadzorna plošča).

primerjava anonimiziranih podatkov z izvirnimi podatki

Osnovna statistika pri primerjavi sintetičnih podatkov z izvirnimi podatki

Sintetično generiranje podatkov z AI ohranja osnovne vzorce, poslovno logiko, odnose in statistiko (kot v spodnjem primeru). Uporaba sintetičnih podatkov za osnovno analitiko tako daje zanesljive rezultate. Ključno vprašanje, ali sintetični podatki veljajo za napredne analitične naloge (npr. modeliranje AI/ML in nadzorna plošča)?

primerjava sintetičnih podatkov z izvirnimi podatki

Sintetični podatki, ustvarjeni z umetno inteligenco, in napredna analitika

Sintetični podatki ne veljajo samo za osnovne vzorce (kot je prikazano na prejšnjih grafih), temveč zajemajo tudi globoke 'skrite' statistične vzorce, potrebne za napredne analitične naloge. Slednje je prikazano v stolpčnem grafikonu spodaj, kar kaže, da je natančnost modelov, usposobljenih na sintetičnih podatkih, v primerjavi z modeli, usposobljenimi na izvirnih podatkih, podobna. Poleg tega s površino pod krivuljo (AUC*) blizu 0.5 so modeli, usposobljeni na anonimiziranih podatkih, daleč najslabši. Celotno poročilo z vsemi naprednimi analitičnimi ocenami sintetičnih podatkov v primerjavi z izvirnimi podatki je na voljo na zahtevo.

*AUC: površina pod krivuljo je merilo za natančnost modelov napredne analitike, ki upošteva resnične pozitivne, lažno pozitivne, lažno negativne in prave negativne. 0,5 pomeni, da model napoveduje naključno in nima napovedne moči, 1 pa pomeni, da je model vedno pravilen in ima polno napovedno moč.

Poleg tega je mogoče te sintetične podatke uporabiti za razumevanje značilnosti podatkov in glavnih spremenljivk, potrebnih za dejansko usposabljanje modelov. Vhodi, izbrani z algoritmi na sintetičnih podatkih v primerjavi z izvirnimi podatki, so bili zelo podobni. Zato se lahko postopek modeliranja izvede na tej sintetični različici, kar zmanjša tveganje za kršitve podatkov. Vendar pa je pri sklepanju o posameznih zapisih (npr. telekomunikacijska stranka) priporočeno ponovno usposabljanje na izvirnih podatkih zaradi razlagljivosti, večjega sprejemanja ali zgolj zaradi regulacije.                              

AUC po algoritmu, razvrščenem po metodi

AUC

Sklepi:

  • Modeli, izurjeni na sintetičnih podatkih, v primerjavi z modeli, usposobljenimi na izvirnih podatkih, kažejo zelo podobno zmogljivost
  • Modeli, usposobljeni za anonimizirane podatke s "klasičnimi tehnikami anonimizacije", kažejo slabšo učinkovitost v primerjavi z modeli, usposobljenimi na izvirnih ali sintetičnih podatkih
  • Ustvarjanje sintetičnih podatkov je enostavno in hitro, saj tehnika deluje popolnoma enako za nabor podatkov in za vrsto podatkov.

Primeri uporabe sintetičnih podatkov z dodano vrednostjo

Primer uporabe 1: Sintetični podatki za razvoj modela in napredno analitiko

Za razvoj modelov (npr. nadzorne plošče [BI] in napredna analitika [AI & ML]) je bistvenega pomena močna podatkovna podlaga z enostavnim in hitrim dostopom do uporabnih in visokokakovostnih podatkov. Vendar pa mnoge organizacije trpijo zaradi neoptimalne podlage podatkov, kar ima za posledico 3 ključne izzive:

  • Dostop do podatkov traja več let zaradi predpisov (zasebnosti), notranjih procesov ali podatkovnih silosov
  • Klasične tehnike anonimizacije uničijo podatke, zaradi česar podatki niso več primerni za analizo in napredno analitiko (smeti v = smeti ven)
  • Obstoječe rešitve niso razširljive, ker delujejo različno na nabor podatkov in na vrsto podatkov ter ne morejo obvladovati velikih baz podatkov z več tabelami

Pristop sintetičnih podatkov: razviti modele s tako dobrimi kot resničnimi sintetičnimi podatki za:

  • Zmanjšajte uporabo izvirnih podatkov, ne da bi pri tem ovirali razvijalce
  • Odklenite osebne podatke in dostopajte do več podatkov, ki so bili prej omejeni (npr. Zaradi zasebnosti)
  • Enostaven in hiter dostop do ustreznih podatkov
  • Prilagodljiva rešitev, ki deluje enako za vsak nabor podatkov, tip podatkov in za velike zbirke podatkov

To omogoča organizaciji, da zgradi močne podatkovne temelje z enostavnim in hitrim dostopom do uporabnih, visokokakovostnih podatkov za odklepanje podatkov in izkoriščanje podatkovnih priložnosti.

 

Primer uporabe 2: pametni sintetični testni podatki za testiranje, razvoj in dostavo programske opreme

Testiranje in razvoj z visokokakovostnimi testnimi podatki je bistvenega pomena za zagotavljanje najsodobnejših programskih rešitev. Uporaba izvirnih produkcijskih podatkov se zdi očitna, vendar ni dovoljena zaradi (zasebnih) predpisov. Alternativa Test Data Management (TDM) orodja predstavljajo “legacy-by-design” pri pravilnem pridobivanju testnih podatkov:

  • Ne odražajte proizvodnih podatkov, poslovna logika in referenčna celovitost pa nista ohranjeni
  • Delajte počasi in dolgotrajno
  • Potrebno je ročno delo

Pristop sintetičnih podatkov: Preizkusite in razvijajte s sintetičnimi testnimi podatki, ustvarjenimi z umetno inteligenco, da zagotovite najsodobnejše programske rešitve, pametne z:

  • Produkcijski podobni podatki z ohranjeno poslovno logiko in referenčno celovitostjo
  • Enostavno in hitro ustvarjanje podatkov z najsodobnejšo umetno inteligenco
  • Zasebnost po zasnovi
  • Enostavno, hitro in agile

To omogoča organizaciji, da preizkuša in razvija s testnimi podatki naslednje ravni za zagotavljanje najsodobnejših programskih rešitev!

Več informacij

Vas zanima? Za več informacij o sintetičnih podatkih obiščite spletno mesto Syntho ali se obrnite na Wim Kees Janssen. Za več informacij o SAS obiščite www.sas.com ali kontaktirajte kees@syntho.ai.

V tem primeru uporabe Syntho, SAS in NL AIC sodelujejo pri doseganju načrtovanih rezultatov. Syntho je strokovnjak za sintetične podatke, ustvarjene z umetno inteligenco, SAS pa je vodilni na trgu analitike in ponuja programsko opremo za raziskovanje, analizo in vizualizacijo podatkov.

* Napoveduje 2021 – Podatkovne in analitične strategije za upravljanje, povečanje in preoblikovanje digitalnega poslovanja, Gartner, 2020.

pokrov sinto vodnika

Shranite svoj vodnik za sintetične podatke zdaj!