AI-ga loodud sünteetilised andmed, lihtne ja kiire juurdepääs kvaliteetsetele andmetele?

AI genereeris praktikas sünteetilisi andmeid

AI-ga loodud sünteetiliste andmete ekspert Syntho eesmärk on pöörduda privacy by design konkurentsieelise AI-ga loodud sünteetiliste andmetega. Need aitavad organisatsioonidel luua tugeva andmebaasi lihtsa ja kiire juurdepääsuga kvaliteetsetele andmetele ning võitsid hiljuti Philipsi innovatsiooniauhinna.

Sünteetiline andmete genereerimine AI-ga on aga suhteliselt uus lahendus, mis tavaliselt tutvustab korduma kippuvaid küsimusi. Nendele küsimustele vastamiseks alustas Syntho juhtumiuuringut koos Advanced Analyticsi ja AI tarkvara turuliidri SAS-iga.

Koostöös Hollandi tehisintellekti koalitsiooniga (NL AIC) uurisid nad sünteetiliste andmete väärtust, võrreldes Syntho Engine'i loodud tehisintellekti loodud sünteetilisi andmeid algandmetega erinevate hinnangute kaudu andmete kvaliteedi, juriidilise kehtivuse ja kasutatavuse kohta.

Kas andmete anonüümseks muutmine pole lahendus?

Klassikalistel anonüümseks muutmise tehnikatel on ühine joon, et nad manipuleerivad algandmetega, et takistada isikute jälitamist. Näited on üldistamine, mahasurumine, kustutamine, pseudonüümide muutmine, andmete maskeerimine ning ridade ja veergude segamine. Näiteid leiate allolevast tabelist.

andmete anonüümseks muutmine

Need tehnikad toovad kaasa 3 peamist väljakutset:

  1. Need töötavad andmetüübi ja andmestiku lõikes erinevalt, mistõttu on neid raske skaleerida. Lisaks, kuna need töötavad erinevalt, arutatakse alati selle üle, milliseid meetodeid rakendada ja millist tehnikate kombinatsiooni on vaja.
  2. Algandmetega on alati üks-ühele seos. See tähendab, et privaatsusrisk on alati olemas, eriti kõigi avatud andmekogumite ja nende andmekogumite linkimiseks saadaolevate tehnikate tõttu.
  3. Nad manipuleerivad andmetega ja hävitavad seeläbi andmeid protsessi käigus. See on eriti laastav tehisintellekti ülesannete puhul, kus "ennustusjõud" on hädavajalik, sest halva kvaliteediga andmed annavad AI mudelist halva ülevaate (prügi sissetoomine toob kaasa prügi väljavoolu).

Neid punkte hinnatakse ka selle juhtumiuuringu kaudu.

Sissejuhatus juhtumiuuringusse

Juhtumiuuringu jaoks oli sihtandmestikuks SAS-i pakutav telekommunikatsiooniandmestik, mis sisaldas 56.600 128 kliendi andmeid. Andmekogum sisaldab XNUMX veergu, sealhulgas üks veerg, mis näitab, kas klient on ettevõttest lahkunud (st "käinud") või mitte. Juhtumiuuringu eesmärk oli kasutada sünteetilisi andmeid mõne mudeli koolitamiseks, et ennustada klientide vähenemist ja hinnata nende koolitatud mudelite toimivust. Kuna kaotuse ennustamine on klassifitseerimisülesanne, valis SAS prognooside tegemiseks neli populaarset klassifitseerimismudelit, sealhulgas:

  1. Juhuslik mets
  2. Gradiendi suurendamine
  3. Logistiline regressioon
  4. Närvivõrk

Enne sünteetiliste andmete genereerimist jagas SAS telekommunikatsiooni andmestiku juhuslikult rongikomplektiks (mudelite koolitamiseks) ja hoidmiskomplektiks (mudelite hindamiseks). Hindamise jaoks eraldi hoidmiskomplekti olemasolu võimaldab erapooletult hinnata, kui hästi võib klassifitseerimismudel uutele andmetele rakendamisel toimida.

Kasutades rongikomplekti sisendina, kasutas Syntho sünteetilise andmestiku loomiseks oma Syntho mootorit. Võrdlusuuringu jaoks lõi SAS ka rongikomplekti manipuleeritud versiooni pärast erinevate anonüümsuse muutmise tehnikate rakendamist teatud läve (k-anonüümsuse) saavutamiseks. Eelmiste sammude tulemuseks oli neli andmekogumit:

  1. Rongi andmestik (st algne andmestik, millest on lahutatud kinnipidamise andmestik)
  2. Hoiatav andmestik (st algse andmekogumi alamhulk)
  3. Anonüümne andmestik (rongi andmestiku alusel)
  4. Sünteetiline andmestik (rongi andmestiku alusel)

Iga klassifikatsioonimudeli koolitamiseks kasutati andmekogumeid 1, 3 ja 4, mille tulemuseks oli 12 (3 x 4) koolitatud mudelit. Seejärel kasutas SAS hoidmisandmestikku, et mõõta täpsust, millega iga mudel ennustab klientide vähenemist. Tulemused on esitatud allpool, alustades põhistatistikaga.

SAS-is loodud masinõppe torujuhe

Joonis: SAS Visual Data Mining and Machine Learningis loodud masinõppe konveier

Põhistatistika anonüümsete andmete võrdlemisel algandmetega

Anonüümseks muutmise tehnikad hävitavad isegi põhimustrid, äriloogika, suhted ja statistika (nagu allolevas näites). Anonüümsete andmete kasutamine põhianalüütika jaoks annab seega ebausaldusväärseid tulemusi. Tegelikult muutis anonüümseks muudetud andmete halb kvaliteet nende kasutamise täpsemate analüüsiülesannete jaoks (nt AI/ML-i modelleerimine ja armatuurlaud) peaaegu võimatuks.

anonüümsete andmete võrdlemine algandmetega

Põhistatistika sünteetiliste andmete võrdlemisel algandmetega

Tehisintellektiga sünteetiline andmete genereerimine säilitab põhimustrid, äriloogika, suhted ja statistika (nagu allolevas näites). Seega annab sünteetiliste andmete kasutamine põhianalüütika jaoks usaldusväärseid tulemusi. Põhiküsimus, kas sünteetilised andmed mahuvad täiustatud analüüsiülesannete jaoks (nt AI/ML-i modelleerimine ja armatuurlaud)?

sünteetiliste andmete võrdlemine algandmetega

AI-ga loodud sünteetilised andmed ja täiustatud analüütika

Sünteetilised andmed ei sisalda mitte ainult põhimustreid (nagu on näidatud eelmistel graafikutel), vaid ka sügavaid "peidetud" statistilisi mustreid, mis on vajalikud täiustatud analüütikaülesannete jaoks. Viimast on näidatud allolevas tulpdiagrammis, mis näitab, et sünteetilistel andmetel treenitud mudelite ja algandmetel treenitud mudelite täpsus on sarnane. Veelgi enam, kui kõveraalune pindala (AUC*) on 0.5 lähedal, toimivad anonüümsetele andmetele treenitud mudelid kaugelt kõige halvemini. Täielik aruanne koos kõigi sünteetiliste andmete täpsemate analüütiliste hinnangutega võrreldes algandmetega on saadaval nõudmisel.

*AUC: kõvera alune pindala mõõdab täiustatud analüütikamudelite täpsust, võttes arvesse tõelisi positiivseid, valepositiivseid, valenegatiivseid ja tõelisi negatiivseid. 0,5 tähendab, et mudel ennustab juhuslikult ja sellel puudub ennustusvõime ning 1 tähendab, et mudel on alati õige ja sellel on täielik ennustusvõime.

Lisaks saab neid sünteetilisi andmeid kasutada mudelite tegelikuks treenimiseks vajalike andmete omaduste ja peamiste muutujate mõistmiseks. Algoritmide poolt sünteetilistele andmetele valitud sisendid võrreldes algandmetega olid väga sarnased. Seega saab modelleerimisprotsessi teha selle sünteetilise versiooniga, mis vähendab andmetega seotud rikkumiste ohtu. Üksikute kirjete järeldamisel (nt telefoniklient) on siiski soovitatav algandmete ümberõpe seletatavuse, suurema aktsepteerimise või lihtsalt regulatsiooni tõttu.                              

AUC algoritmi järgi rühmitatud meetodi järgi

AUC

Järeldused:

  • Sünteetilistel andmetel koolitatud mudelid võrreldes algandmetel koolitatud mudelitega näitavad väga sarnast jõudlust
  • Klassikaliste anonüümsemistehnikatega anonüümsetele andmetele koolitatud mudelid näitavad kehvemat jõudlust võrreldes mudelitega, mis on treenitud algandmete või sünteetiliste andmete põhjal
  • Sünteetiliste andmete genereerimine on lihtne ja kiire, kuna tehnika töötab iga andmestiku ja andmetüübi kohta täpselt samamoodi.

Väärtust lisavad sünteetiliste andmete kasutusjuhtumid

Kasutusjuht 1: sünteetilised andmed mudeli arendamiseks ja täiustatud analüütikaks

Mudelite (nt armatuurlauad [BI] ja täiustatud analüütika [AI ja ML]) väljatöötamiseks on oluline omada tugevat andmebaasi ning hõlpsat ja kiiret juurdepääsu kasutatavatele kvaliteetsetele andmetele. Paljud organisatsioonid kannatavad aga ebaoptimaalse andmebaasi all, mille tulemuseks on kolm peamist väljakutset:

  • Andmetele juurdepääsu saamine võtab aega (privaatsus) eeskirjade, sisemiste protsesside või andmesilode tõttu
  • Klassikalised anonüümsustehnikad hävitavad andmed, mistõttu need ei sobi enam analüüsiks ja täiustatud analüüsiks (prügi sisse = prügi välja)
  • Olemasolevad lahendused ei ole skaleeritavad, kuna need töötavad andmestiku ja andmetüübi lõikes erinevalt ega suuda käsitleda suuri mitme tabeliga andmebaase

Sünteetiliste andmete lähenemisviis: töötage välja sama heade kui tegelike sünteetiliste andmetega mudelid, et:

  • Minimeerige algsete andmete kasutamist, ilma et see takistaks teie arendajaid
  • Avage isikuandmed ja pääsete juurde rohkematele andmetele, mis olid varem piiratud (nt privaatsuse tõttu)
  • Lihtne ja kiire juurdepääs asjakohastele andmetele
  • Skaleeritav lahendus, mis töötab sama iga andmestiku, andmetüübi ja suurte andmebaaside puhul

See võimaldab organisatsioonil luua tugeva andmebaasi lihtsa ja kiire juurdepääsuga kasutatavatele kvaliteetsetele andmetele andmete avamiseks ja andmevõimaluste ärakasutamiseks.

 

2. kasutusjuhtum: nutikad sünteetilised testiandmed tarkvara testimiseks, arendamiseks ja tarnimiseks

Kvaliteetsete testandmetega testimine ja arendus on tipptasemel tarkvaralahenduste pakkumiseks hädavajalik. Algsete tootmisandmete kasutamine tundub ilmselge, kuid (privaatsus)reeglite tõttu pole see lubatud. Alternatiivne Test Data Management (TDM) tööriistad tutvustavadlegacy-by-design” testiandmete õigeks muutmisel:

  • Ei kajasta tootmisandmeid ning äriloogika ja viiteterviklikkus ei ole säilinud
  • Töö aeglane ja aeganõudev
  • Vajalik on käsitsitöö

Sünteetiliste andmete lähenemisviis: testige ja arendage tehisintellekti loodud sünteetiliste testandmetega, et pakkuda nüüdisaegseid tarkvaralahendusi nutikalt koos:

  • Tootmislaadsed andmed, millel on säilinud äriloogika ja viidete terviklikkus
  • Lihtne ja kiire andmete genereerimine kaasaegse AI abil
  • Privaatsus disaini järgi
  • Lihtne, kiire ja agile

See võimaldab organisatsioonil testida ja arendada järgmise taseme testandmetega, et pakkuda tipptasemel tarkvaralahendusi!

Rohkem informatsiooni

Kas olete huvitatud? Sünteetiliste andmete kohta lisateabe saamiseks külastage Syntho veebisaiti või võtke ühendust Wim Kees Jansseniga. SAS-i kohta lisateabe saamiseks külastage www.sas.com või võtke ühendust kees@syntho.ai.

Sel juhul töötavad Syntho, SAS ja NL AIC kavandatud tulemuste saavutamiseks koos. Syntho on tehisintellektiga loodud sünteetiliste andmete ekspert ning SAS on analüütika turuliider ning pakub tarkvara andmete uurimiseks, analüüsimiseks ja visualiseerimiseks.

* Prognoosid 2021. aastaks – andme- ja analüüsistrateegiad digitaalse äri juhtimiseks, skaleerimiseks ja ümberkujundamiseks, Gartner, 2020.

süntojuhiku kate

Salvestage oma sünteetiliste andmete juhend kohe!