Date sintetice generate de AI, acces ușor și rapid la date de înaltă calitate?

AI a generat date sintetice în practică

Syntho, un expert în date sintetice generate de AI, își propune să se întoarcă privacy by design într-un avantaj competitiv cu date sintetice generate de AI. Ele ajută organizațiile să construiască o bază de date puternică, cu acces ușor și rapid la date de înaltă calitate și au câștigat recent premiul Philips pentru inovație.

Cu toate acestea, generarea de date sintetice cu AI este o soluție relativ nouă, care introduce de obicei întrebări frecvente. Pentru a răspunde la acestea, Syntho a început un studiu de caz împreună cu SAS, lider de piață în Advanced Analytics și software AI.

În colaborare cu Dutch AI Coalition (NL AIC), ei au investigat valoarea datelor sintetice prin compararea datelor sintetice generate de AI generate de Syntho Engine cu datele originale prin diferite evaluări privind calitatea datelor, validitatea legală și capacitatea de utilizare.

Anonimizarea datelor nu este o soluție?

Tehnicile clasice de anonimizare au în comun faptul că manipulează datele originale pentru a împiedica urmărirea indivizilor. Exemple sunt generalizarea, suprimarea, ștergerea, pseudonimizarea, mascarea datelor și amestecarea rândurilor și coloanelor. Puteți găsi exemple în tabelul de mai jos.

anonimizarea datelor

Aceste tehnici introduc 3 provocări cheie:

  1. Ele funcționează diferit în funcție de tipul de date și de set de date, ceea ce le face greu de scalat. În plus, deoarece funcționează diferit, va exista întotdeauna o dezbatere despre ce metode să aplice și ce combinație de tehnici sunt necesare.
  2. Există întotdeauna o relație unu-la-unu cu datele originale. Aceasta înseamnă că va exista întotdeauna un risc de confidențialitate, în special datorită tuturor seturilor de date deschise și tehnicilor disponibile pentru a lega acele seturi de date.
  3. Ei manipulează datele și, prin urmare, distrug datele în proces. Acest lucru este deosebit de devastator pentru sarcinile AI în care „puterea predictivă” este esențială, deoarece datele de proastă calitate vor avea ca rezultat informații proaste din modelul AI (Garbage-in va duce la eliminarea gunoiului).

Aceste puncte sunt, de asemenea, evaluate prin intermediul acestui studiu de caz.

O introducere în studiul de caz

Pentru studiul de caz, setul de date țintă a fost un set de date de telecomunicații furnizat de SAS care conține datele a 56.600 de clienți. Setul de date conține 128 de coloane, inclusiv o coloană care indică dacă un client a părăsit compania (adică „s-a desființat”) sau nu. Scopul studiului de caz a fost acela de a folosi datele sintetice pentru a antrena unele modele pentru a prezice pierderea clienților și pentru a evalua performanța acelor modele instruite. Întrucât predicția de abandon este o sarcină de clasificare, SAS a selectat patru modele de clasificare populare pentru a face predicțiile, inclusiv:

  1. Padure aleatorie
  2. Creșterea gradientului
  3. Regresie logistică
  4. Retea neurala

Înainte de a genera datele sintetice, SAS a împărțit aleatoriu setul de date de telecomunicații într-un set de tren (pentru antrenamentul modelelor) și un set holdout (pentru notarea modelelor). Având un set separat de holdout pentru punctare, permite o evaluare imparțială a cât de bine ar putea funcționa modelul de clasificare atunci când este aplicat la date noi.

Folosind setul de tren ca intrare, Syntho a folosit motorul său Syntho pentru a genera un set de date sintetice. Pentru benchmarking, SAS a creat și o versiune manipulată a garniturii după aplicarea diferitelor tehnici de anonimizare pentru a atinge un anumit prag (de k-anonimitate). Primii pași au dus la patru seturi de date:

  1. Un set de date tren (adică setul de date original minus setul de date holdout)
  2. Un set de date holdout (adică un subset al setului de date original)
  3. Un set de date anonimizat (pe baza setului de date tren)
  4. Un set de date sintetice (bazat pe setul de date tren)

Seturile de date 1, 3 și 4 au fost utilizate pentru a antrena fiecare model de clasificare, rezultând 12 (3 x 4) modele antrenate. Ulterior, SAS a folosit setul de date holdout pentru a măsura acuratețea cu care fiecare model prezice pierderea clienților. Rezultatele sunt prezentate mai jos, începând cu câteva statistici de bază.

Conducta de învățare automată generată în SAS

Figura: Conducta de învățare automată generată în SAS Visual Data Mining și Machine Learning

Statistici de bază atunci când se compară datele anonimizate cu datele originale

Tehnicile de anonimizare distrug chiar și modelele de bază, logica de afaceri, relațiile și statisticile (ca în exemplul de mai jos). Utilizarea datelor anonimizate pentru analize de bază produce astfel rezultate nesigure. De fapt, calitatea slabă a datelor anonimizate a făcut aproape imposibilă utilizarea lor pentru sarcini de analiză avansate (de exemplu, modelare AI/ML și tablouri de bord).

compararea datelor anonimizate cu datele originale

Statistici de bază atunci când se compară datele sintetice cu datele originale

Generarea de date sintetice cu AI păstrează tiparele de bază, logica de afaceri, relațiile și statisticile (ca în exemplul de mai jos). Utilizarea datelor sintetice pentru analize de bază produce astfel rezultate fiabile. Întrebare cheie, datele sintetice sunt păstrate pentru sarcinile de analiză avansată (de exemplu, modelarea și tabloul de bord AI/ML)?

compararea datelor sintetice cu datele originale

Date sintetice generate de AI și analize avansate

Datele sintetice sunt valabile nu numai pentru modelele de bază (așa cum se arată în graficele anterioare), ele surprind și modele statistice profunde „ascunse” necesare pentru sarcinile de analiză avansate. Acesta din urmă este demonstrat în diagrama cu bare de mai jos, indicând faptul că acuratețea modelelor instruite pe date sintetice față de modelele antrenate pe date originale este similară. În plus, cu o zonă sub curbă (AUC*) apropiată de 0.5, modelele antrenate pe date anonimizate au rezultate de departe cele mai proaste. Raportul complet cu toate evaluările analitice avansate privind datele sintetice în comparație cu datele originale este disponibil la cerere.

*AUC: aria de sub curbă este o măsură pentru acuratețea modelelor de analiză avansată, luând în considerare pozitive adevărate, pozitive false, negative false și negative adevărate. 0,5 înseamnă că un model prezice aleatoriu și nu are putere de predicție și 1 înseamnă că modelul este întotdeauna corect și are putere de predicție deplină.

În plus, aceste date sintetice pot fi folosite pentru a înțelege caracteristicile datelor și principalele variabile necesare pentru formarea efectivă a modelelor. Intrările selectate de algoritmi asupra datelor sintetice în comparație cu datele originale au fost foarte asemănătoare. Prin urmare, procesul de modelare se poate face pe această versiune sintetică, ceea ce reduce riscul de încălcare a datelor. Cu toate acestea, atunci când se deduce înregistrările individuale (de exemplu, clientul telecom), se recomandă recalificarea datelor originale pentru explicabilitate, acceptare sporită sau doar din cauza reglementărilor.                              

AUC după algoritm grupat după Metodă

ASC

Concluzii:

  • Modelele instruite pe date sintetice în comparație cu modelele antrenate pe date originale prezintă performanțe foarte similare
  • Modelele instruite pe date anonimizate cu „tehnici clasice de anonimizare” arată performanțe inferioare în comparație cu modelele antrenate pe datele originale sau datele sintetice
  • Generarea de date sintetice este ușoară și rapidă, deoarece tehnica funcționează exact la fel pe set de date și pe tip de date.

Cazuri de utilizare a datelor sintetice cu valoare adăugată

Cazul de utilizare 1: Date sintetice pentru dezvoltarea modelului și analiză avansată

A avea o bază de date puternică, cu acces ușor și rapid la date utilizabile și de înaltă calitate este esențială pentru dezvoltarea modelelor (de exemplu, tablouri de bord [BI] și analiză avansată [AI și ML]). Cu toate acestea, multe organizații suferă de o bază de date suboptimă, ceea ce duce la 3 provocări cheie:

  • Obținerea accesului la date necesită vârste datorate reglementărilor (confidențialității), proceselor interne sau silozurilor de date
  • Tehnicile clasice de anonimizare distrug datele, ceea ce face ca datele să nu mai fie adecvate pentru analiză și analiză avansată (gunoi intră = gunoi ieșit)
  • Soluțiile existente nu sunt scalabile, deoarece funcționează diferit pe set de date și pe tip de date și nu pot gestiona baze de date mari cu mai multe tabele

Abordarea datelor sintetice: dezvoltați modele cu date sintetice la fel de bune ca și reale pentru:

  • Reduceți la minimum utilizarea datelor originale, fără a vă împiedica dezvoltatorii
  • Deblocați datele personale și aveți acces la mai multe date care au fost restricționate anterior (de exemplu, din cauza confidențialității)
  • Acces ușor și rapid la date la date relevante
  • Soluție scalabilă care funcționează la fel pentru fiecare set de date, tipuri de date și pentru baze de date masive

Acest lucru permite organizației să construiască o bază de date puternică, cu acces ușor și rapid la date utilizabile, de înaltă calitate, pentru a debloca datele și pentru a valorifica oportunitățile de date.

 

Cazul de utilizare 2: date de testare sintetice inteligente pentru testarea, dezvoltarea și livrarea software-ului

Testarea și dezvoltarea cu date de testare de înaltă calitate este esențială pentru a oferi soluții software de ultimă generație. Utilizarea datelor originale de producție pare evidentă, dar nu este permisă din cauza reglementărilor (de confidențialitate). Alternativă Test Data Management instrumentele (TDM) introduc „legacy-by-design” în obținerea corectă a datelor de testare:

  • Nu reflectă datele de producție și logica de afaceri și integritatea referențială nu sunt păstrate
  • Lucrați lent și consumatoare de timp
  • Este necesară munca manuală

Abordarea datelor sintetice: testați și dezvoltați cu date de testare sintetice generate de AI pentru a oferi soluții software de ultimă generație, inteligente cu:

  • Date asemănătoare producției, cu logica de afaceri păstrată și integritate referențială
  • Generare de date ușoară și rapidă cu AI de ultimă generație
  • Confidențialitate prin proiectare
  • Ușor, rapid și agile

Acest lucru permite organizației să testeze și să dezvolte cu date de testare de nivel următor pentru a oferi soluții software de ultimă generație!

Mai multe informatii

Interesat? Pentru mai multe informații despre datele sintetice, vizitați site-ul web Syntho sau contactați Wim Kees Janssen. Pentru mai multe informații despre SAS, vizitați www.sas.com sau contactați kees@syntho.ai.

În acest caz de utilizare, Syntho, SAS și NL AIC lucrează împreună pentru a obține rezultatele dorite. Syntho este un expert în date sintetice generate de AI, iar SAS este lider de piață în analiză și oferă software pentru explorarea, analizarea și vizualizarea datelor.

* Predicții 2021 – Strategii de date și analize pentru guvernarea, scalarea și transformarea afacerilor digitale, Gartner, 2020.

capac ghidaj syntho

Salvați ghidul de date sintetice acum!