Ce sunt datele sintetice?

Un curs intensiv de date sintetice

 

 

Introducere

Ce sunt datele sintetice?

Răspunsul este relativ simplu. În timp ce datele originale sunt colectate în toate interacțiunile dumneavoastră cu persoane reale (de exemplu clienți, pacienți, angajați etc.) și prin toate procesele dumneavoastră interne, datele sintetice sunt generate de un algoritm computerizat. Acest algoritm de computer generează puncte de date complet noi și artificiale.

Rezolvați provocările privind confidențialitatea datelor

Datele generate sintetic constau din puncte de date complet noi și artificiale, fără relații unu-la-unu cu datele originale. Prin urmare, niciunul dintre punctele de date sintetice nu poate fi urmărit înapoi sau proiectat invers la datele originale. Ca urmare, datele sintetice sunt scutite de reglementările privind confidențialitatea, cum ar fi GDPR și servesc drept soluție pentru a rezolva și depăși provocările legate de confidențialitatea datelor.

Măriți și simulați

Aspectul generativ al generării de date sintetice permite creșterea și simularea datelor complet noi. Acest lucru funcționează ca soluție atunci când nu aveți suficiente date (lipsa de date), doriți să eșantionați cazuri marginale sau când nu aveți încă date.

Aici, accentul Syntho este datele structurate (date formatate în tabele care conțin rânduri și coloane, așa cum vedeți într-o foaie Excel), dar ne place întotdeauna să ilustrăm conceptul de date sintetice prin imagini, deoarece este mai atrăgător.

Tipuri de date sintetice

În cadrul umbrelei de date sintetice există trei tipuri de date sintetice. Aceste 3 tipuri de date sintetice sunt: ​​date fictive, date sintetice generate pe bază de reguli și date sintetice generate de inteligența artificială (AI). Vă explicăm pe scurt care sunt cele 3 tipuri diferite de date sintetice.

Date simulate / date simulate

Datele fictive sunt date generate aleatoriu (de exemplu, de către un generator de date simulate).

În consecință, caracteristicile, relațiile și modelele statistice care se află în datele originale nu sunt păstrate, capturate și reproduse în datele fictive generate. Prin urmare, reprezentativitatea datelor fictive/date simulate este minimă în comparație cu datele originale.

  • Când să îl folosiți: pentru a înlocui identificatorii direcți (PII) sau când nu aveți date (încă) și nu doriți să petreceți timp și energie pentru definirea regulilor.

Date sintetice generate pe bază de reguli

Datele sintetice generate pe bază de reguli sunt date sintetice generate de un set predefinit de reguli. Exemple de reguli predefinite ar putea fi că ați dori să aveți date sintetice cu o anumită valoare minimă, valoare maximă sau valoare medie. Oricare dintre caracteristicile, relațiile și modelele statistice, pe care ați dori să le fi reproduse în datele sintetice generate pe bază de reguli, trebuie să fie predefinite.

În consecință, calitatea datelor va fi la fel de bună ca și setul de reguli predefinit. Acest lucru duce la provocări atunci când calitatea ridicată a datelor este esențială. În primul rând, se poate defini doar un set limitat de reguli care să fie captate în datele sintetice. În plus, stabilirea mai multor reguli va avea ca rezultat, de obicei, reguli suprapuse și conflictuale. În plus, nu vei acoperi niciodată pe deplin toate regulile relevante. În plus, ar putea exista reguli relevante de care nici măcar nu le cunoști. Și în sfârșit (și să nu uităm), acest lucru vă va lua mult timp și energie, rezultând o soluție neeficientă.

  • Când să-l folosești: când nu ai date (încă)

Date sintetice generate de inteligența artificială (AI)

După cum vă așteptați de la nume, datele sintetice generate de inteligența artificială (AI) sunt date sintetice generate de un algoritm de inteligență artificială (AI). Modelul AI este antrenat pe datele originale pentru a învăța toate caracteristicile, relațiile și modelele statistice. Ulterior, acest algoritm AI este capabil să genereze puncte de date complet noi și să modeleze acele noi puncte de date în așa fel încât să reproducă caracteristicile, relațiile și modelele statistice din setul de date original. Acesta este ceea ce numim un geamăn de date sintetice.

Modelul AI imită datele originale pentru a genera gemeni de date sintetice care pot fi utilizați ca și cum ar fi date originale. Acest lucru deblochează diverse cazuri de utilizare în care datele sintetice generate de AI pot fi folosite ca alternativă pentru utilizarea datelor originale (sensibile), cum ar fi utilizarea datelor sintetice generate de AI ca date de testare, date demonstrative sau pentru analiză.

O vizualizare a modului în care sunt create datele sintetice

În comparație cu datele sintetice generate pe bază de reguli: în loc să studiezi și să definești reguli relevante, algoritmul AI face acest lucru automat pentru tine. Aici vor fi acoperite nu numai caracteristicile, relațiile și modelele statistice de care cunoști, ci și caracteristicile, relațiile și modelele statistice de care nici măcar nu le cunoști.

  • Când să îl utilizați: când aveți (unele) date ca intrare pentru a imita sau pentru a le folosi ca punct de plecare pentru generarea de date inteligente și funcțiile de creștere

Ce tip de date sintetice să folosiți?

În funcție de cazul dvs. de utilizare, se recomandă o combinație de date fictive/date simulate, date sintetice generate pe bază de reguli sau date sintetice generate de inteligența artificială (AI). Această prezentare generală vă oferă o primă indicație asupra tipului de date sintetice pe care să îl utilizați. Întrucât Syntho le sprijină pe toate, nu ezitați să contactați experții noștri pentru a vă analiza în profunzime cazul de utilizare cu noi.

Acest grafic prezintă diferite tipuri de date sintetice

capac ghidaj syntho

Salvați ghidul de date sintetice acum!