Què són les dades sintètiques?

Dades sintètiques d'un curs intens

 

 

introducció

Què són les dades sintètiques?

La resposta és relativament senzilla. Mentre que les dades originals es recullen en totes les vostres interaccions amb persones reals (per exemple, clients, pacients, empleats, etc.) i mitjançant tots els vostres processos interns, les dades sintètiques es generen mitjançant un algorisme informàtic. Aquest algorisme informàtic genera punts de dades completament nous i artificials.

Resoldre els reptes de privadesa de dades

Les dades generades sintèticament consisteixen en punts de dades completament nous i artificials sense relacions un a un amb les dades originals. Per tant, cap dels punts de dades sintètics es pot rastrejar o fer enginyeria inversa a les dades originals. Com a resultat, les dades sintètiques estan exemptes de les regulacions de privadesa, com ara el GDPR, i serveixen com a solució per resoldre i superar els reptes de privadesa de les dades.

Augmentar i simular

L'aspecte generatiu de la generació de dades sintètiques permet augmentar i simular dades completament noves. Això funciona com a solució quan no teniu prou dades (escassetat de dades), us agradaria fer una mostra de casos extrems o quan encara no teniu dades.

Aquí, el focus de Syntho són les dades estructurades (dades formatades en taules que contenen files i columnes, com es veu en fulls Excel), però sempre ens agrada il·lustrar el concepte de dades sintètiques mitjançant imatges, perquè és més atractiu.

Tipus de dades sintètiques

Existeixen tres tipus de dades sintètiques dins del paraigua de dades sintètiques. Aquests 3 tipus de dades sintètiques són: dades simulades, dades sintètiques generades basades en regles i dades sintètiques generades per intel·ligència artificial (IA). Explicarem breument quins són els 3 tipus diferents de dades sintètiques.

Dades simulades / dades simulades

Les dades simulades són dades generades aleatòriament (per exemple, per un generador de dades simulades).

En conseqüència, les característiques, relacions i patrons estadístics que es troben a les dades originals no es conserven, capturen i reprodueixen en les dades simulades generades. Per tant, la representativitat de les dades simulades / dades simulades és mínima en comparació amb les dades originals.

  • Quan utilitzar-lo: per substituir els identificadors directes (PII) o quan no disposeu de dades (encara) i no voleu dedicar temps i energia a definir regles.

Dades sintètiques generades basades en regles

Les dades sintètiques generades basades en regles són dades sintètiques generades per un conjunt de regles predefinit. Alguns exemples d'aquestes regles predefinides poden ser que us agradaria tenir dades sintètiques amb un valor mínim, un valor màxim o un valor mitjà determinats. Qualsevol de les característiques, relacions i patrons estadístics, que voldríeu reproduir a les dades sintètiques generades basades en regles, s'han de definir prèviament.

En conseqüència, la qualitat de les dades serà tan bona com el conjunt de regles predefinits. Això comporta reptes quan l'alta qualitat de les dades és essencial. En primer lloc, només es pot definir un conjunt limitat de regles que s'han de capturar a les dades sintètiques. A més, la configuració de diverses regles normalment donarà lloc a regles superposades i conflictives. A més, mai no cobriràs totes les regles rellevants. A més, pot haver-hi regles rellevants de les quals ni tan sols coneixeu. I finalment (i per no oblidar-ho), això us portarà molt de temps i energia resultant en una solució poc eficient.

  • Quan utilitzar-lo: quan no tens dades (encara)

Dades sintètiques generades per intel·ligència artificial (IA)

Com espereu del nom, les dades sintètiques generades per la intel·ligència artificial (IA) són dades sintètiques generades per un algorisme d'intel·ligència artificial (IA). El model d'IA s'entrena amb les dades originals per conèixer totes les característiques, relacions i patrons estadístics. A partir de llavors, aquest algorisme d'IA és capaç de generar punts de dades completament nous i modelar aquests nous punts de dades de manera que reprodueixi les característiques, les relacions i els patrons estadístics del conjunt de dades original. Això és el que anomenem un bessó de dades sintètics.

El model d'IA imita les dades originals per generar bessons de dades sintètiques que es poden utilitzar com si fossin dades originals. Això desbloqueja diversos casos d'ús en què les dades sintètiques generades per IA es poden utilitzar com a alternativa per utilitzar dades originals (sensibles), com ara l'ús de dades sintètiques generades per IA com a dades de prova, dades de demostració o per a analítiques.

Una visualització de com es creen les dades sintètiques

En comparació amb les dades sintètiques generades basades en regles: en comptes d'estudiar i definir regles rellevants, l'algoritme d'IA ho fa automàticament. Aquí no només es tractaran característiques, relacions i patrons estadístics que coneixeu, sinó que també es tractaran característiques, relacions i patrons estadístics que ni tan sols coneixeu.

  • Quan utilitzar-lo: quan teniu (algunes) dades com a entrada per imitar o per utilitzar-les com a punt de partida per a funcions intel·ligents de generació i augment de dades

Quin tipus de dades sintètiques utilitzar?

Depenent del vostre cas d'ús, es recomana una combinació de dades simulades/dades simulades, dades sintètiques generades basades en regles o dades sintètiques generades per intel·ligència artificial (IA). Aquesta visió general us proporciona una primera indicació del tipus de dades sintètiques que heu d'utilitzar. Com que Syntho els admet tots, no dubteu a contactar amb els nostres experts per aprofundir en el vostre cas d'ús amb nosaltres.

Aquest gràfic presenta diferents tipus de dades sintètiques

coberta de guia sintètica

Desa la teva guia de dades sintètiques ara!