Què són les dades sintètiques?
La resposta és relativament senzilla. Mentre que les dades originals es recullen en totes les vostres interaccions amb persones reals (per exemple, clients, pacients, empleats, etc.) i mitjançant tots els vostres processos interns, les dades sintètiques es generen mitjançant un algorisme informàtic. Aquest algorisme informàtic genera punts de dades completament nous i artificials.
Resoldre els reptes de privadesa de dades
Les dades generades sintèticament consisteixen en punts de dades completament nous i artificials sense relacions un a un amb les dades originals. Per tant, cap dels punts de dades sintètics es pot rastrejar o fer enginyeria inversa a les dades originals. Com a resultat, les dades sintètiques estan exemptes de les regulacions de privadesa, com ara el GDPR, i serveixen com a solució per resoldre i superar els reptes de privadesa de les dades.
Augmentar i simular
L'aspecte generatiu de la generació de dades sintètiques permet augmentar i simular dades completament noves. Això funciona com a solució quan no teniu prou dades (escassetat de dades), us agradaria fer una mostra de casos extrems o quan encara no teniu dades.
Aquí, el focus de Syntho són les dades estructurades (dades formatades en taules que contenen files i columnes, com es veu en fulls Excel), però sempre ens agrada il·lustrar el concepte de dades sintètiques mitjançant imatges, perquè és més atractiu.
Existeixen tres tipus de dades sintètiques dins del paraigua de dades sintètiques. Aquests 3 tipus de dades sintètiques són: dades simulades, dades sintètiques generades basades en regles i dades sintètiques generades per intel·ligència artificial (IA). Explicarem breument quins són els 3 tipus diferents de dades sintètiques.
Les dades simulades són dades generades aleatòriament (per exemple, per un generador de dades simulades).
En conseqüència, les característiques, relacions i patrons estadístics que es troben a les dades originals no es conserven, capturen i reprodueixen en les dades simulades generades. Per tant, la representativitat de les dades simulades / dades simulades és mínima en comparació amb les dades originals.
Les dades sintètiques generades basades en regles són dades sintètiques generades per un conjunt de regles predefinit. Alguns exemples d'aquestes regles predefinides poden ser que us agradaria tenir dades sintètiques amb un valor mínim, un valor màxim o un valor mitjà determinats. Qualsevol de les característiques, relacions i patrons estadístics, que voldríeu reproduir a les dades sintètiques generades basades en regles, s'han de definir prèviament.
En conseqüència, la qualitat de les dades serà tan bona com el conjunt de regles predefinits. Això comporta reptes quan l'alta qualitat de les dades és essencial. En primer lloc, només es pot definir un conjunt limitat de regles que s'han de capturar a les dades sintètiques. A més, la configuració de diverses regles normalment donarà lloc a regles superposades i conflictives. A més, mai no cobriràs totes les regles rellevants. A més, pot haver-hi regles rellevants de les quals ni tan sols coneixeu. I finalment (i per no oblidar-ho), això us portarà molt de temps i energia resultant en una solució poc eficient.
Com espereu del nom, les dades sintètiques generades per la intel·ligència artificial (IA) són dades sintètiques generades per un algorisme d'intel·ligència artificial (IA). El model d'IA s'entrena amb les dades originals per conèixer totes les característiques, relacions i patrons estadístics. A partir de llavors, aquest algorisme d'IA és capaç de generar punts de dades completament nous i modelar aquests nous punts de dades de manera que reprodueixi les característiques, les relacions i els patrons estadístics del conjunt de dades original. Això és el que anomenem un bessó de dades sintètics.
El model d'IA imita les dades originals per generar bessons de dades sintètiques que es poden utilitzar com si fossin dades originals. Això desbloqueja diversos casos d'ús en què les dades sintètiques generades per IA es poden utilitzar com a alternativa per utilitzar dades originals (sensibles), com ara l'ús de dades sintètiques generades per IA com a dades de prova, dades de demostració o per a analítiques.
En comparació amb les dades sintètiques generades basades en regles: en comptes d'estudiar i definir regles rellevants, l'algoritme d'IA ho fa automàticament. Aquí no només es tractaran característiques, relacions i patrons estadístics que coneixeu, sinó que també es tractaran característiques, relacions i patrons estadístics que ni tan sols coneixeu.
Depenent del vostre cas d'ús, es recomana una combinació de dades simulades/dades simulades, dades sintètiques generades basades en regles o dades sintètiques generades per intel·ligència artificial (IA). Aquesta visió general us proporciona una primera indicació del tipus de dades sintètiques que heu d'utilitzar. Com que Syntho els admet tots, no dubteu a contactar amb els nostres experts per aprofundir en el vostre cas d'ús amb nosaltres.