FAQ

Preguntes freqüents sobre dades sintètiques

Comprensible! Per sort, tenim les respostes i estem aquí per ajudar. Consulteu les nostres preguntes més freqüents.

Obriu una pregunta a continuació i feu clic als enllaços per trobar més informació. Tens una pregunta més complicada que no s'indica aquí? Pregunta directament als nostres experts!

Les preguntes més fetes

Les dades sintètiques es refereixen a dades que es generen artificialment en lloc de recopilar-se de fonts del món real. En general, mentre que les dades originals es recullen en totes les vostres interaccions amb persones (clients, pacients, etc.) i mitjançant tots els vostres processos interns, les dades sintètiques es generen mitjançant un algorisme informàtic.

Les dades sintètiques també es poden utilitzar per provar i avaluar models en un entorn controlat, o per protegir la informació sensible generant dades similars a les del món real però que no contenen cap informació sensible. Les dades sintètiques s'utilitzen sovint com a alternativa per a les dades sensibles a la privadesa i es poden utilitzar com a dades de prova, per a analítiques o per entrenar l'aprenentatge automàtic.

Llegeix més

Garantir que les dades sintètiques tinguin la mateixa qualitat de dades que les dades originals pot ser un repte, i sovint depèn del cas d'ús específic i dels mètodes utilitzats per generar les dades sintètiques. Alguns mètodes per generar dades sintètiques, com ara els models generatius, poden produir dades molt semblants a les dades originals. Pregunta clau: com demostrar-ho?

Hi ha algunes maneres de garantir la qualitat de les dades sintètiques:

  • Mètriques de qualitat de les dades mitjançant el nostre informe de qualitat de les dades: una manera de garantir que les dades sintètiques tinguin la mateixa qualitat de dades que les dades originals és utilitzar mètriques de qualitat de les dades per comparar les dades sintètiques amb les dades originals. Aquestes mètriques es poden utilitzar per mesurar coses com la similitud, la precisió i la integritat de les dades. El programari Synth incloïa un informe de qualitat de les dades amb diverses mètriques de qualitat de les dades.
  • Avaluació externa: com que la qualitat de les dades de les dades sintètiques en comparació amb les dades originals és clau, recentment hem fet una avaluació amb els experts en dades de SAS (líder del mercat en analítica) per demostrar la qualitat de les dades de les dades sintètiques de Syntho en comparació amb les dades reals. Edwin van Unen, expert en anàlisi de SAS, va avaluar els conjunts de dades sintètiques generats per Syntho mitjançant diverses avaluacions d'anàlisi (AI) i va compartir els resultats. Mira un breu resum d'aquest vídeo aquí.
  • Prova i avaluació per tu mateix: les dades sintètiques es poden provar i avaluar comparant-les amb dades del món real o utilitzant-les per entrenar models d'aprenentatge automàtic i comparant-ne el rendiment amb models entrenats amb dades del món real. Per què no provar tu mateix la qualitat de les dades de les dades sintètiques? Pregunteu als nostres experts les possibilitats d'això aquí

És important tenir en compte que les dades sintètiques mai poden garantir que siguin 100% semblants a les dades originals, però poden ser prou a prop per ser útils per a un cas d'ús específic. Aquest cas d'ús específic pot ser fins i tot anàlisis avançades o models d'aprenentatge automàtic d'entrenament.

L'"anonimització" clàssica no sempre és la millor solució, perquè:

  1. Risc de privadesa - sempre ho tindràs
    un risc de privadesa. Aplicant-los
    tècniques clàssiques d’anonimització
    només ho fa més difícil, però no
    impossible identificar persones.
  2. Destruint dades - Com més tu
    anònim, millor protegiràs
    la teva privadesa, però com més tu
    destrueix les teves dades. Això no és el que
    vols per a l'anàlisi, perquè
    les dades destruïdes resultaran dolentes
    coneixements.
  3. Es requereix temps -és una solució
    això porta molt de temps, perquè
    aquestes tècniques funcionen de manera diferent
    per conjunt de dades i per tipus de dades.

Les dades sintètiques pretenen resoldre totes aquestes mancances. La diferència és tan sorprenent que en vam fer un vídeo. Mireu aquí.

Preguntes freqüents

Dades sintètiques

En general, la majoria dels nostres clients utilitzen dades sintètiques per a:

  • Prova i desenvolupament de programari
  • Dades sintètiques per a l'anàlisi, desenvolupament de models i anàlisi avançada (AI i ML)
  • Demostracions de productes

Llegeix més i explora casos d'ús.

Un bessó de dades sintètics és una rèplica generada per algorisme d'un conjunt de dades i/o base de dades del món real. Amb un Synthetic Data Twin, Syntho pretén imitar un conjunt de dades o una base de dades originals el més a prop possible de les dades originals per crear una representació realista de l'original. Amb un bessó de dades sintètiques, pretenem obtenir una qualitat superior de dades sintètiques en comparació amb les dades originals. Ho fem amb el nostre programari de dades sintètiques que utilitza models d'IA d'última generació. Aquests models d'IA generen punts de dades completament nous i els modelen de tal manera que conservem les característiques, les relacions i els patrons estadístics de les dades originals fins a tal punt que les podeu utilitzar com si fossin dades originals.

Això es pot utilitzar per a diversos propòsits, com ara provar i entrenar models d'aprenentatge automàtic, simular escenaris per a la recerca i el desenvolupament i crear entorns virtuals per a la formació i l'educació. Els bessons de dades sintètiques es poden utilitzar per crear dades realistes i representatives que es poden utilitzar en lloc de dades del món real quan no estan disponibles o quan l'ús de les dades del món real seria poc pràctic o poc ètic a causa de les estrictes regulacions de privadesa de dades.

Llegir més.

Sí que ho fem. Oferim diverses funcions d'optimització i augment de dades sintètiques de valor afegit, incloses les mockers, per portar les vostres dades al següent nivell.

Llegir més.

Les dades simulades i les dades sintètiques generades per IA són tots dos tipus de dades sintètiques, però es generen de diferents maneres i tenen diferents finalitats.

Les dades simulades són un tipus de dades sintètiques que es creen manualment i que sovint s'utilitzen amb finalitats de prova i desenvolupament. Normalment s'utilitza per simular el comportament de les dades del món real en un entorn controlat i sovint s'utilitza per provar la funcionalitat d'un sistema o aplicació. Sovint és senzill, fàcil de generar i no requereix models o algorismes complexos. Sovint, també es fa referència a dades simulades com a "dades falses" o "dades falses".

Les dades sintètiques generades per IA, en canvi, es generen mitjançant tècniques d'intel·ligència artificial, com ara l'aprenentatge automàtic o els models generatius. S'utilitza per crear dades realistes i representatives que es poden utilitzar en lloc de dades del món real quan l'ús de les dades del món real seria poc pràctic o poc ètic a causa de les estrictes regulacions de privadesa. Sovint és més complex i requereix més recursos computacionals que les dades simulades manuals. Com a resultat, és molt més realista i imita les dades originals el més a prop possible.

En resum, les dades simulades es creen manualment i s'utilitzen normalment per a proves i desenvolupament, mentre que les dades sintètiques generades per IA es creen mitjançant tècniques d'intel·ligència artificial i s'utilitzen per crear dades representatives i realistes.

Més preguntes? Pregunteu als nostres experts

Qualitat de les dades

Garantir que les dades sintètiques tinguin la mateixa qualitat de dades que les dades originals pot ser un repte, i sovint depèn del cas d'ús específic i dels mètodes utilitzats per generar les dades sintètiques. Alguns mètodes per generar dades sintètiques, com ara els models generatius, poden produir dades molt semblants a les dades originals. Pregunta clau: com demostrar-ho?

Hi ha algunes maneres de garantir la qualitat de les dades sintètiques:

  • Mètriques de qualitat de les dades mitjançant el nostre informe de qualitat de les dades: una manera de garantir que les dades sintètiques tinguin la mateixa qualitat de dades que les dades originals és utilitzar mètriques de qualitat de les dades per comparar les dades sintètiques amb les dades originals. Aquestes mètriques es poden utilitzar per mesurar coses com la similitud, la precisió i la integritat de les dades. El programari Synth incloïa un informe de qualitat de les dades amb diverses mètriques de qualitat de les dades.
  • Avaluació externa: com que la qualitat de les dades de les dades sintètiques en comparació amb les dades originals és clau, recentment hem fet una avaluació amb els experts en dades de SAS (líder del mercat en analítica) per demostrar la qualitat de les dades de les dades sintètiques de Syntho en comparació amb les dades reals. Edwin van Unen, expert en anàlisi de SAS, va avaluar els conjunts de dades sintètiques generats per Syntho mitjançant diverses avaluacions d'anàlisi (AI) i va compartir els resultats. Mira un breu resum d'aquest vídeo aquí.
  • Prova i avaluació per tu mateix: les dades sintètiques es poden provar i avaluar comparant-les amb dades del món real o utilitzant-les per entrenar models d'aprenentatge automàtic i comparant-ne el rendiment amb models entrenats amb dades del món real. Per què no provar tu mateix la qualitat de les dades de les dades sintètiques? Pregunteu als nostres experts les possibilitats d'això aquí

És important tenir en compte que les dades sintètiques mai poden garantir que siguin 100% semblants a les dades originals, però poden ser prou a prop per ser útils per a un cas d'ús específic. Aquest cas d'ús específic pot ser fins i tot anàlisis avançades o models d'aprenentatge automàtic d'entrenament.

Sí, ho és. Les dades sintètiques fins i tot contenen patrons dels quals no sabíeu que estaven presents a les dades originals.

Però no només ens creguis la paraula. Els experts en anàlisi de SAS (líder global del mercat en anàlisi) van fer una avaluació (AI) de les nostres dades sintètiques i les van comparar amb les dades originals. Curiositat? Mira el tot l'esdeveniment aquí o mira la versió curta sobre qualitat de les dades aquí.

Sí que ho fem. La nostra plataforma està optimitzada per a bases de dades i, en conseqüència, per a la preservació de la integritat referencial entre conjunts de dades de la base de dades.

Tens curiositat per saber més sobre això?

Pregunteu directament als nostres experts.

intimitat

No, nosaltres no. Podem implementar fàcilment el Syntho Engine on-premise o al vostre núvol privat mitjançant Docker.

No. Hem optimitzat la nostra plataforma de manera que es pugui implementar fàcilment en l'entorn de confiança del client. Això garanteix que les dades mai sortiran de l'entorn de confiança del client. Les opcions de desplegament per a l'entorn de confiança del client són "on-premise" i "en l'entorn de núvol del client (núvol privat)".

Opcional: Syntho admet una versió allotjada al "núvol Syntho".

No. El Syntho Engine és una plataforma d'autoservei. Com a resultat, la generació de dades sintètiques amb el motor Syntho és possible d'una manera que en el end-to-end procés, Syntho mai pot veure i mai no requereix que processi les dades.

Sí, ho fem mitjançant el nostre informe de control de qualitat.

 

Quan es sintetitza un conjunt de dades, és essencial demostrar que no és capaç de tornar a identificar les persones. En aquest video, Marijn introdueix mesures de privadesa que es troben al nostre informe de qualitat per demostrar-ho.

L'informe de control de qualitat de Syntho en conté tres estàndard de la indústria mètriques per avaluar la privadesa de les dades. La idea darrere de cadascuna d'aquestes mètriques és la següent:

  • Dades sintètiques (S) ha d'estar "el més a prop possible", però "no massa a prop" de les dades de destinació (T).
  • Dades de retenció seleccionades aleatòriament (H) determina el punt de referència per a "massa a prop".
  • A solució perfecta genera dades sintètiques noves que es comporten exactament com les dades originals, però que no s'han vist abans (= H).

Un dels casos d'ús que l'Autoritat holandesa de protecció de dades destaca específicament és l'ús de dades sintètiques com a dades de prova.

Es pot trobar més informació en aquest article.

Motor sintètic

El Syntho Engine s'envia en un contenidor Docker i es pot desplegar i connectar fàcilment a l'entorn que escolliu.

Les opcions de desplegament possibles inclouen:

  • Presencial
  • Qualsevol núvol (privat).
  • Qualsevol altre entorn

Llegeix més.

Syntho us permet connectar fàcilment amb les vostres bases de dades, aplicacions, canalitzacions de dades o sistemes de fitxers. 

Admetem diversos connectors integrats perquè pugueu connectar-vos amb l'entorn d'origen (on s'emmagatzemen les dades originals) i l'entorn de destinació (on voleu escriure les vostres dades sintètiques) end-to-end enfocament integrat.

Funcions de connexió que admetem:

  • Connecta i juga amb Docker
  • Més de 20 connectors de bases de dades
  • Més de 20 connectors del sistema de fitxers

Llegeix més.

Naturalment, el temps de generació depèn de la mida de la base de dades. De mitjana, una taula amb menys d'1 milió de registres es sintetitza en menys de 5 minuts.

Els algorismes d'aprenentatge automàtic de Syntho poden generalitzar millor les funcions amb més registres d'entitats disponibles, la qual cosa disminueix el risc de privadesa. Es recomana una relació columna-fila mínima d'1:500. Per exemple, si la taula d'origen té 6 columnes, hauria de contenir un mínim de 3000 files.

No del tot. Encara que pot ser necessari un esforç per entendre completament els avantatges, el funcionament i els casos d'ús de les dades sintètiques, el procés de síntesi és molt senzill i qualsevol persona amb coneixements informàtics bàsics pot fer-ho. Per obtenir més informació sobre el procés de síntesi, consulteu aquesta pàgina or demanar una demostració.

El Syntho Engine funciona millor amb dades tabulars estructurades (qualsevol cosa que contingui files i columnes). Dins d'aquestes estructures, admetem els tipus de dades següents:

  • Estructura les dades formatades en taules (categòriques, numèriques, etc.)
  • Identificadors directes i PII
  • Grans conjunts de dades i bases de dades
  • Dades d'ubicació geogràfica (com ara GPS)
  • Dades de sèrie temporal
  • Bases de dades multitaules (amb integritat referencial)
  • Dades de text obertes

 

Suport de dades complexes
Al costat de tots els tipus habituals de dades tabulars, el Syntho Engine admet tipus de dades complexos i estructures de dades complexes.

  • Sèries temporals
  • Bases de dades multitaules
  • Obrir text

Llegeix més.

No, hem optimitzat la nostra plataforma per minimitzar els requisits de càlcul (per exemple, no es requereix GPU), sense comprometre la precisió de les dades. A més, admetem l'escalat automàtic, de manera que es poden sintetitzar grans bases de dades.

Sí. El programari Syntho està optimitzat per a bases de dades que contenen diverses taules.

Pel que fa a això, Syntho detecta automàticament els tipus de dades, esquemes i formats per maximitzar la precisió de les dades. Per a la base de dades multitaules, admetem la inferència i la síntesi automàtiques de relacions de taules per preservar la integritat referencial.

grup de gent somrient

Les dades són sintètiques, però el nostre equip és real!

Poseu-vos en contacte amb Syntho i un dels nostres experts es posarà en contacte amb vostè a la velocitat de la llum per explorar el valor de les dades sintètiques.