Evaluación externa de nuestros datos sintéticos por parte de los expertos en datos de SAS

Nuestros datos sintéticos son evaluado y aprobado por los expertos en datos de SAS

Introducción a la evaluación externa de nuestros datos sintéticos por parte de los expertos en datos de SAS

¿Qué hicimos?

Los datos sintéticos generados por Syntho son evaluados, validados y aprobados desde un punto de vista externo y objetivo por los expertos en datos de SAS.

¿Por qué nuestros datos sintéticos son evaluados externamente por los expertos en datos de SAS?

Aunque Syntho se enorgullece de ofrecer a sus usuarios un informe avanzado de garantía de calidad, también entendemos la importancia de contar con una evaluación externa y objetiva de nuestros datos sintéticos por parte de los líderes de la industria. Por eso colaboramos con SAS, líder en análisis, para evaluar nuestros datos sintéticos.

SAS lleva a cabo varias evaluaciones exhaustivas sobre la precisión de los datos, la protección de la privacidad y la usabilidad de los datos sintéticos generados por la IA de Syntho en comparación con los datos originales. Como conclusión, SAS evaluó y aprobó los datos sintéticos de Syntho por ser precisos, seguros y utilizables en comparación con los datos originales.

¿Qué hizo SAS durante esta evaluación?

Utilizamos datos de telecomunicaciones que se utilizan para la predicción de "abandono" como datos objetivo. El objetivo de la evaluación era utilizar datos sintéticos para entrenar varios modelos de predicción de abandono y evaluar el rendimiento de cada modelo. Como la predicción de abandono es una tarea de clasificación, SAS seleccionó modelos de clasificación populares para hacer las predicciones, que incluyen:

  1. Bosque al azar
  2. Aumento de gradiente
  3. Regresión logística
  4. Red neuronal

Antes de generar los datos sintéticos, SAS dividió aleatoriamente el conjunto de datos de telecomunicaciones en un conjunto de tren (para entrenar los modelos) y un conjunto reservado (para puntuar los modelos). Tener un conjunto de exclusión separado para la puntuación permite una evaluación imparcial de qué tan bien podría funcionar el modelo de clasificación cuando se aplica a nuevos datos.

Utilizando el conjunto de trenes como entrada, Syntho utilizó su motor Syntho para generar un conjunto de datos sintéticos. Para la evaluación comparativa, SAS también creó una versión anónima del conjunto de trenes después de aplicar varias técnicas de anonimización para alcanzar un cierto umbral (de k-anonimato). Los pasos anteriores dieron como resultado cuatro conjuntos de datos:

  1. Un conjunto de datos de tren (es decir, el conjunto de datos original menos el conjunto de datos reservado)
  2. Un conjunto de datos reservado (es decir, un subconjunto del conjunto de datos original)
  3. Un conjunto de datos anonimizado (datos anonimizados del conjunto de datos del tren, conjunto de datos original menos el conjunto de datos reservado)
  4. Un conjunto de datos sintéticos (datos sintetizados del conjunto de datos del tren, conjunto de datos original menos el conjunto de datos reservado)

Se utilizaron los conjuntos de datos 1, 3 y 4 para entrenar cada modelo de clasificación, lo que dio como resultado 12 (3 x 4) modelos entrenados. Posteriormente, SAS utilizó el conjunto de datos de reserva para medir la precisión de cada modelo en la predicción de la pérdida de clientes.

SAS lleva a cabo varias evaluaciones exhaustivas sobre la precisión de los datos, la protección de la privacidad y la usabilidad de los datos sintéticos generados por la IA de Syntho en comparación con los datos originales. Como conclusión, SAS evaluó y aprobó los datos sintéticos de Syntho por ser precisos, seguros y utilizables en comparación con los datos originales.

¿Tienes alguna duda?

Hable con uno de nuestros expertos

Resultados iniciales de la evaluación de datos por parte de SAS

Los modelos entrenados con datos sintéticos obtienen puntuaciones muy similares en comparación con los modelos entrenados con datos originales.

Los datos sintéticos de Syntho no solo son válidos para patrones básicos, sino que también capturan patrones estadísticos profundos "ocultos" necesarios para tareas de análisis avanzado. Esto último se demuestra en el gráfico de barras, lo que indica que la precisión de los modelos entrenados con datos sintéticos versus los modelos entrenados con datos originales es similar. Por tanto, los datos sintéticos se pueden utilizar para el entrenamiento real de los modelos. Las entradas y la importancia de las variables seleccionadas por los algoritmos sobre datos sintéticos en comparación con los datos originales fueron muy similares. Por lo tanto, se concluye que el proceso de modelación se puede realizar sobre datos sintéticos, como una alternativa al uso de datos sensibles reales.

¿Por qué los modelos entrenados con datos anónimos obtienen peores puntuaciones?

Las técnicas clásicas de anonimización tienen en común que manipulan los datos originales para dificultar el seguimiento de las personas. Manipulan datos y, por lo tanto, los destruyen en el proceso. Cuanto más anónimo sea, mejor estarán protegidos sus datos, pero también más se destruirán. Esto es especialmente devastador para la IA y las tareas de modelado donde el “poder predictivo” es esencial, porque los datos de mala calidad darán como resultado malos conocimientos del modelo de IA. SAS demostró esto, con un área bajo la curva (AUC*) cercana a 0.5, lo que demuestra que los modelos entrenados con datos anónimos tienen, con diferencia, el peor rendimiento.

Resultados adicionales de las evaluaciones de datos sintéticos realizadas por SAS

Resultados adicionales de las evaluaciones de datos sintéticos realizadas por SAS

Las correlaciones y relaciones entre las variables se conservaron con precisión en los datos sintéticos.

El Área bajo la curva (AUC), una métrica para medir el rendimiento del modelo, se mantuvo constante.

Además, la importancia de la variable, que indicaba el poder predictivo de las variables en un modelo, permaneció intacta al comparar los datos sintéticos con el conjunto de datos original.

Basándonos en estas observaciones de SAS y utilizando SAS Viya, podemos concluir con seguridad que los datos sintéticos generados por Syntho Engine están a la par de los datos reales en términos de calidad. Esto valida el uso de datos sintéticos para el desarrollo de modelos, allanando el camino para análisis avanzados con datos sintéticos.

Conclusiones de los expertos en datos de SAS

Logotipo de Sas

Nuestros datos sintéticos son aprobado por los expertos en datos de SAS

Artículos de referencia

cubierta de guía de sintetizador

¡Guarde su guía de datos sintéticos ahora!