Datos anonimizados frente a datos sintéticos

Si anonimiza sus datos antes de realizar pruebas de datos de análisis de datos, hay varios factores en juego:

  1. En casi todos los casos, los datos anónimos se pueden rastrear hasta las personas debido a filas específicas y únicas (por ejemplo, registros médicos)
  2. Cuanto más anonimice o generalice, más datos destruirá. Esto reduce la calidad de sus datos y, por lo tanto, sus conocimientos
  3. La anonimización funciona de manera diferente para diferentes formatos de datos. Esto significa que no es escalable y puede llevar mucho tiempo.

Los datos sintéticos resuelven todas estas deficiencias y más. Mire el video a continuación para ver a un experto en análisis de SAS (líder del mercado global en análisis) explicar su evaluación sobre la diferencia de calidad entre los datos originales, los datos anonimizados y los datos sintéticos generados por Syntho.

Este video fue capturado del Syntho x SAS D [N] A Café sobre datos sintéticos generados por IA. Encuentra el video completo aquí.

Edwin van Unen envió un conjunto de datos original a Syntho y sintetizamos el conjunto de datos. Pero la pregunta también era: “¿Qué pasará si comparamos datos sintéticos con datos anonimizados?” Debido a que se pierde mucha información en datos anonimizados, ¿esto también sucederá al sintetizar un conjunto de datos? Comenzamos con un conjunto de datos de la industria de las telecomunicaciones con 56.000 filas y 128 columnas de información de rotación de empresas. Este conjunto de datos se sintetizó y anonimizó para que Edwin pudiera comparar la síntesis con la anonimización. Luego, Edwin comenzó a modelar usando SAS Viya. Construyó un par de modelos de abandono en el conjunto de datos original, utilizando técnicas de regresión clásicas y árboles de decisión, pero también técnicas más sofisticadas como redes neuronales, aumento de gradiente, bosque aleatorio, este tipo de técnicas. Uso de las opciones estándar de SAS Viya al construir los modelos.

Entonces, llegó el momento de ver los resultados. Los resultados fueron muy prometedores para datos sintéticos y no para anonimización. Para los no expertos en aprendizaje automático de la audiencia, nos fijamos en el área debajo de la curva ROC que dice algo sobre la precisión del modelo. Al comparar los datos originales con los datos anonimizados, vemos que el modelo de datos original tiene un área debajo de la curva ROC de .8, lo cual es bastante bueno. Sin embargo, los datos anonimizados tienen un área debajo de la curva ROC de .6. Esto significa que perdemos mucha información con el modelo anónimo, por lo que pierde mucho poder predictivo.

Pero entonces, la pregunta es ¿qué pasa con los datos sintéticos? Aquí hicimos exactamente lo mismo, pero en lugar de anonimizar los datos, Syntho los sintetizó. Ahora, vemos que tanto los datos originales como los datos sintéticos tienen un área bajo la curva ROC de 8, que es muy similar. No exactamente lo mismo debido a la variabilidad, pero muy similar. Esto significa que el potencial de los datos sintéticos es muy prometedor; Edwin está muy contento con esto.

grupo de personas sonriendo

Los datos son sintéticos, ¡pero nuestro equipo es real!

Póngase en contacto con Syntho ¡y uno de nuestros expertos se pondrá en contacto contigo a la velocidad de la luz para explorar el valor de los datos sintéticos!