Datos anónimos vs datos sintéticos

Se anonimizas os teus datos antes de realizar probas de análise de datos, hai varios factores en xogo:

  1. En case todos os casos, os datos anónimos aínda se poden rastrexar ata persoas debido a filas específicas e únicas (por exemplo, rexistros médicos)
  2. Canto máis anonimizas ou xeneralizas, máis datos destrúes. Isto reduce a calidade dos teus datos e, polo tanto, as túas ideas
  3. A anonimización funciona de forma diferente para os distintos formatos de datos. Isto significa que non é escalable e pode levar moito tempo

Os datos sintéticos solucionan todas estas deficiencias e moito máis. Mira o vídeo a continuación para ver a un experto en análise de SAS (líder do mercado global en analítica) explicar a súa avaliación sobre a diferenza de calidade entre os datos orixinais, os datos anónimos e os datos sintéticos xerados por Syntho.

Este vídeo está capturado do Syntho x SAS D[N]A Café sobre os datos sintéticos xerados pola IA. Busca o vídeo completo aquí.

Edwin van Unen enviou un conxunto de datos orixinal a Syntho e nós sintetizamos o conxunto de datos. Pero a pregunta tamén era: "Que pasará se comparamos datos sintéticos con datos anónimos?" Debido a que se perde moita información nuns datos anónimos, isto tamén ocorrerá ao sintetizar un conxunto de datos? Comezamos cun conxunto de datos da industria das telecomunicacións con 56.000 filas e 128 columnas de información de abandono da empresa. Este conxunto de datos foi sintetizado e anonimizado para que Edwin puidese comparar a síntese coa anonimización. Entón, Edwin comezou a modelar usando SAS Viya. Construíu un par de modelos de churn no conxunto de datos orixinal, utilizando técnicas clásicas de regresión e árbores de decisión, pero tamén técnicas máis sofisticadas como redes neuronais, impulso de gradientes, bosque aleatorio, este tipo de técnicas. Usando as opcións estándar SAS Viya ao construír os modelos.

Entón, chegou o momento de mirar os resultados. Os resultados foron moi prometedores para os datos sintéticos e non para a anonimización. Para os expertos que non están en aprendizaxe automática da audiencia, observamos a área baixo a curva ROC que indica algo sobre a precisión do modelo. Comparando os datos orixinais cos datos anónimos, vemos que o modelo de datos orixinal ten unha área baixo a curva ROC de .8, o que é bastante bo. Non obstante, os datos anónimos teñen unha área baixo a curva ROC de .6. Isto significa que perdemos moita información co modelo anónimo polo que se perde moito poder preditivo.

Pero entón, a pregunta é que pasa cos datos sintéticos? Aquí, fixemos exactamente o mesmo, pero en lugar de anonimizar os datos, Syntho sintetizou os datos. Agora, vemos que tanto os datos orixinais como os datos sintéticos teñen unha área baixo a curva ROC de .8, que é moi semellante. Non exactamente o mesmo debido á variabilidade, pero moi semellante. Isto significa que o potencial dos datos sintéticos é moi prometedor: Edwin está moi feliz con isto.

grupo de persoas sorrindo

Os datos son sintéticos, pero o noso equipo é real!

Póñase en contacto con Syntho e un dos nosos expertos porase en contacto contigo á velocidade da luz para explorar o valor dos datos sintéticos.