Coa anonimización clásica, implicamos todas as metodoloxías nas que se manipula ou distorsiona un conxunto de datos orixinal para dificultar o rastrexo de individuos.
Exemplos típicos de anonimización clásica que vemos na práctica son a xeneralización, supresión / limpeza, pseudonimización e mestura de filas e columnas.
Velaquí estas técnicas cos exemplos correspondentes.
Técnica | Datos orixinais | Datos manipulados |
Xeneralización | Anos de idade 27 | Entre 25 e 30 anos |
Supresión / Limpeza | info@syntho.ai | xxxx@xxxxxx.xx |
Pseudonimización | Amsterdam | hVFD6td3jdHHj78ghdgrewui6 |
Barreira de filas e columnas | Aliñado | Barallado |
A manipulación dun conxunto de datos con técnicas clásicas de anonimización produce dúas desvantaxes clave:
Demostramos esas dúas desvantaxes clave, a utilidade de datos e a protección da privacidade. Facémolo coa seguinte ilustración con supresión aplicada e xeneralización.
Nota: usamos imaxes con fins ilustrativos. O mesmo principio vale para os conxuntos de datos estruturados.
Isto introduce a compensación entre a utilidade de datos e a protección da privacidade, onde as técnicas de anonimización clásicas sempre ofrecen unha combinación subóptima de ambas.
Non. Este é un gran equívoco e non produce datos anónimos. ¿Segues aplicándoo como forma de anonimizar o teu conxunto de datos? Entón este blog é imprescindible para ti.
Syntho desenvolve software para xerar un conxunto de datos completamente novo de novos rexistros de datos. A información para identificar individuos reais simplemente non está presente nun conxunto de datos sintético. Dado que os datos sintéticos conteñen rexistros de datos artificiais xerados por software, os datos persoais simplemente non están presentes, o que resulta nunha situación sen riscos de privacidade.
A diferenza clave en Syntho: aplicamos a aprendizaxe automática. En consecuencia, a nosa solución reproduce a estrutura e as propiedades do conxunto de datos orixinal no conxunto de datos sintético obtendo unha utilidade de datos maximizada. En consecuencia, poderá obter os mesmos resultados ao analizar os datos sintéticos en comparación co uso dos datos orixinais.
Este estudo de caso mostra o máis destacado do noso informe de calidade que contén varias estatísticas de datos sintéticos xerados a través do noso Syntho Engine en comparación cos datos orixinais.
En conclusión, os datos sintéticos son a solución preferida para superar a típica compensación sub-óptima entre a utilidade de datos e a protección de privacidade que todas as técnicas clásicas de anonimización ofrecen.
En conclusión, desde unha perspectiva de protección de privacidade e utilidade de datos, sempre se debe optar por datos sintéticos cando o caso de uso o permita.
Valor para a análise | Risco de privacidade | |
Datos sintéticos | Alto | ningún |
Datos reais (persoais) | Alto | Alto |
Datos manipulados (a través da clásica "anonimización") | Baixo-Medio | Medio-alto |
Os datos sintéticos de Syntho enchen as lagoas nas que as técnicas clásicas de anonimización quedan curtas ao maximizar ambas utilidade de datos protección de privacidade.