Artículo
¿Por qué es tan importante anonimizar los datos?
Para garantizar la privacidad de los datos es necesario anonimizarlos y eliminar la posibilidad de hacer ingeniería inversa para recuperarlos
El otro día, hablando con un cliente sobre la innovación en el sector salud, me comentaba que tenían acceso a una base de datos muy potente con toneladas de información sobre pacientes. Evidentemente, este acceso estaba restringido a ciertas empresas para llevar a cabo determinados proyectos de I+D con fines públicos. La hojarasca detrás de estos proyectos era importante, todo para asegurar la confidencialidad de estos datos.
Mi pregunta inmediata fue: “¿Qué hacéis para anonimizar estos datos y respetar la privacidad de los pacientes?”. A lo que me respondieron que eliminaban los nombres y algunos datos de carácter privado, como el teléfono o el domicilio.
Sin duda es un paso, pero mi subconsciente rápidamente visualizó a mi hijo de 8 años haciendo labores de ingeniería inversa, como si de un puzle se tratara. Lo vi entretenido relacionando frecuencias cardíacas, con edades y patrones de electrocardiogramas mientras iba ‘desanonimizando’, una a una, a las personas que había detrás de cada caso clínico. Para un niño es cuestión de tiempo y paciencia, pero para una máquina cualquiera de hoy en día, son tan solo unos pocos electrones.
Una de las mejores formas para anonimizar datos es identificarlos según las siguientes categorías:
Datos identificadores: reconocen a una persona directamente (nombre, DNI…).
Datos cuasi-identificadores: consiguen identificar a una persona, pero también son útiles para nuestros propósitos (edad, peso, altura…).
Datos confidenciales: resultan de gran utilidad y valor para nuestros fines (pulsaciones por minuto, patrón del electrocardiograma, presión sanguínea…).
Para garantizar la privacidad de los datos es necesario anonimizarlos y, además, eliminar por completo la posibilidad de hacer ingeniería inversa para recuperarlos. Para ello, se realizarán las siguientes acciones sobre cada uno de los anteriores tipos de datos:
Datos identificadores: serán eliminados directamente. Se pierde la información por completo.
Datos cuasi-identificadores: serán microperturbados y microagregados de tal manera que queden agrupados en un número limitado de conjuntos y rangos. Se pierde parcialmente información, pero supone una cantidad insignificante para los fines propuestos.
Datos confidenciales: serán respetados para no perder la información, que es clave.
¿Y cómo se consigue hacer esto? Con algoritmos de machine learning que, con un aprendizaje previo, son capaces de identificar los tipos de datos y aplicar el grado de perturbación y agregación necesarios para hacer el proceso de anonimización irreversible. Estamos hablando de algoritmos avanzados de SDC (Statistical Disclosure), con estrategias de microagregaciones y microperturbaciones.
Estos algoritmos tienen un coste. Y es que cuanta más anonimización queramos aplicar, menos útiles serán los datos, porque quedarán más agregados y perturbados.
Y, si os preguntáis sobre mi cliente, solo puedo decir que ahora la privacidad sí está garantizada.