La anonimización es el proceso de convertir los datos en una forma en que no se pueda identificar a individuos. La anonimización se constituye entonces en una herramienta para mitigar los riesgos que presentan la obtención y tratamiento masivo de los datos de carácter personal, consistente en un proceso que permite identificar y ocultar la información sensible y permitiendo su divulgación sin que ello implique vulnerar los derechos a la protección de datos de las personas y organizaciones que se puedan referenciar en los mismos.
A continuación algunas técnicas de anonimización que le ayudarán en la protección de datos sensibles:
Esto implica despojar los identificadores personales obvios tales como nombres de una pieza de información, para crear un conjunto de datos en el que no hay identificadores de persona presentes.
Variantes:
Estas son técnicas de alto riesgo porque los datos anónimos siguen existiendo en una forma individual. Los datos de los registros electorales, por ejemplo, podrían utilizarse para reintroducir con bastante facilidad los nombres que se han eliminado al conjunto de datos. Sin embargo, este tipo de datos también es relativamente 'rico' en términos de permitir que un individuo sea rastreado, por ejemplo, como parte de un estudio longitudinal.
La seudoanonimización como actividad de disminución del riesgo de identificación, supone asignar seudónimos a las variables de identificación directa de los individuos (nombres, cédulas, etc.), estableciendo un identificador ciego llamado seudónimo, obteniendo así una base seudoanonimizada. La identificación del individuo sólo es conocida por el equipo de sistemas o los involucrados en la operación , por lo que los demás miembros de la organización no pueden establecer la relación entre el identificador ciego y el original, bajo ciertas condiciones de criptografía. (Colombia. DANE. DIRPEN, 2014)
Para realizar la técnica de seudoanonimización se puede:
a. Asignar un único seudónimo a cada objeto de la información personal identificable.
b. El seudónimo debe ser utilizado en reemplazo de números de identificación formales, como cédula de identidad, licencias de conducir, cuenta bancaria, etc. Se recomienda que los seudónimos tengan la misma longitud y formato para aumentar la legibilidad.
c. Tener en cuenta el impacto de los sistemas de información en la asignación de los seudónimos en relación con los usos internos.
d. Si se utilizan seudónimos para uso externo, estos deben ser diferentes a los seudónimos generados para uso interno, y no tener una relación entre uno y otro.
e. Establecer las técnicas criptográficas para llevar a cabo la incorporación de seudónimos que reemplacen las variables de identificación directa.
Des-identificación de datos de modo que un referencia codificada o un seudónimo se adjunta a un registro para permitir que los datos se asocien con un individuo en particular sin que el individuo sea identificado.
La modificación determinista es una técnica similar. 'Determinista' aquí significa que el mismo valor original siempre se reemplaza por el mismo valor modificado. Esto significa que si varios registros de datos están enlazados, en el sentido de que en todos esos registros tienen el mismo nombre (o dirección, o número de teléfono, por ejemplo), los registros correspondientes del set de datos modificados también se enlazarán de la misma manera . Esto facilita ciertos tipos de análisis de datos. Esta es una técnica con un riesgo relativamente alto, con fortalezas y debilidades similares al enmascaramiento de datos.
Agregación
Los datos se muestran como totales, por lo que no se muestran datos relacionados que permitan identificar a un individuo. A menudo los números pequeños en los totales se suprimen a través de la técnicas de "borrosidad" (blurring”) o por omisión en su conjunto. Según la definición de la OCDE la agregación es "la combinación de categorías relacionadas, por lo general dentro de una rama común de una jerarquía, para proporcionar información a un nivel más amplio al que se toman observaciones detalladas". (Definición de la OCDE) Los datos geográficos también suelen agregarse a una unidad superior, donde la información se considera sensible o reveladora, por ejemplo, la unidad de código postal por el código postal del un sector.
Variantes:
Los datos derivados son un conjunto de valores que reflejan el carácter de los datos de origen, pero que ocultan los valores originales exactos. Esto se hace usualmente usando técnicas de bandas para producir descripciones de valores más gruesas que en el dataset fuente, por ejemplo, reemplazando fechas de nacimiento por edades o años, direcciones por áreas de residencia o salas, usando códigos postales parciales o redondeando cifras exactas para que aparezcan en una forma normalizada. Nuevamente, se trata de una técnica de bajo riesgo, ya que las técnicas de bandas hacen más difícil o imposible la comparación de datos. Los datos resultantes pueden ser relativamente ricos porque pueden facilitar la investigación a nivel de individuo pero a su vez, presentan un riesgo de re-identificación relativamente bajo.