Biblioguias: Gestión de datos de investigación: Anonimización de los datos

¿Qué es la anonimización?

La anonimización es el proceso de convertir los datos en una forma en que no se pueda identificar a individuos. La anonimización se constituye entonces en una herramienta para mitigar los riesgos que presentan la obtención y tratamiento masivo de los datos de carácter personal, consistente en un proceso que permite identificar y ocultar la información sensible y permitiendo su divulgación sin que ello implique vulnerar los derechos a la protección de datos de las personas y organizaciones que se puedan referenciar en los mismos.

A continuación algunas técnicas de anonimización que le ayudarán en la protección de datos sensibles:

Técnicas de anonimización - Enmascarar los datos

Esto implica despojar los identificadores personales obvios tales como nombres de una pieza de información, para crear un conjunto de datos en el que no hay identificadores de persona presentes.

Variantes:

Eliminación parcial de datos: da como resultado datos en los que se han eliminado algunos identificadores personales, como por ejemplo el nombre y la dirección, pero se mantienen otros como la fechas de nacimiento.
Cuarentena de datos - Esta técnica solamente suministra datos a un receptor que es poco probable o no tenga la posibilidad de tener acceso a los otros datos necesarios para facilitar la re-identificación. Puede implicar la revelación de identificadores personales únicos, por ejemplo, números de referencia, pero no la clave necesaria para vincularlos a individuos particulares.

Estas son técnicas de alto riesgo porque los datos anónimos siguen existiendo en una forma individual. Los datos de los registros electorales, por ejemplo, podrían utilizarse para reintroducir con bastante facilidad los nombres que se han eliminado al conjunto de datos. Sin embargo, este tipo de datos también es relativamente 'rico' en términos de permitir que un individuo sea rastreado, por ejemplo, como parte de un estudio longitudinal.

Técnicas de anonimización - Seudoanonimización

La seudoanonimización como actividad de disminución del riesgo de identificación, supone asignar seudónimos a las variables de identificación directa de los individuos (nombres, cédulas, etc.), estableciendo un identificador ciego llamado seudónimo, obteniendo así una base seudoanonimizada. La identificación del individuo sólo es conocida por el equipo de sistemas o los involucrados en la operación , por lo que los demás miembros de la organización no pueden establecer la relación entre el identificador ciego y el original, bajo ciertas condiciones de criptografía. (Colombia. DANE. DIRPEN, 2014)

Para realizar la técnica de seudoanonimización se puede:

a. Asignar un único seudónimo a cada objeto de la información personal identificable.
b. El seudónimo debe ser utilizado en reemplazo de números de identificación formales, como cédula de identidad, licencias de conducir, cuenta bancaria, etc. Se recomienda que los seudónimos tengan la misma longitud y formato para aumentar la legibilidad.
c. Tener en cuenta el impacto de los sistemas de información en la asignación de los seudónimos en relación con los usos internos.
d. Si se utilizan seudónimos para uso externo, estos deben ser diferentes a los seudónimos generados para uso interno, y no tener una relación entre uno y otro.
e. Establecer las técnicas criptográficas para llevar a cabo la incorporación de seudónimos que reemplacen las variables de identificación directa.

Des-identificación de datos de modo que un referencia codificada o un seudónimo se adjunta a un registro para permitir que los datos se asocien con un individuo en particular sin que el individuo sea identificado.

La modificación determinista es una técnica similar. 'Determinista' aquí significa que el mismo valor original siempre se reemplaza por el mismo valor modificado. Esto significa que si varios registros de datos están enlazados, en el sentido de que en todos esos registros tienen el mismo nombre (o dirección, o número de teléfono, por ejemplo), los registros correspondientes del set de datos modificados también se enlazarán de la misma manera . Esto facilita ciertos tipos de análisis de datos. Esta es una técnica con un riesgo relativamente alto, con fortalezas y debilidades similares al enmascaramiento de datos.

Técnicas de anonimización - Agregación

Agregación
Los datos se muestran como totales, por lo que no se muestran datos relacionados que permitan identificar a un individuo. A menudo los números pequeños en los totales se suprimen a través de la técnicas de "borrosidad" (blurring”) o por omisión en su conjunto. Según la definición de la OCDE la agregación es "la combinación de categorías relacionadas, por lo general dentro de una rama común de una jerarquía, para proporcionar información a un nivel más amplio al que se toman observaciones detalladas". (Definición de la OCDE) Los datos geográficos también suelen agregarse a una unidad superior, donde la información se considera sensible o reveladora, por ejemplo, la unidad de código postal por el código postal del un sector.

Variantes:

Supresión de celdas - si los datos proceden de una encuesta por muestreo, puede ser inapropiado liberar salidas tabulares con celdas que contengan un número pequeño de individuos, digamos por debajo de 30. Esto se debe a que el error de muestreo en tales estimaciones de celdas sería demasiado grande para hacer que las estimaciones sean útiles para propósitos estadísticos. En este caso, para fines de calidad, la supresión de celdas con números pequeños actúa en tándem con la supresión con fines de divulgación.
Control de Inferencia - Algunos valores de celda en los datos estadísticos (por ejemplo, pequeños como 1-5) pueden presentar un mayor riesgo de re-identificación. Dependiendo de las circunstancias, se pueden suprimir números pequeños o manipular los valores. Si se afecta un gran número de celdas, se puede cambiar el nivel de agregación. Por ejemplo, los datos podrían estar vinculados a áreas geográficas más amplias o se podrían ampliar los rangos de edad.
Perturbación - Estos se refieren a procedimientos que implican la modificación sistemática de datos (a veces en pequeñas cantidades aleatorias), de manera tal que las cifras no sean lo suficientemente precisas como para revelar información sobre casos individuales. Pueden incluirse nuevos datos, suprimir y/o modificar los existentes beneficiando la confidencialidad estadística. Es una técnica que introduce una distorsión deliberada a nivel de las celdas de datos, normalmente utilizada en los censos de población.
Redondeo – puede ser basado en técnicas determinísticas o aleatorias (si se quiere aplicar sobre solo una variable o sobre varias). Consiste en la sustitución del valor de las variables originales por valores redondeados, para disfrazar las estadísticas o variables precisas.
Muestreo - en algunos casos, cuando se dispone de un gran número de registros, puede ser adecuado para fines estadísticos liberar una muestra de registros, seleccionados mediante un procedimiento aleatorio determinado. Al no publicar detalles específicos de la muestra, los titulares de los datos pueden minimizar el riesgo de volver a identificarse.
Datos sintéticos - Los datos son generados de forma aleatoria, preservando algunas estadísticas o relaciones internas del conjunto de datos original.
Informes tabulares: un medio para producir datos tabulares (agregados), que protegen contra la re-identificación.

Técnicas de anonimización - Elementos de datos derivados y bandas

Los datos derivados son un conjunto de valores que reflejan el carácter de los datos de origen, pero que ocultan los valores originales exactos. Esto se hace usualmente usando técnicas de bandas para producir descripciones de valores más gruesas que en el dataset fuente, por ejemplo, reemplazando fechas de nacimiento por edades o años, direcciones por áreas de residencia o salas, usando códigos postales parciales o redondeando cifras exactas para que aparezcan en una forma normalizada. Nuevamente, se trata de una técnica de bajo riesgo, ya que las técnicas de bandas hacen más difícil o imposible la comparación de datos. Los datos resultantes pueden ser relativamente ricos porque pueden facilitar la investigación a nivel de individuo pero a su vez, presentan un riesgo de re-identificación relativamente bajo.

Fuentes utilizadas

Colombia. DANE. DIRPEN. (2014). Lineamientos para la Anonimización de microdatos (No. versión 1). Bogotá. Recuperado a partir de https://pdfslide.tips/documents/lineamientos-para-la-anonimizacion-de-microdatos.html
The University of Edinburgh. Data Library. (2014). Stephen Lawrie - Anonymisation of clinical data - MANTRA Research Data Management Training [Video Recording]. Recuperado a partir de https://www.youtube.com/watch?v=fiYsA8UpYH8
United Kingdom. Government. (s. f.). The Data Protection Act 1998 [Webpage]. Recuperado 10 de julio de 2017, a partir de http://www.legislation.gov.uk/ukpga/1998/29/contents
United Kingdom. Information Commissioner’s Office. (2017, febrero 1). Anonymisation [Webpage]. Recuperado 6 de julio de 2017, a partir de https://ico.org.uk/media/1061/anonymisation-code.pdf