Naciones Unidas

Gestión de datos de investigación

Transformación de archivos

Los datos de investigación son un conjunto dinámico por definición. Es normal que, en la medida que una investigación se desarrolle, los datos sean modificados de diferentes maneras. Estos cambios o transformaciones permiten mejorar la calidad de los datos, realizar análisis de diverso tipo, cumplir con requerimientos externos o facilitar su transmisión, entre otras cosas. 

A continuación, presentamos algunas de las acciones más comunes de transformación de archivos de datos a lo largo de la investigación.

Entrevista a investigadoras de la CEPAL: Transformación de archivos de datos. (2017) (02:00)

Compresión de archivos

Para facilitar el almacenamiento, transporte o transmisión de los datos, puede tomarse la decisión de comprimirlos. Comprimir un archivo de datos es una operación que hará que éste utilice menos espacio de almacenamiento, lo que puede hacerse de dos formas diferentes:

Compresión con pérdidas (lossy compression): La compresión con pérdidas reduce el tamaño del archivo al descartar parte de la información de forma permanente, reduciendo su calidad.Un ejemplo de ello es la compresión de audio o imágenes, que generará archivos de menor tamaño pero con distorsiones o pérdida de calidad o fidelidad. Este tipo de compresión no implica la pérdida de metadatos.

Compresión sin pérdidas (lossless compression): La compresión sin pérdidas reduce el tamaño del archivo sin que éste pierda ninguna parte de su contenido. Por lo tanto, al descomprimirse éste volverá a su forma original, sin modificaciones.

Al decidir el tipo de formato que se utilizará deberá considerarse si este utiliza compresión con o sin pérdidas y seleccionar de acuerdo a la finalidad por la cual se realiza el procedimiento.

Como regla general, se recomienda escoger formatos de compresión sin pérdidas cuando se trata de un archivo maestro y de un archivo que será preservado en el largo plazo. Los formatos con pérdida pueden utilizarse para fines de transmisión y en aquellos casos en que se quiere facilitar el acceso a la información, pero no deben considerarse nunca como formatos de preservación digital. 

Transformación de archivos

Dependiendo del campo de investigación en el que esté trabajando, la normalización puede tener diferentes significados. A continuación se presentan dos formas que pueden ser relevantes para su propia práctica de gestión de datos de investigación, tal como han sido explicadas por la Universidad de Edimburgo en su recurso educativo sobre gestión de datos, MANTRA. 

  • Normalización estadística: usar una fórmula o un algoritmo para transformar las variables medidas en diferentes escalas en una escala común para que puedan ser comparables (manzanas con manzanas) o analizadas en un modelo estadístico elegido. Un típico ejemplo es calcular el logaritmo de las variables para hacer una distribución sesgada normal (por ejemplo, desplegado en un gráfico como una curva normal).
  • Normalización de bases de datos: eliminar la duplicación e inconsistencia siguiendo un conjunto de reglas de diseño de bases de datos relacionales que las vuelven más robustas. Por ejemplo, dividir las tablas grandes en grupos más pequeños y vincular los campos entre tablas a través de una clave o ID común. Al reducir la complejidad y hacer más flexibles las bases de datos se reduce la posibilidad de que se produzcan anomalías en los datos.

Hay variadas razones por la que se podría necesitar transformar los datos durante o después de su investigación. A diferencia de la migración de los formatos de archivos, la transformación de datos implica el procesamiento computacional de nuevos valores, desde contenidos antiguos a contenidos de datos actuales.  Algunas transformaciones son puramente estadísticas, y son preparadas para ajustar los datos a un modelo.

En los datos de encuestas recogidos a través de cuestionarios, tanto las respuestas de selección múltiple como otros tipos de respuestas suelen codificarse como números en lugar de cadenas de caracteres. Esta simple transformación tiene la ventaja de facilitar la entrada de datos, si se escriben las respuestas en papel; y también, de evitar inconsistencias en los valores de datos, por ejemplo, errores tipográficos.

Los datos cualitativos, como transcripciones de entrevistas, pueden ser transformados en datos cuantitativos aplicando técnicas de codificación textual y de categorización. Tales variables (subjetivamente derivadas de un proceso de pensamiento humano en lugar de computacionales) se describen comprensiblemente como categóricas o nominales, y pueden tener un cierto rango de técnicas estadísticas aplicadas a ellas. Las variables medidas a un nivel ordinal, de intervalo o de razón, es decir, números "reales", donde un valor refleja en alguna medida del concepto de interés, permiten una gama más amplia de métodos de análisis.

La visualización efectiva de los datos puede ser otra razón para  necesitar transformar los datos.  Un ejemplo simple es la conversión de datos donde hay un numerador y un denominador, de proporciones a porcentajes con el fin de mostrarlos en un gráfico de barras o gráfico circular.

Al preparar los datos para la visualización, surgen preguntas relacionadas a la escala y granularidad. Por ejemplo, ¿debería un gráfico de líneas tener ocurrencias diarias a lo largo del eje Y, o ser suavizado (promediado) para mostrar puntos por semana o mes? La respuesta depende de lo que vale la pena mostrar en los datos. Las anomalías pueden ser suavizadas a un nivel más alto; ¿Es esto deseable (eliminar el ruido) o engañoso (donde las anomalías pueden ser reveladoras)?
 

Existen variadas técnicas para transformar datos confidenciales o sensibles para que puedan ser compartidos con otros investigadores. Éstas incluyen:

  • Agregación: "la combinación de categorías relacionadas, por lo general dentro de una rama común de una jerarquía, para proporcionar información a un nivel más amplio al que se toman observaciones detalladas". (Definición de la OCDE) Los datos geográficos también suelen agregarse a una unidad superior, donde la información se considera sensible o reveladora, por ejemplo, la unidad de código postal  por el código postal del un sector.
  • Anonimización: se eliminan de los casos los datos identificadores como nombre y dirección.
  • Seudonimización:  es una técnica común para proteger identidades en datos cualitativos.
  • Perturbación: es una técnica que introduce una distorsión deliberada a nivel de las celdas de datos, normalmente utilizada en los censos de población.

Fuentes utilizadas