Naciones Unidas

Gestión de datos de investigación

¿Por qué seleccionar datos de investigación?

Generalmente, a lo largo de una investigación se recopilan conjuntos de datos de diverso tipo, que pueden llegar a tener grandes dimensiones. Aún cuando los costos de almacenamiento disminuyen cada día, existen motivos que hacen necesario decidir qué datos preservar en el largo plazo (más allá de los límites de la investigación) y qué datos eliminar.

Debemos considerar, por ejemplo, que existen otros costos asociados a la mantención de los datos como, por ejemplo, el costo de los respaldos, de la gestión y de las acciones de preservación que serán necesarias para que los datos se mantengan accesibles a lo largo del tiempo. Por otra parte, no todos los datos generados dentro de una investigación tienen necesariamente el mismo valor o el mismo potencial de ser reutilizado en el futuro. Por último, la constante expansión del universo digital significa que deberán hacerse esfuerzos cada vez mayores recuperar conjuntos de datos dentro de grandes volúmenes de información. Es así como  llegamos a la conclusión de que es importante tomar decisiones sobre la selección de datos.

Esta es una decision compleja que debe ser evaluada cuidadosamente por el equipo de trabajo, teniendo en cuenta factores tales como las necesidades de investigación, los requerimientos de las instituciones involucradas o los marcos normativos y la factibilidad y viabilidad económica de la preservación en el largo plazo.

¿Cómo seleccionar los datos de investigación?

El Digital Curation Center (DCC) ha sugerido una metodología de 5 pasos para que investigadores puedan decidir qué datos preservar y qué datos eliminar. 

  • Paso 1: Identificar los propósitos que los datos podrían cumplir
  • Paso 2: Identificar los datos que deben preservarse
  • Paso 3: Identificar los datos que deberían preservarse
  • Paso 4: Considerar los costos
  • Paso 5: Completar la evaluación de los datos

Paso 1: Identificar los propósitos que los datos podrían cumplir

¿Qué propósitos justifican la retención de los datos más allá del tiempo de ejecución de una investigación? Esta lista puede usarse para considerar el uso potencial de los datos en el futuro. Recuerda que no necesariamente habrá un único propósito, y que estos pueden vincularse de distinta manera con los diferentes tipos de datos que se generan en la investigación:

  • Verificación: permitir que otros sigan el proceso que ha conducido a los hallazgos publicados y, posiblemente, reproducirlos o verificarlos.
  • Análisis adicional: contar con la posibilidad de hacer nuevos análisis a  los datos. Por ejemplo, pueden utilizarse nuevos métodos o integrarse nuevas fuentes de datos para hacer un metanálisis, ya sea a través de nuevas colaboraciones o mediante el análisis de terceras personas.
  • Fortalecer la reputación académica: poder localizar los datos hará que estos tengan mayor visibilidad, lo que puede aumentar el número de citas a los hallazgos de investigación publicados.
  • Desarrollo de recursos comunitarios: publicar un conjunto de datos que tiene valor para un grupo de usuarios conocido. Por ejemplo, un set de datos de referencia, un banco de pruebas de métodos o una base de datos dentro de un campo específico.
  • Otras publicaciones: publicar un artículo sobre los datos (describiendo el qué, cómo y cuándo de las recolección de datos) contribuirá a la comunicación y el debate académico sobre la gestión de datos o su reutilización dentro de un campo del saber.
  • Aprendizaje y enseñanza: incorporar datos en un recurso de enseñanza/aprendizaje o participación pública para potenciar la interacción, aprendizaje o participación en la investigación.
  • Uso privado: encontrar los datos más fácilmente en los próximos años para alcanzar otros usos potenciales.

Paso 2: Identificar los datos que deben preservarse

En determinados contextos, pueden haber requerimientos específicos sobre qué datos deben preservarse y bajo qué condiciones puede o debe darse acceso a ellos.

Contestar las siguientes preguntas teniendo en cuenta cada uno de los conjuntos de datos que se crean y manejan en la investigación ayudará a definir qué datos deben preservarse:

Políticas institucionales

  • ¿Los datos sustentan los resultados de un artículo enviado a una revista que tiene una política que requiere que los datos estén disponibles?
  • ¿Los datos sustentan los hallazgos de una publicación derivada de una investigación financiada por una agencia que requiere que los datos sean preservados y/o estén disponibles?

Regulaciones

  • ¿Es necesario conservar los datos para cumplir con regulaciones de Acceso a la  Información o de Información Ambiental?
  • ¿Existen regulaciones dentro de la disciplina que requieren que los datos sean retenidos como parte del registro de investigación, por ejemplo, por razones de salud y seguridad?

Otros motivos legales o contractuales

  • ¿Los datos proporcionan información de valor comercial, o se utilizan en una solicitud de patente?
  • ¿Los términos y condiciones contractuales indican o implican que los datos deben ser retenidos?
  • ¿Es razonable creer que los datos puedan ser utilizados en investigaciones públicas o policiales, o en algún informe que pueda ser impugnado legalmente?

Datos personales

  • ¿Los datos contienen detalles que identifican directamente a un individuo o pueden usarse para inferir su identidad, ya sea de forma aislada o vinculándose a otro conjunto de datos?
  • ¿La aprobación ética de su institución permite que los datos sean retenidos para futuras investigaciones?
  • ¿El acuerdo de consentimiento permite que los datos sean reutilizados para el propósito que ahora está contemplando?
  • ¿Los sujetos de los datos dieron su consentimiento informado al  archivo de los datos?
  • Si es así, ¿es factible adherir a las condiciones de su consentimiento? (por ejemplo, anonimizar los datos)
  • ¿Pueden los datos almacenarse de forma segura y gestionarse activamente con normas de seguridad de la información reconocidas? (por ejemplo, la norma ISO27001)

Paso 3: Identificar los datos que deberían preservarse

Junto a los criterios del paso 2, el DCC ofrece un listado de verificación para asistir a investigadores en la toma de decisiones.

Un conjunto particular de datos debería preservarse si en al menos dos secciones de las que se presentan a continuación, al menos una pregunta se contesta afirmativamente:

Suficiencia

  • Descripción: ¿hay información suficiente acerca de lo que un conjunto de datos es, cómo y por qué fue recolectado y cómo se ha procesado, para evaluar su calidad y utilidad para los propósitos que se identificaron? (esta información puede figurar en un Plan de Gestión de Datos actualizado)
  • Calidad: ¿la calidad de los datos es lo suficientemente buena en términos de completitud, tamaño de muestra, exactitud, validez, fiabilidad, representatividad o cualquier otro criterio relevante en el campo disciplinar?

Demanda (a)

  • Usuarios conocidos: ¿hay usuarios esperando estos datos, o hay evidencia pasada de la existencia de una demanda? Por ejemplo, ¿esto agregará valor a un recurso o serie ya establecida?
  • Recomendación: ¿existe una recomendación de compartir este tipo de datos o datos sobre un tema en particular por parte de una agencia de financiamiento, sociedad profesional o un organismo equivalente?
  • Potencial de integración: ¿los datos describen cosas que se ajustan a términos o vocabularios estandarizados en otros dominios de investigación, tales como ubicaciones geográficas y períodos de tiempo?
  • Reputación: ¿fueron los datos producidos por un grupo de investigación o proyecto altamente calificado en cuanto a la originalidad, importancia y rigor de resultados de investigaciones previas? ¿Es probable que la publicación de datos aumente significativamente la reputación de un grupo o de un proyecto?
  • Atractivo: ¿podrían los datos tener un  atractivo amplio? Por ejemplo, podrían relacionarse con un descubrimiento histórico, un nuevo proceso  investigación significativo o asuntos sociales o de política internacional.

Demanda (b)

  • No reproducible: ¿sería difícil/costoso reproducir los datos (o imposible, como en el caso de observaciones irrepetibles)?

Demanda (c)

  • Permisos: ¿los datos son clasificados de acuerdo a su sensibilidad y se encuentran libres de términos y condiciones de privacidad/términos éticos, contractuales, de licencia o derechos de autor que restrinjan su acceso público y reutilización? ¿existen otras restricciones que sean normales dentro del dominio del estudio?
  • Formato abierto: ¿los datos están en un formato que no requiere pago de licencias o software/hardware propietario para ser reutilizados?
  • Independencia: si se requiere algún software/hardware especializado para utilizar los datos, ¿es éste ampliamente utilizado en el campo de estudio y está disponible con facilidad?

Copias

  • Único: ¿Es ésta la única y más completa copia de los datos?
  • En riesgo: ¿ se mantienen los datos en un lugar que no puede garantizar el almacenamiento a largo plazo?

Paso 4: Considerar los costos

Es importante considerar los costos que implica gestionar los datos de investigación. Si estos costos han sido considerados, las siguientes preguntas deberían tener un respuesta afirmativa:

  • ¿Hay fondos disponibles para pagar los costos de gestión de datos que surjan durante la investigación, incluyendo los de preparar los datos para su archivo?
  • ¿Hay fondos disponibles para pagar los cargos por almacenamiento y curatoría más allá del período de investigación?

En caso contrario, es necesario planificar el uso de recursos para la gestión de los datos. Para ello, más abajo encontrará adjunta una tabla -que puede ser complementada con otras categorías del Plan de Gestión de Datos que se ha elaborado- que tiene como fin orientar a instituciones e investigadores en la estimación de los recursos disponibles y necesarios para implementar exitosamente la GDI.

 

Paso 5: Completar la evaluación de los datos

Finalmente, y considerando todos los factores analizados, debe tomarse una decisión sobre la retención de los datos para su preservación. Para ello, puede utilizarse el formulario que se presenta más abajo.

En la primera columna, deben ingresarse los conjuntos de datos que han sido considerados en el paso 1 por su potencial de reutilización.

En la segunda columna, deben ingresarse los propósitos identificados en el paso 1.

En la tercera columna, ingresar los motivos identificados para la retención o eliminación de datos identificados en los pasos 2 y 3 (pueden utilizarse los títulos de cada sección, para mayor simplicidad)

En la cuarta columna, indicar si existe una probabilidad baja, media o alta de no contar con los recursos necesarios para solventar los costos implicados para cada conjunto de datos.

Finalmente, registrar en la quinta columna la decisión que se ha tomado, por ejemplo: debe preservarse, debería preservarse, podría preservarse o no preservar. En este último caso, puede justificarse la decisión al final del documento.

 

Documentos complementarios

Fuentes utilizadas