Naciones Unidas

Gestión de datos de investigación

Métodos de almacenamiento y respaldo de datos

Uno los aspectos que será necesario considerar desde el momento en que se planifique la investigación, es la forma en la cual se almacenarán los datos que serán generados o recopilados.

Al hacer esto, es importante tener en cuenta que los medios de almacenamiento y respaldo podrán variar dependiendo de las necesidades de los investigadores, y que las opciones  utilizadas a lo largo del desarrollo de la investigación no necesariamente serán apropiadas para almacenar y dar acceso a los datos una vez que ésta haya finalizado.

Los medios de almacenamiento que se pueden utilizar no son excluyentes, por lo que pueden complementarse entre sí. Algunos de los tipos de solución más comunes que se pueden utilizar durante y después de la investigación son:

  • Almacén de datos personal o del proyecto (por ejemplo, utilizando discos USB, discos duros de laptops o unidades en red dentro de la institución)
  • Repositorio institucional
  • Almacén de datos institucional
  • Infraestructura de almacenamiento nacional  
  • Almacén de datos en la nube
  • Repositorio disciplinar

Las alternativas incluidas dentro del primer punto de la lista son recomendadas solo para ser utilizadas en el curso de la investigación, ya que no cuentan con las características necesarias para garantizar el acceso y preservación de los datos en el largo plazo, ni tampoco para ponerlos a disposición de otras personas más allá del grupo de investigadores.

Los dispositivos de almacenamiento internos o externos, tales como laptops, discos USB, CDs o cintas magnéticas son de bajo costo, pero presentan desventajas, tales como su rápida degradación en el tiempo, la velocidad con la que pueden quedar obsoletos, tasas de error relativamente frecuentes, limitado tamaño o riesgos de seguridad a los que  puedan estar sujetos debido a su portabilidad. Se recomienda que su uso esté limitado al almacenamiento de copias (nunca archivos de datos maestros) y deberán siempre contar con un respaldo en medios más seguros.

Por otra parte, las unidades de almacenamiento en red pueden ser de gran utilidad a lo largo de la investigación, pero el acceso a los mismos está limitado a las personas que trabajan en la investigación, y tanto el espacio disponible como los riesgos a los que se encuentren sujetos variarán de institución a institución.

Comparación de opciones de almacenamiento de datos. Traducción de: ANDS (2016). Data Storage. Disponible en línea: http://www.ands.org.au/__data/assets/pdf_file/0010/714925/Data-Storage.pdf
Solución de almacenamiento Apropiado para trabajo con los datos  Apropiado para datos de alto valor de y alta reutilización  Debilidades Fortalezas
Almacén de datos individual o del proyecto  Si No Puede no satisfacer requerimientos de acceso de agencias de financiamiento y editoriales; sustentabilidad frágil; no cuenta con DOIs  Económico, rápido, fácil, conveniente
Repositorio institucional No Si Puede no estar optimizado para datos  Fiable, buena curatoría, sostenible, compatible con bibliometría (por ejemplo DOIs) 
Almacén de datos institucional Si Si En algunos casos no permite la localización de datos  Fiable, sostenible
Almacenamiento en la nube Si Depende de suficiencia en la descripción de los datos Plataformas comerciales: Pueden estar condicionadas por problemas de ancho de banda o de seguridad de los archivos; menor control sobre el hardware donde están almacenados los datos  Respaldo automatizado, posibilidad de compartir y acceso a recursos económicos para procesar los datos almacenados
Almacén de datos nacional Si Si Altamente confiable, compatible con conjuntos de datos 
Repositorio disciplinar La calidad del apoyo financiero en el largo plazo es altamente variable Permite la recuperación por parte de investigadores 

 

Servicios de almacenamiento en línea

Cada vez con más frecuencia, personas e instituciones están optando por utilizar servicios de respaldo en línea, utilizando servicios en la nube. Ante esta alternativa, es importante considerar sus ventajas y desventajas y estudiar de qué manera estas apoyan o difieren de las necesidades de la institución o grupo de investigadores.

Algunas de las ventajas son:

  • Pueden realizar respaldos de datos de forma automática, según se programe
  • No requieren la intervención directa de las personas en la realización de tareas manuales asociadas al respaldo
  • Permite que se mantengan copias de los datos en otras locaciones
  • Pueden incluir servicios de encriptado

Algunas de las desventajas son:

  • La ubicación exacta de los servidores en lo que operan los servicios puede estar fuera de la jurisdicción del país en el que se ubica la institución
  • La velocidad con la que se puede acceder a los datos dependerá del ancho de banda disponible
  • Las condiciones de seguridad a las que estén sujetos los datos variará, pudiendo no estar encriptados (según las condiciones en que se ofrece el servicio)
  • La migración a un nuevo sistema puede verse dificultada al trabajar en sistemas propietarios
  • Deben considerarse aspectos contractuales que podrían condicionar aspectos como el acceso, uso y migración de los datos (por ejemplo: restricciones o costos de migración de un proveedor a otro; condiciones de finalización de servicios; derechos de propiedad intelectual asociados a la información,  mecanismos de resolución de conflictos, entre otros)

Entrevistas a investigadoras de la CEPAL: Buenas prácticas de almacenamiento de datos (2017) (02:38)

Respaldo de los datos

Frente a una situación de pérdida o alteración de datos, el contar con un respaldo de los mismos  permitirá reducir el impacto de este tipo de eventos sobre una investigación.

Algunas de las recomendaciones que se deben tener en cuenta al realizar respaldos son:

  1. Establecer una política formal que especifique la periodicidad y las características de los procedimientos de respaldo de datos e información
  2. Mantener al menos 3 copias de los sets de datos y toda la información relevante. Las copias deben almacenarse en al menos 2 soportes distintos, y al menos una de las copias debe estar en una locación diferente al recinto donde se almacenan las demás.
  3. Al planificar los respaldos, considerar aspectos tales como:      
    1. Métodos/herramientas que se utilizarán para el respaldo
    2. Qué datos serán respaldados (todos los datos, solo los procesados, etc.)
    3. Espacio de almacenamiento que será necesario
    4. Tiempo durante el cual se mantendrán los respaldos, condiciones de seguridad y destrucción cuando sea necesario
    5. Periodicidad de chequeos o verificación de acceso e integridad de los datos
    6. Software o métodos que se utilizarán para mantener control sobre las copias

Fuentes utilizadas