Generalmente, a lo largo de una investigación se recopilan conjuntos de datos de diverso tipo, que pueden llegar a tener grandes dimensiones. Aún cuando los costos de almacenamiento disminuyen cada día, existen motivos que hacen necesario decidir qué datos preservar en el largo plazo (más allá de los límites de la investigación) y qué datos eliminar.
Debemos considerar, por ejemplo, que existen otros costos asociados a la mantención de los datos como, por ejemplo, el costo de los respaldos, de la gestión y de las acciones de preservación que serán necesarias para que los datos se mantengan accesibles a lo largo del tiempo. Por otra parte, no todos los datos generados dentro de una investigación tienen necesariamente el mismo valor o el mismo potencial de ser reutilizado en el futuro. Por último, la constante expansión del universo digital significa que deberán hacerse esfuerzos cada vez mayores recuperar conjuntos de datos dentro de grandes volúmenes de información. Es así como llegamos a la conclusión de que es importante tomar decisiones sobre la selección de datos.
Esta es una decision compleja que debe ser evaluada cuidadosamente por el equipo de trabajo, teniendo en cuenta factores tales como las necesidades de investigación, los requerimientos de las instituciones involucradas o los marcos normativos y la factibilidad y viabilidad económica de la preservación en el largo plazo.
El Digital Curation Center (DCC) ha sugerido una metodología de 5 pasos para que investigadores puedan decidir qué datos preservar y qué datos eliminar.
¿Qué propósitos justifican la retención de los datos más allá del tiempo de ejecución de una investigación? Esta lista puede usarse para considerar el uso potencial de los datos en el futuro. Recuerda que no necesariamente habrá un único propósito, y que estos pueden vincularse de distinta manera con los diferentes tipos de datos que se generan en la investigación:
En determinados contextos, pueden haber requerimientos específicos sobre qué datos deben preservarse y bajo qué condiciones puede o debe darse acceso a ellos.
Contestar las siguientes preguntas teniendo en cuenta cada uno de los conjuntos de datos que se crean y manejan en la investigación ayudará a definir qué datos deben preservarse:
Políticas institucionales
Regulaciones
Otros motivos legales o contractuales
Datos personales
Junto a los criterios del paso 2, el DCC ofrece un listado de verificación para asistir a investigadores en la toma de decisiones.
Un conjunto particular de datos debería preservarse si en al menos dos secciones de las que se presentan a continuación, al menos una pregunta se contesta afirmativamente:
Suficiencia
Demanda (a)
Demanda (b)
Demanda (c)
Copias
Es importante considerar los costos que implica gestionar los datos de investigación. Si estos costos han sido considerados, las siguientes preguntas deberían tener un respuesta afirmativa:
En caso contrario, es necesario planificar el uso de recursos para la gestión de los datos. Para ello, más abajo encontrará adjunta una tabla -que puede ser complementada con otras categorías del Plan de Gestión de Datos que se ha elaborado- que tiene como fin orientar a instituciones e investigadores en la estimación de los recursos disponibles y necesarios para implementar exitosamente la GDI.
Finalmente, y considerando todos los factores analizados, debe tomarse una decisión sobre la retención de los datos para su preservación. Para ello, puede utilizarse el formulario que se presenta más abajo.
En la primera columna, deben ingresarse los conjuntos de datos que han sido considerados en el paso 1 por su potencial de reutilización.
En la segunda columna, deben ingresarse los propósitos identificados en el paso 1.
En la tercera columna, ingresar los motivos identificados para la retención o eliminación de datos identificados en los pasos 2 y 3 (pueden utilizarse los títulos de cada sección, para mayor simplicidad)
En la cuarta columna, indicar si existe una probabilidad baja, media o alta de no contar con los recursos necesarios para solventar los costos implicados para cada conjunto de datos.
Finalmente, registrar en la quinta columna la decisión que se ha tomado, por ejemplo: debe preservarse, debería preservarse, podría preservarse o no preservar. En este último caso, puede justificarse la decisión al final del documento.