Naciones Unidas

Gestión de datos de investigación

Formatos abiertos y cerrados

Se entiende por formato a “la estructura interna y codificación de un objeto digital, que permite que éste sea procesado o presentado en una forma accesible”. Tal como mencionamos en la sección anterior, existen diferentes formatos según el tipo de datos que se trate. Así, por ejemplo, hay formatos comunes para texto, imagen o sonido, y otros que son frecuentemente utilizados sólo dentro de ciertas disciplinas o comunidades de investigación.

 Los formatos se pueden clasificar en dos tipos: abiertos y cerrados.

Como señala el Open Data Handbook:

 Un formato abierto es aquel donde las especificaciones del software están disponibles para cualquier persona, de forma gratuita, así cualquiera puede usar dichas especificaciones en su propio software sin ninguna limitación en su reutilización que fuere impuesta por derechos de propiedad intelectual.

Si el formato del archivo es ‘cerrado’, esto puede ser debido a que el formato es propietario y sus especificaciones no están disponibles públicamente, o porque el formato es propietario y aunque las especificaciones se han hecho públicas, su reutilización es limitada.

Cuando creamos, manejamos y gestionamos datos de investigación es importante entender qué tipo de formatos estamos manejando. Los formatos siempre estarán asociados a software y hardware específicos, lo que significa que su reutilización en el futuro dependerá de la disponibilidad de estos en el mediano y largo plazo. De esta manera, al trabajar con formatos cerrados debemos considerar que para acceder a ellos en el futuro tendremos que disponer de recursos para adquirir o mantener actualizado el software requerido, y prever el potencial de que dicho software quede obsoleto.

Para saber más sobre los diferentes formatos en uso en la actualidad, se puede consultar el sitio de Library of Congress sobre sustentabilidad de formatos digitales, donde pueden encontrarse descripciones de formatos según tipos de registro (textual, imagen fija, imagen en movimiento, registros sonoros, etc.) e información de utilidad para cualquier persona o institución que está evaluando qué tipos de formato utilizar para fines de preservación.

 

Elección de formatos antes y después de la investigación

Los formatos a utilizar durante la investigación estarán determinados por el equipo de trabajo, en función de las necesidades de la investigación y los estándares de la disciplina, entre otros factores.

 No obstante, una vez que la investigación haya concluido, deberán tomarse acciones que aseguren que los datos puedan ser compartidos con otros y reutilizados. Para ello, deberá evaluarse la necesidad de convertirlos a un nuevo formato.

Por una parte, los conjuntos de datos pueden ser convertidos a formatos comunes o amigables para los usuarios, lo que hará posible y fácil su acceso y reutilización.

Por otra, la conversión de datos es una estrategia que permitirá su preservación en el largo plazo, una vez que los formatos se vuelvan obsoletos. En este caso, es una buena práctica privilegiar formatos abiertos o formatos estándar por sobre formatos cerrados o propietarios, ya que para los primeros existirá una mayor diversidad de software que para los segundos.

Si es necesario guardar archivos en un formato propietario, puede considerar incluir un archivo readme.txt en su directorio, identificando el nombre y la versión del software utilizado, incluyendo también a la empresa que fabricó el software. Esto puede ser útil en un futuro si se considera reabrir los archivos nuevamente.

Recomendación de formatos

Aunque la definición de los formatos para preservación puede variar de institución a institución, se recomienda que estos sean:  

  • No propietarios

  • Estándares abiertos y documentados

  • Utilizados comúnmente dentro de la comunidad de investigación

  • Transmitidos mediante formas de representación estándar (ASCII, Unicode)

  • No encriptados

  • Sin compresión

Formatos de archivo FAIR

  • Contenedores: TAR, GZIP, ZIP
  • Bases de datos: XML, CSV, JSON
  • Geoespacial: SHP, DBF, GeoTIFF, NetCDF
  • Video: MPEG, AVI, MXF, MKV
  • Sonido: WAVE, AIFF, MP3, MXF FLAC
  • Estadísticas: DTA, POR, SAS, SAV
  • Imágenes: TIFF, JPEG 2000, PDF, DNG, GIF, BMP, SVG
  • Datos tabulares: CSV, TXT
  • Texto: XML, PDF / A, HTML, JSON, TXT, RTF
  • Archivo web: WARC

Fuente: How to FAIR. (s.f.). File formats. Recuperado 12 de diciembre de 2020, a partir de https://howtofair.dk/how-to-fair/file-formats/

Consideraciones al momento de elegir formatos de archivo

Al momento de elegir formatos de archivos para publicar o conservar datos, puede ayudar tener en cuenta lo siguiente:

  • Elegir formatos comunes al campo disciplinar al que se está trabajando: Para asegurar la interoperabilidad y la reutilización de los datos, es fundamental elegir un formato relacionado a la disciplina científica en el que se desarrolla el estudio.
  • Tener en cuenta el tiempo en que se espera conservar los datos: El tiempo es uno de los factores más relevantes al momento de realizar una elección correcta de formatos de conservación. Cuanto mayor sea el periodo de tiempo que se desea conservar los datos, mayor será la necesidad de seleccionar formatos abiertos, estandarizados y bien documentados. Así también se deberá considerar los medios de almacenamiento confiables y de calidad.
  •  La conversión de archivos puede provocar la pérdida de datos: Para evitar la pérdida de información al momento de convertir los archivos, es importante considerar formatos de multiplataforma común que respondan a estándares específicos. Si la conversión a un formato de datos abiertos puede generar alguna perdida de los datos, se puede considerar guardar los datos tanto en el formato propietario como en un formato abierto y revisar siempre el estado completo de los datos antes y después de hacer la conversión, ya que, pueden ocurrir errores en al momento de utilizar el software
  • Verificar los requisitos del repositorio de datos: Muchas revistas, archivos y repositorios requieren de formatos específicos al momento de cargar la información. Es importante tomar en cuenta esto desde el comienzo del proyecto, para poder elegir el mejor formato de archivo al momento de recopilar, procesar y compartir los datos, junto con la conversión en las diferentes fases de la investigación.

Obsolescencia tecnológica

Como hemos visto, el acceso a datos digitales, cualquiera sea su formato, siempre dependerá de uno o más softwares y hardware específicos. No obstante, como nos enseñan los avances tecnológicos recientes, la producción de software y de hardware está siempre en un proceso de actualización, lo que significa los formatos que utilizamos corren el riesgo de volverse obsoletos.

    La obsolescencia de los formatos es el resultado de situaciones que se dan con relativa frecuencia, como por ejemplo:  

  • La actualización de un determinado software tiene como resultado que los archivos creados en versiones antiguas no son compatibles con la nueva versión,

  • El software utilizado ha sido comprado por su competencia y eliminado del mercado,

  • El formato ha caído en desuso o ya no se desarrolla el software necesario para su utilización,

  • El formato no es compatible con el software utilizado en la actualidad, ni tampoco con versiones antiguas del mismo.

El resultado de alguna de estas situaciones será que el acceso, lectura y/o reutilización de los ficheros podría no ser posible de forma total o parcial, lo que podría tener un gran impacto sobre el curso de la investigación o sobre la realización de estudios posteriores que precisen del acceso a la información en cuestión.  

Por ello, al planificar la gestión de los datos deberá considerarse qué formatos se utilizarán y de qué manera se asegurará el acceso a ellos a lo largo del tiempo.

 

Fuentes utilizadas