Se entiende por formato a “la estructura interna y codificación de un objeto digital, que permite que éste sea procesado o presentado en una forma accesible”. Tal como mencionamos en la sección anterior, existen diferentes formatos según el tipo de datos que se trate. Así, por ejemplo, hay formatos comunes para texto, imagen o sonido, y otros que son frecuentemente utilizados sólo dentro de ciertas disciplinas o comunidades de investigación.
Los formatos se pueden clasificar en dos tipos: abiertos y cerrados.
Como señala el Open Data Handbook:
Un formato abierto es aquel donde las especificaciones del software están disponibles para cualquier persona, de forma gratuita, así cualquiera puede usar dichas especificaciones en su propio software sin ninguna limitación en su reutilización que fuere impuesta por derechos de propiedad intelectual.
Si el formato del archivo es ‘cerrado’, esto puede ser debido a que el formato es propietario y sus especificaciones no están disponibles públicamente, o porque el formato es propietario y aunque las especificaciones se han hecho públicas, su reutilización es limitada.
Cuando creamos, manejamos y gestionamos datos de investigación es importante entender qué tipo de formatos estamos manejando. Los formatos siempre estarán asociados a software y hardware específicos, lo que significa que su reutilización en el futuro dependerá de la disponibilidad de estos en el mediano y largo plazo. De esta manera, al trabajar con formatos cerrados debemos considerar que para acceder a ellos en el futuro tendremos que disponer de recursos para adquirir o mantener actualizado el software requerido, y prever el potencial de que dicho software quede obsoleto.
Para saber más sobre los diferentes formatos en uso en la actualidad, se puede consultar el sitio de Library of Congress sobre sustentabilidad de formatos digitales, donde pueden encontrarse descripciones de formatos según tipos de registro (textual, imagen fija, imagen en movimiento, registros sonoros, etc.) e información de utilidad para cualquier persona o institución que está evaluando qué tipos de formato utilizar para fines de preservación.
Los formatos a utilizar durante la investigación estarán determinados por el equipo de trabajo, en función de las necesidades de la investigación y los estándares de la disciplina, entre otros factores.
No obstante, una vez que la investigación haya concluido, deberán tomarse acciones que aseguren que los datos puedan ser compartidos con otros y reutilizados. Para ello, deberá evaluarse la necesidad de convertirlos a un nuevo formato.
Por una parte, los conjuntos de datos pueden ser convertidos a formatos comunes o amigables para los usuarios, lo que hará posible y fácil su acceso y reutilización.
Por otra, la conversión de datos es una estrategia que permitirá su preservación en el largo plazo, una vez que los formatos se vuelvan obsoletos. En este caso, es una buena práctica privilegiar formatos abiertos o formatos estándar por sobre formatos cerrados o propietarios, ya que para los primeros existirá una mayor diversidad de software que para los segundos.
Si es necesario guardar archivos en un formato propietario, puede considerar incluir un archivo readme.txt en su directorio, identificando el nombre y la versión del software utilizado, incluyendo también a la empresa que fabricó el software. Esto puede ser útil en un futuro si se considera reabrir los archivos nuevamente.
Aunque la definición de los formatos para preservación puede variar de institución a institución, se recomienda que estos sean:
No propietarios
Estándares abiertos y documentados
Utilizados comúnmente dentro de la comunidad de investigación
Transmitidos mediante formas de representación estándar (ASCII, Unicode)
No encriptados
Sin compresión
Fuente: How to FAIR. (s.f.). File formats. Recuperado 12 de diciembre de 2020, a partir de https://howtofair.dk/how-to-fair/file-formats/
Al momento de elegir formatos de archivos para publicar o conservar datos, puede ayudar tener en cuenta lo siguiente:
Como hemos visto, el acceso a datos digitales, cualquiera sea su formato, siempre dependerá de uno o más softwares y hardware específicos. No obstante, como nos enseñan los avances tecnológicos recientes, la producción de software y de hardware está siempre en un proceso de actualización, lo que significa los formatos que utilizamos corren el riesgo de volverse obsoletos.
La obsolescencia de los formatos es el resultado de situaciones que se dan con relativa frecuencia, como por ejemplo:
La actualización de un determinado software tiene como resultado que los archivos creados en versiones antiguas no son compatibles con la nueva versión,
El software utilizado ha sido comprado por su competencia y eliminado del mercado,
El formato ha caído en desuso o ya no se desarrolla el software necesario para su utilización,
El formato no es compatible con el software utilizado en la actualidad, ni tampoco con versiones antiguas del mismo.
El resultado de alguna de estas situaciones será que el acceso, lectura y/o reutilización de los ficheros podría no ser posible de forma total o parcial, lo que podría tener un gran impacto sobre el curso de la investigación o sobre la realización de estudios posteriores que precisen del acceso a la información en cuestión.
Por ello, al planificar la gestión de los datos deberá considerarse qué formatos se utilizarán y de qué manera se asegurará el acceso a ellos a lo largo del tiempo.