Cuando hablamos de documentar los datos, es frecuente que se mencione a los metadatos. Esto ocurre ya que tanto la documentación como los metadatos abarcan al conjunto de información que describe los datos generados en la investigación. La principal diferencia entre la documentación en general y los metadatos, radica en que estos últimos poseen una estructura que les permite ser procesados mediante computadoras, por lo cual pueden transmitirse con mayor facilidad y ser interoperables.
Los metadatos juegan un papel importante en el contexto de los datos FAIR, ya que son considerados incluso más importantes que lo propios datos. Esto se debe a su disposición constante y abierta, la cual permite enlazar datos de investigación y publicaciones en la web sobre datos y servicios FAIR.
En términos generales, existen 3 tipos de metadatos:
Información sobre el contenido del recurso, que es de utilidad para su recuperación y comprensión.
Por ejemplo:
Información necesaria para manejar un recurso o que se relaciona con su creación. Dentro de esta categoría se encuentran los metadatos técnicos (necesarios para decodificar y procesar el recurso), los metadatos de preservación (necesarios para la gestión y migración en el largo plazo), y los metadatos de derechos (referidos a la propiedad intelectual)
Describen las relaciones que existen entre las partes de un conjunto de datos. Por ejemplo, un esquema que representa las relaciones entre tablas de una base de datos o una tabla de contenidos.
Capturar metadatos es una actividad clave de la gestión de los datos, que cobra vital importancia cuando se pretende compartir y/o reutilizar datos de investigación. Los metadatos permiten a investigadores localizar y acceder a conjuntos de datos y comprender el contexto en el estos han sido creados y gestionados, facilitando su correcta interpretación.
En la actualidad, puede encontrarse una variedad de estándares para datos de investigación. Aunque existen algunos de tipo general, pueden encontrarse también estándares que aplican a disciplinas específicas y que establecen los parámetros que deben seguirse para hacer posible la comprensión y reutilización de ciertos tipos de datos. Adicionalmente, los repositorios o portales de datos también utilizan estándares de metadatos que será importante tener en consideración.
Por ello, y para facilitar la captura de los datos a lo largo de la investigación, es importante considerar los metadatos a capturar y estándares que se seguirán de forma temprana, al crear un Plan de Gestión de Datos.
Un estándar de metadatos se expresa en un diseño de conjuntos de elementos de metadatos, que tienen un propósito específico. A cada elemento se le da un nombre y una definición estándar, basados en reglas, sintaxis y un vocabulario controlado.
Los estándares de metadatos más importantes y reconocidos en el ámbito investigativo relacionado a los datos, son Dublin Core Metadata Standard para información bibliográfica. Data Documentation Initiative (DDI), para encuestas y datos de observación, centrado principalmente en las Ciencias Sociales y las Text Encoding Initiative (TEI) para datos textuales, centrado principalmente en las humanidades digitales.
Entrevista a investigadoras de la CEPAL: Características de un buen set de datos (2017, julio 13) (01:52)
Plataforma que permite conocer estándares de metadatos FAIR según cada disciplina.
Dublin Core es el esquema de metadatos más utilizado a nivel mundial. Fue desarrollado en 1995 por un grupo internacional e interdisciplinario de profesionales de la bibliotecología, la computación y los museos, entre otras comunidades profesionales vinculadas a la información, y es desarrollado en la actualidad por Dublin Core Metadata Initiative (DCMI).
Aunque en un comienzo el trabajo de DCMI estuvo enfocado en la creación de un set de elementos de metadatos para describir recursos de electrónicos, tiene como resultado actual un conjunto de estándares de metadatos:
El Conjunto de Elementos Dublin Core está compuesto por 15 elementos o propiedades que permiten describir recursos de información, que tienen como característica común el ser repetibles y opcionales.
Para más información puede consultar el siguiente recurso:
Contiene información sobre todos los estándares de Dublin Core Metadata Initiative. Disponible solo en inglés.
PREMIS (Preservation Metadata: Implementation Strategies) es un reconocido estándar internacional de metadatos para la preservación digital de objetos digitales. PREMIS comenzó a ser desarrollado en el año 2003 por un grupo de trabajo integrado por el Online Computer Library Center (OCLC) y el Research Libraries Group (RLG) y es gestionado en la actualidad por la Biblioteca del Congreso de Estados Unidos (LOC).
Según el mismo estándar, se entiende por metadato de preservación “la información que utiliza un repositorio para soportar el proceso de preservación digital”, que permitirá apoyar aquellas actividades que aseguren el acceso y uso de recursos de información en el largo plazo.
PREMIS tiene tres componentes:
El diccionario de datos PREMIS incorpora los metadatos de preservación que la mayoría de los repositorios necesita comprender para realizar sus actividades de preservación digital. Como señala una de las directoras del equipo de trabajo que desarrolló el estándar, Priscilla Caplan, “PREMIS se utiliza fundamentalmente para el diseño de los repositorios, para su evaluación y para el intercambio de los paquetes de información archivada entre los repositorios de preservación”.
Como se observa en la imagen, el modelo de datos de PREMIS está formado por cinco entidades: Ambiente, Objeto, Agente, Acontecimientos y Declaración de Derechos. En tanto, el Diccionario de Datos define un conjunto de unidades semánticas (similares a lo que conocemos como elementos de metadatos) que corresponden a propiedades de las entidades que componen el modelo de datos.
Para más información, puede consultar los siguientes recursos: