Repositorios de Datos Abiertos: guía para la selección y depósito

F1000Research. «Open Data Repositories.» Think F1000Research, febrero de 2021. PDF. https://think.f1000research.com/wp-content/uploads/2021/02/F1000Research-Open-Data-Repositories.pdf.

Los repositorios de datos abiertos constituyen un componente esencial del ecosistema de investigación científica contemporánea. El depósito de datos en repositorios públicamente accesibles y reconocidos que asignan identificadores globalmente persistentes garantiza que los conjuntos de datos permanezcan disponibles tanto para humanos como para máquinas en un formato utilizable en el futuro.

1. Repositorios de Acceso Controlado

En casos donde el intercambio abierto de datos no es factible debido a consideraciones éticas o de confidencialidad, los repositorios de acceso controlado proporcionan una solución viable. Estos permiten el acceso a datos sensibles a través de usuarios autenticados, dependiendo de los permisos otorgados por los participantes del estudio y las aprobaciones del comité ético.

2. Repositorios Específicos por Disciplina

Los repositorios específicos por disciplina ofrecen conocimiento especializado del dominio y experiencia en curación para tipos particulares de datos. Dado que los datos de investigación varían considerablemente entre disciplinas, estos repositorios proporcionan ventajas significativas al hacer que los datos sean más visibles para otros miembros de la comunidad de investigación específica.

3. Repositorios Institucionales

Muchas instituciones ofrecen apoyo a sus empleados para la gestión y depósito de datos. Los repositorios institucionales que aceptan conjuntos de datos proporcionan administración y custodia, ayudando a asegurar que los conjuntos de datos se preserven y sean accesibles a largo plazo.

4. Repositorios Generales de Datos

Los repositorios generales de datos aceptan conjuntos de datos independientemente de la disciplina o institución. Estos repositorios admiten una amplia variedad de tipos de archivos y son particularmente útiles cuando no existe un repositorio específico por disciplina.

Tipos de Repositorios de Datos

1. Repositorios de Acceso Controlado

En casos donde el intercambio abierto de datos no es factible debido a consideraciones éticas o de confidencialidad, los repositorios de acceso controlado proporcionan una solución viable. Estos permiten el acceso a datos sensibles a través de usuarios autenticados, dependiendo de los permisos otorgados por los participantes del estudio y las aprobaciones del comité ético.

2. Repositorios Específicos por Disciplina

Los repositorios específicos por disciplina ofrecen conocimiento especializado del dominio y experiencia en curación para tipos particulares de datos. Dado que los datos de investigación varían considerablemente entre disciplinas, estos repositorios proporcionan ventajas significativas al hacer que los datos sean más visibles para otros miembros de la comunidad de investigación específica.

3. Repositorios Institucionales

Muchas instituciones ofrecen apoyo a sus empleados para la gestión y depósito de datos. Los repositorios institucionales que aceptan conjuntos de datos proporcionan administración y custodia, ayudando a asegurar que los conjuntos de datos se preserven y sean accesibles a largo plazo.

4. Repositorios Generales de Datos

Los repositorios generales de datos aceptan conjuntos de datos independientemente de la disciplina o institución. Estos repositorios admiten una amplia variedad de tipos de archivos y son particularmente útiles cuando no existe un repositorio específico por disciplina.

Características Importantes de los Repositorios

Versionado

Algunos repositorios permiten cambios en los conjuntos de datos depositados a través del versionado. La selección de un repositorio que incluya esta característica proporciona flexibilidad para agregar nuevos datos, reestructurar y realizar mejoras al conjunto de datos. Cada versión del conjunto de datos es identificable de manera única y se mantiene, lo que permite a otros encontrar, acceder, reutilizar y citar cualquier versión específica que requieran.

Metadatos

Para facilitar la descubribilidad, los datos deben describirse utilizando metadatos apropiados. El contenido y formato de los metadatos a menudo está guiado por una disciplina específica y/o repositorio a través del uso de un estándar de metadatos. Independientemente del repositorio elegido, al depositar datos es importante completar tantos campos como sea posible, ya que esta información generalmente contribuye a los registros de metadatos.

Software y Código

El software y el código constituyen productos de investigación importantes. Además de utilizar un sistema de control de versiones como GitHub, se debe depositar el código fuente en un repositorio de datos donde se le asigne un identificador único. El uso de tal repositorio garantiza que el código esté abierta y permanentemente disponible.

Consideraciones Especiales

Plataformas de Reproducibilidad

Cuando se tienen tanto datos como código, se debe considerar el uso de una plataforma de reproducibilidad como Code Ocean. Depositar datos y código en tal plataforma significa que otros pueden ejecutar fácilmente los análisis, promoviendo así la reproducibilidad computacional.

Advertencias Importantes

El alojamiento de datos únicamente en un sitio web de laboratorio o como parte del material suplementario de una publicación dificulta la capacidad de encontrar y reutilizar los datos. Además, el lugar donde se depositan los datos dependerá de los factores legales y éticos aplicables, quién financió el trabajo y dónde se espera publicar.

Proceso de Selección de Repositorio

El documento proporciona un flujo de trabajo para la selección de repositorios basado en las siguientes preguntas clave:

  1. ¿Contienen los datos información personal o sensible que no puede ser completamente anonimizada?
  2. ¿Existe un repositorio específico por disciplina para el conjunto de datos?
  3. ¿El repositorio institucional acepta datos?

Este proceso de decisión guía hacia el tipo de repositorio más apropiado para cada situación específica.

Recursos Adicionales

El documento hace referencia a herramientas útiles para la identificación de repositorios apropiados, incluyendo Re3Data, FAIRsharing, FAIR Repository Finder, y recursos para hacer el código citable, así como cajas de herramientas para datos y código.