Archivo de la etiqueta: Gestión de datos de investigación

El futuro de los datos en la publicación de trabajos de investigación: ¿de lo bueno a lo necesario?

Borgman, C. L., & Brand, A. (2023). The Future of Data in Research Publishing: From Nice to Have to Need to Have?  . Harvard Data Science Review. https://doi.org/10.1162/99608f92.b73aae77

La política científica promueve el acceso abierto a los datos de investigación con fines de transparencia y reutilización de datos en interés público. Esperamos que se acelere la demanda de datos abiertos en la publicación académica, al menos en parte como respuesta a la opacidad de los algoritmos de inteligencia artificial. Los datos abiertos deben ser localizables, accesibles, interoperables y reutilizables (FAIR), así como fiables y verificables.

El estado actual de los datos abiertos en la publicación académica está en transición de «bonito de tener» a «necesario de tener». Los datos de investigación sólo son valiosos, interpretables y verificables en el contexto de su origen y con la infraestructura suficiente para facilitar su reutilización. Hacer que los datos de investigación sean útiles es caro; los beneficios y los costes se distribuyen de forma desigual. Los datos abiertos también plantean riesgos de procedencia, propiedad intelectual, uso indebido y apropiación indebida en una era de trolls y algoritmos de IA alucinantes. Los académicos y las editoriales académicas deben hacer más accesibles los datos probatorios para promover la confianza pública en la investigación. Para que los procesos de investigación sean más fiables, transparentes y verificables, las partes interesadas deben invertir más en la gestión de los datos y las infraestructuras del conocimiento.

Urge solucionar la falta de transparencia en torno a los datos utilizados para entrenar modelos de Inteligencia Artificial

Hardinges, Jack, Elena Simperl, y Nigel Shadbolt. 2023. «We Must Fix the Lack of Transparency Around the Data Used to Train Foundation Models». Harvard Data Science Review, diciembre. https://doi.org/10.1162/99608f92.a50ec6e6.

En el ámbito de la IA, los modelos, ya sean de aprendizaje supervisado, no supervisado o de otro tipo, necesitan ser alimentados con grandes cantidades de datos para aprender patrones y realizar tareas específicas. Abordar esta falta de transparencia es crucial para garantizar que la IA se desarrolle y utilice de manera ética y responsable. La transparencia en este proceso implica proporcionar información clara y completa sobre la naturaleza y la fuente de los datos utilizados en el entrenamiento de estos modelos. Sin embargo, en la mayoría de los casos, las empresas o desarrolladores no muestran de dónde compilan esta información, lo que puede tener consecuencias significativas en términos de ética, sesgo y confianza pública.


El estudio aborda la importancia del acceso a información sobre los datos utilizados en la formación de modelos de inteligencia artificial (IA). Aunque algunos sectores de la comunidad de IA han progresado, persiste una falta general de transparencia sobre el contenido y las fuentes de los conjuntos de datos de entrenamiento, ya sea por iniciativa voluntaria de las empresas o por intervención regulatoria, y esto debe cambiar.

Los modelos fundamentales se entrenan con grandes colecciones de datos, muchos de los cuales se recopilan de toda la web. La investigación del Instituto Allen de IA y The Washington Post sobre el popular conjunto de datos de entrenamiento C4 reveló que su contenido provenía de 15 millones de dominios web diferentes.

Conocer el contenido de los conjuntos de datos utilizados para entrenar modelos y cómo se han compilado es de vital importancia. Sin esta información, el trabajo de desarrolladores, investigadores y éticos para abordar sesgos o eliminar contenido perjudicial de los datos se ve obstaculizado. La información sobre los datos de entrenamiento también es crucial para que los legisladores evalúen si los modelos fundamentales han absorbido datos personales o material con derechos de autor. Además, los operadores previstos de los sistemas de IA y aquellos afectados por su uso son mucho más propensos a confiar en ellos si comprenden cómo se han desarrollado.

Sin embargo, algunas empresas no documentan el contenido de sus datos de entrenamiento, incluso internamente, por temor a encontrar información personal sobre individuos identificables, material con derechos de autor y otros datos obtenidos sin consentimiento.

En público, las empresas han utilizado diferentes argumentos para justificar la falta de transparencia en torno a sus datos de entrenamiento. OpenAI, en el lanzamiento de su modelo GPT-4, declaró que no compartiría información detallada sobre la «construcción del conjunto de datos» y otros aspectos del desarrollo del modelo debido al «panorama competitivo y las implicaciones de seguridad de los modelos a gran escala». Aunque algunas empresas han publicado los datos de ajuste fino, tienden a omitir los conjuntos de datos de entrenamiento más grandes y complejos que son más propensos a contener contenido perjudicial o material con derechos de autor.

Partes de la comunidad de IA han avanzado en la transparencia de los datos de entrenamiento. La plataforma Hugging Face, inspirada en los pioneros de la seguridad de la IA Emily Bender, Batya Friedman y Timnit Gebru, promueve el uso de Model Cards y Dataset Cards entre su comunidad de desarrolladores. Las Dataset Cards documentan cómo se creó un conjunto de datos, su contenido y posibles problemas legales o éticos asociados.

En julio de 2023, la Casa Blanca anunció que siete grandes empresas de IA se comprometieron a «desarrollar medidas técnicas sólidas para garantizar que los usuarios sepan cuándo el contenido es generado por IA, como el marcado de agua». Dado que los modelos fundamentales de IA han comenzado a entrenarse con datos generados por IA, estas herramientas desempeñarán un papel importante en documentar la procedencia de los datos de entrenamiento y la integridad de las salidas resultantes de la IA.

Las decisiones sobre qué documentar sobre los datos de entrenamiento podrían eventualmente salir de las manos de los desarrolladores. La Comisión Federal de Comercio de EE. UU. ha ordenado recientemente a OpenAI que documente todas las fuentes de datos utilizadas para entrenar sus grandes modelos de lenguaje. Un grupo de grandes medios de comunicación ha publicado una carta abierta instando a los legisladores de todo el mundo a introducir nuevas regulaciones que exijan transparencia en los conjuntos de datos de entrenamiento.

Se prevé que la demanda de información sobre los datos de entrenamiento sea la última ola en un esfuerzo continuo por la transparencia empresarial. En el Reino Unido, las leyes sobre el registro obligatorio y la publicación de información por parte de las empresas se remontan al siglo XIX, y a lo largo del tiempo, los reguladores han desarrollado enfoques estandarizados para evitar que cada empresa elija su propia forma de informar sobre sus finanzas y otras actividades. Quizás necesitemos lo mismo para las divulgaciones sobre los datos en los que se han entrenado los modelos fundamentales de IA.

Ya sea que las empresas den un paso adelante o que intervengan los gobiernos, deben asegurarnos de que los datos utilizados para entrenar sistemas de IA no estén envueltos en secreto. La confianza pública, nuestra capacidad para mitigar sus posibles daños y la eficacia de nuestro régimen regulatorio dependen de ello.

Liberar el poder de los espacios comunes europeos de datos para agilizar la información reglamentaria

Sziranyi, Z., Guasch, C., Nardin, A. et al., Unlocking the power of common European data spaces for streamlined regulatory reporting, Publications Office of the European Union, 2023, https://data.europa.eu/doi/10.2799/546237


Este documento temático tiene como objetivo explorar qué son los espacios de datos europeos comunes y cómo podrían ayudar en el contexto de la presentación de informes regulatorios. Al facilitar la consolidación, la descubribilidad y el intercambio de datos, los espacios de datos europeos comunes podrían desempeñar un papel beneficioso al respaldar la simplificación de las distintas etapas del proceso de presentación de informes regulatorios y, en consecuencia, reducir la carga administrativa.

¿Cómo hacer que los datos sean abiertos?

Jessica Farrell. How to Make Data Open? Stop Overlooking Librarians. Nature, 12 December 2023

La ‘Year of Open Science’ (Año de la Ciencia Abierta), declarada por la Oficina de Política Científica y Tecnológica de los Estados Unidos (OSTP, por sus siglas en inglés), está llegando a su fin. Esto siguió a un memorando de agosto de 2022 de la directora interina de la OSTP, Alondra Nelson, que ordenó que los datos y las publicaciones revisadas por pares de la investigación financiada con fondos federales deberían estar libremente accesibles para fines de 2025. Se espera que las agencias federales publiquen planes completos para este cambio a fines de 2024.

Sin embargo, los detalles sobre cómo se preservarán y harán públicos los datos aún no se han definido por completo. Jessica Farrell, quien trabajó en archivos durante diez años y ahora facilita dos comunidades de archivos digitales, aboga por la integración de archivistas digitales y bibliotecarios en proyectos de ciencia abierta para capitalizar las herramientas y enfoques que ya han creado para hacer que el conocimiento sea accesible y abierto al público.

Hacer que los datos estén abiertos y sigan el principio de ‘FAIR’ (encontrables, accesibles, interoperables y reutilizables) plantea preguntas técnicas, legales, organizativas y financieras. La autora destaca que los problemas técnicos, aunque complejos, son los más solucionables con suficiente financiamiento. Se destaca la importancia de la colaboración entre científicos y archivistas digitales para abordar estos desafíos y garantizar el acceso universal a los datos de investigación.

En cuanto a las barreras legales y organizativas, se menciona que en los Estados Unidos, la Ley de Derechos de Autor del Milenio Digital de 1998 ha presentado desafíos para las bibliotecas al no permitirles romper cerraduras digitales en el software, incluso para fines de preservación o investigación. Gracias a la defensa de la Software Preservation Network, se han actualizado reglas que permiten a las bibliotecas romper esas cerraduras para preservar el software en sus colecciones, asegurando el acceso a largo plazo a los datos.

Se destaca la necesidad de superar las concepciones obsoletas sobre la biblioteconomía y reconocer a los archivistas y bibliotecarios como co-creadores en el proceso de producción de conocimiento. La autora aboga por una mayor colaboración entre científicos y archivistas digitales, utilizando herramientas y estándares existentes para garantizar que los datos sean FAIR (encontrables, accesibles, interoperables y reutilizables). Finalmente, se mencionan ejemplos exitosos de colaboración entre investigadores y archivistas, como la Cumbre de Ciencia Abierta organizada por la NASA y el Servicio de Información Científica en CERN, y se destaca la visión compartida de un mundo donde los datos abiertos y confiables estén disponibles para todos.

Potenciando la capacidad de Gestión de Datos de Investigación a través de la colaboración estratégica entre bibliotecas

Building RDM Capacity Through Strategic Library Collaboration. Ohio: OCLC, 2023

Texto completo


OCLC Research ha publicado el nuevo informe Building RDM Capacity Through Strategic Library Collaboration, que proporciona recomendaciones prácticas basadas en estudios de casos reales que las bibliotecas pueden aplicar para hacer que sus propias colaboraciones sean exitosas y sostenibles.

La gestión de datos de investigación es un interés estratégico cada vez más vital para las bibliotecas académicas, y muchas colaboran con otras bibliotecas para ampliar los recursos y satisfacer las necesidades institucionales de gestión de datos de investigación (RDM, por sus siglas en inglés). La colaboración bibliotecaria es una decisión estratégica que puede transformar las capacidades de RDM de su institución, pero el éxito y la sostenibilidad de la colaboración no están garantizados y requieren una cuidadosa consideración.

El informe comparte experiencias y percepciones del Texas Data Repository, Portage Network, and Data Curation Network para destacar los desafíos, oportunidades y consideraciones en la construcción de la capacidad de servicios de RDM a través de la colaboración.

Este informe aplica los siguientes cuatro marcos estratégicos introducidos en el informe anterior de OCLC Library Collaboration as a Strategic Choice (La colaboración entre bibliotecas como elección estratégica) a los estudios de caso que se analizan aquí. Derivados de conceptos económicos, estos cuatro marcos estratégicos pueden ayudar a comprender el éxito potencial y la sostenibilidad de una colaboración:

  • Coordinación: Considera las estrategias para coordinar los esfuerzos a escala de grupo, mitigar los riesgos y fomentar la confianza y el compromiso entre los socios.
  • Costes: Analizar los costes de transacción asociados a la colaboración, desde la identificación de socios hasta la consecución de consensos y la asignación de recursos de personal.
  • Cambios: Afrontar los retos de la gestión del cambio con información sobre la dependencia del camino y los costes de cambiar a soluciones colaborativas.
  • Control: Descubre cómo abordar el problema agente-principal, especialmente en los acuerdos de gobernanza, y establecer mecanismos de supervisión eficaces.

Gestión de datos de investigación: estudios de caso de universidades norteamericanas, holandesas y finlandesas

Rousi, Antti M., Reid I. Boehm, y Yan Wang. 2023. «Data stewardship: case studies from North-American, Dutch, and Finnish universities». arXiv. https://doi.org/10.48550/arXiv.2312.04092.

La gestión adecuada de datos de investigación contribuye a la calidad y la integridad de la investigación, promueve la transparencia y facilita la validación y la reproducción de los resultados. También es crucial para satisfacer las crecientes expectativas de acceso abierto y compartir datos en la comunidad científica. Esta investigación presenta un análisis de tres programas variados de gestión de datos implementados en la Universidad de Purdue (Estados Unidos), la Universidad Técnica de Delft (Países Bajos) y la Universidad Aalto (Finlandia).


La gestión de datos de investigación se refiere al conjunto de prácticas y procesos diseñados para planificar, organizar, almacenar, compartir, preservar y gestionar los datos generados en el contexto de proyectos de investigación. Implica toda la vida útil de los datos, desde su creación hasta su eventual disposición o archivo. La gestión eficaz de datos de investigación es esencial para garantizar la integridad, la accesibilidad y la reutilización de los datos, así como para cumplir con los requisitos éticos y legales asociados con la investigación.

Algunos aspectos clave de la gestión de datos de investigación incluyen:

  • Planificación: Desarrollar un plan de gestión de datos antes de iniciar un proyecto de investigación para abordar cuestiones como la recopilación, el formato, la documentación y el almacenamiento de datos.
  • Documentación: Registrar metadatos detallados y descripciones que faciliten la comprensión y el uso futuro de los datos, incluyendo información sobre la metodología, la instrumentación y cualquier transformación aplicada a los datos.
  • Almacenamiento y Seguridad: Asegurar que los datos se almacenen de manera segura y se respalden adecuadamente para evitar la pérdida y garantizar la integridad a lo largo del tiempo.
  • Acceso y Difusión: Facilitar el acceso a los datos para colaboradores, revisores y otros interesados, cumpliendo con requisitos éticos y legales, y fomentando la transparencia y la colaboración en la investigación.
  • Preservación: Desarrollar estrategias para preservar a largo plazo los datos de investigación valiosos, garantizando su disponibilidad y reutilización incluso después de la conclusión del proyecto original.
  • Cumplimiento Normativo: Asegurarse de que la gestión de datos cumpla con las normativas, políticas y estándares éticos y legales aplicables, como los requisitos de privacidad y protección de datos.

Dado que la legislación nacional, los servicios nacionales federados, las políticas institucionales y las organizaciones de servicios de investigación institucionales pueden diferir, la gestión de datos se manifiesta de manera diferente en las instituciones de educación superior en todo el mundo. Este trabajo busca elaborar el panorama de diferentes programas de administración de datos que se ejecutan en diversos arreglos institucionales y entornos de investigación.

Utilizando la autoetnografía y métodos de estudio de caso, este estudio describe tres programas distintos de administración de datos de la Universidad de Purdue (Estados Unidos), la Universidad Técnica de Delft (Países Bajos) y la Universidad Aalto (Finlandia). Además, este trabajo investigó los arreglos institucionales y los entornos de investigación nacionales de los programas, centrándose en iniciativas lideradas por bibliotecas académicas u servicios similares.

Este trabajo demuestra que la administración de datos puede entenderse de manera diferente en diferentes contextos nacionales e institucionales. Los programas de gestión de datos diferían en términos de roles, organización y estructuras de financiamiento. Además, la combinación de políticas y legislación, estructuras organizativas e infraestructuras nacionales era diferente.

El trabajo amplía la literatura actual sobre la gestión de datos al proporcionar descripciones detalladas no solo de tres programas distintos de administración de datos, sino también al resaltar cómo los entornos de investigación pueden afectar su organización.

Declaración conjunta sobre Datos de Investigación de STM, DataCite y Crossref

«Joint Statement on Research Data – DataCite». DataCie. Accedido 29 de noviembre de 2023. https://datacite.org/blog/joint-statement-on-research-data/.

Ampliar imagen


En 2012, DataCite y STM redactaron una declaración conjunta inicial sobre la vinculación y citación de datos de investigación. Desde entonces, ha habido un progreso significativo, con casi 10 millones de citas de datos rastreadas, numerosos repositorios adoptando las mejores prácticas de citación de datos, miles de revistas implementando políticas de datos, proporcionando declaraciones de disponibilidad de datos, estableciendo enlaces persistentes entre artículos y conjuntos de datos, y observando un número creciente de financiadores introduciendo políticas de datos. Dado este avance, el enfoque actual es actualizar las recomendaciones para los diversos interesados involucrados en el intercambio de datos de investigación.

La premisa de la declaración conjunta original sigue siendo válida: la mayoría de los interesados, desde investigadores y financiadores hasta bibliotecarios y editores, están de acuerdo sobre los beneficios de poner los datos de investigación a disposición y hacerlos localizables para su reutilización por parte de otros. Esto mejora la utilidad y rigor del registro académico. Sin embargo, compartir datos de investigación aún no es un paso evidente en el ciclo de vida de la investigación. Ahora contamos con una infraestructura de comunicación académica suficiente para generar un cambio generalizado y creemos que está ganando impulso para la acción colectiva.

En este contexto, DataCite, una comunidad global con más de 3000 repositorios en todo el mundo, y STM, cuya membresía incluye a más de 140 organizaciones de publicación científica, técnica y médica, están emitiendo esta declaración conjunta. Crossref, una infraestructura abierta sin fines de lucro con más de 18.000 miembros institucionales de 150 países, se une a este llamado, reconociendo la necesidad de un enfoque más amplio en la citación de datos. El objetivo de esta declaración es acelerar la adopción de mejores prácticas y políticas, y fomentar el desarrollo continuo de políticas críticas en colaboración con un amplio grupo de interesados.


Los signatarios de esta declaración recomiendan lo siguiente como mejores prácticas en el intercambio de datos de investigación:

  1. Cuando publican sus resultados, los investigadores depositan los datos de investigación relacionados y los resultados en un repositorio de datos confiable que asigna identificadores persistentes (DOIs cuando están disponibles). Los investigadores enlazan a los datos de investigación utilizando identificadores persistentes.
  2. Al utilizar datos de investigación creados por otros, los investigadores brindan atribución citando los conjuntos de datos en la sección de referencias mediante identificadores persistentes.
  3. Los repositorios de datos facilitan el intercambio de resultados de investigación de manera FAIR, incluido el soporte para la calidad y completitud de los metadatos.
  4. Los editores establecen políticas de datos apropiadas para las revistas, describiendo la forma en que se compartirán los datos junto con el artículo publicado.
  5. Los editores establecen instrucciones para que los autores incluyan Citas de Datos con identificadores persistentes en la sección de referencias de los artículos.
  6. Los editores incluyen Citas de Datos y enlaces a datos en Declaraciones de Disponibilidad de Datos con identificadores persistentes (DOIs cuando están disponibles) en los metadatos del artículo registrados en Crossref.
  7. Además de las Citas de Datos, las Declaraciones de Disponibilidad de Datos (legibles por humanos y máquinas) se incluyen en los artículos publicados cuando corresponde.
  8. Los repositorios y los editores conectan artículos y conjuntos de datos mediante conexiones de identificadores persistentes en los metadatos y listas de referencias.
  9. Los financiadores y las organizaciones de investigación brindan a los investigadores orientación sobre prácticas de ciencia abierta, rastrean el cumplimiento de políticas de ciencia abierta cuando es posible y promueven e incentivan a los investigadores a compartir, citar y vincular abiertamente los datos de investigación.
  10. Los financiadores, instituciones de formulación de políticas, editores y organizaciones de investigación colaboran para alinear las políticas y directrices FAIR de datos de investigación.
  11. Todos los interesados colaboran en el desarrollo de herramientas, procesos e incentivos a lo largo del ciclo de investigación para facilitar el intercambio de datos de investigación de alta calidad, haciendo que todos los pasos del proceso sean claros, fáciles y eficientes para los investigadores mediante el suministro de apoyo y orientación.
  12. Los interesados responsables de la evaluación de la investigación tienen en cuenta el intercambio de datos y la citación de datos en sus estructuras de sistemas de recompensas y reconocimiento.

Espacios de datos europeos y el papel de los datos abiertos

Publications Office of the European Union, European data spaces and the role of open data, Publications Office of the European Union, 2023, https://data.europa.eu/doi/10.2830/1603

En febrero de 2020, la Comisión Europea publicó su estrategia de datos europeos. La estrategia tiene como objetivo crear un mercado único para datos que fluyan libremente dentro de la Unión Europea (UE) en beneficio de ciudadanos, empresas, investigadores y administraciones públicas.

En el núcleo de esta estrategia se encuentran los espacios comunes de datos europeos que abarcan 10 campos estratégicos. Al proporcionar una infraestructura de datos relevante y marcos de gobernanza, estos espacios de datos deberían facilitar la agrupación y compartición de datos dentro y entre sectores en Europa. El intercambio de datos y el inicio de espacios comunes de datos europeos cuentan con el respaldo de medidas políticas, legislativas y de financiamiento por parte de la Comisión. Este cambio en el panorama de intercambio de datos afecta el papel de data.europa.eu como portal oficial para datos abiertos europeos.

Se llevó a cabo un panel en línea el 7 de junio de 2023 para discutir el potencial de los espacios de datos para los ciudadanos, empresas y la economía de Europa. Este informe captura los resultados de la discusión del panel y presenta consideraciones para data.europa.eu en vista de un panorama de intercambio de datos en evolución. Como antecedente, se describen conceptos básicos de espacios de datos y la legislación relevante de la economía de datos de Europa. Luego, el informe presenta los resultados de la discusión del panel y ofrece sugerencias para data.europa.eu y la comunidad de espacios de datos. Específicamente, se destaca el espacio de datos de contratación pública (PPDS) como un ejemplo de iniciativa de espacio de datos en práctica. De manera similar, se presenta el Centro de Apoyo para Espacios de Datos (DSCC) como un ejemplo de las estructuras de apoyo que los espacios de datos requieren para tener éxito. También se aborda la alfabetización digital como un importante facilitador de las ambiciones digitales de Europa.

Estado de los Datos Abiertos 2023

Science, Digital, Mark Hahnel, Graham Smith, Henning Schoenenberger, Niki Scaplehorn, y Laura Day. «The State of Open Data 2023». Report. Digital Science, 14 de noviembre de 2023. https://doi.org/10.6084/m9.figshare.24428194.v1.

Texto completo

El informe anual «The State of Open Data» destaca que casi tres cuartas partes de los investigadores encuestados afirmaron no recibir el apoyo necesario para compartir abiertamente sus datos. Estos datos resaltan la creciente necesidad de una mayor colaboración comunitaria y herramientas para respaldar a los investigadores en la transición hacia prácticas sostenibles de ciencia abierta.

Para el 23% restante de los encuestados que buscaron y recibieron apoyo para compartir datos, este apoyo provino principalmente de fuentes internas (colegas/supervisores – 61%), seguido por bibliotecas institucionales (31%), la oficina de investigación o la experiencia interna institucional (26%), editoriales (21%) y financiadores (17%).

Más de 6000 investigadores respondieron a nivel mundial, con la mayor proporción de respuestas provenientes de India (12%), China (11%) y Estados Unidos (9%). Por primera vez, este año se preguntó a los encuestados sobre sus experiencias en el uso de inteligencia artificial (IA) para recopilar y compartir datos. En un momento en que casi tres cuartas partes de los investigadores encuestados dicen que nunca han recibido apoyo para hacer que sus datos estén abiertamente disponibles, explorar el potencial de las tecnologías de inteligencia artificial (IA) para respaldar el proceso de intercambio de datos y medir las actitudes actuales puede permitir a los interesados en todo el ecosistema de investigación considerar el papel futuro que la IA podría desempeñar en el proceso de investigación.

Otros hallazgos clave de este informe muestran que:

  • El 60% de los encuestados creen que no reciben suficiente crédito por compartir sus datos, lo que sigue siendo una preocupación continua que ha aparecido en los informes «The State of Open Data» durante los últimos 8 años. Esto obstaculiza la promoción de la ciencia abierta y las prácticas sostenibles de intercambio de datos al socavar los incentivos, la confianza y la colaboración.
  • Se necesita un enfoque global más matizado para la gestión de datos de investigación: una talla única no sirve para todos. Por ejemplo, hubo un consenso general a favor de un mandato nacional para los datos de investigación abierta (64%), con respuestas de India y Alemania mostrando niveles más altos de apoyo (ambas 71%) en comparación con otros países.
  • La etapa de la carrera no es un factor significativo en la conciencia o los niveles de apoyo a los datos abiertos; se necesita un alcance más inclusivo al organizar discusiones, foros y paneles en el espacio de investigación abierta.
  • La conciencia sobre la IA aún no se ha traducido en acción: aunque casi la mitad de los encuestados eran conscientes de las herramientas de IA generativas para la recopilación de datos, el procesamiento y la creación de metadatos, la mayoría aún no las está utilizando.

Lista mundial de especies digitales en peligro de extinción: Día Internacional de la Preservación Digital

«Is data loss a choice? Global ‘Bit List’ of Endangered Digital Species 2023 released on World Digital Preservation Day – Digital Preservation Coalition». Accedido 3 de noviembre de 2023. https://www.dpconline.org/news/it-list-2023-is-data-loss-a-choice.

Texto completo

La Coalición para la Preservación Digital (Digital Preservation Coalition) ha publicado hoy, Día Mundial de la Preservación Digital, su edición 2023 de la «List’ of Endangered Digital Species»

La Lista Mundial de Especies Digitales en Peligro de la DPC, es un recurso abierto para la defensa de la preservación digital, es una lista comunitaria de materiales digitales en peligro que se revisa cada dos años. Las entradas de la lista son propuestas por la comunidad, que está a la vanguardia de los esfuerzos de preservación digital, y son revisadas por el Consejo de la Bit List, un grupo de organizaciones internacionales que representan la experiencia mundial en la preservación de las especies digitales incluidas en la lista.

En 2023, la Bit List incluye 87 entradas, lo que supone un notable aumento con respecto a las 73 de 2021. Aunque entre las nuevas entradas más significativas se incluye «‘First Nations Secret/Sacred Cultural Material», otras entradas se han reestructurado, fusionado y desagregado, lo que ha contribuido a este aumento general.

En respuesta a la aparente inercia, y en un contexto de riesgo cada vez mayor, el CPD tiene una serie de recomendaciones básicas.

  • Hace un llamamiento a auditores, reguladores y legisladores para que formulen planes que exijan un mayor nivel de competencia y atención a la preservación digital en el contexto de las industrias reguladas y las autoridades públicas para prevenir la pérdida de datos, reconociendo los perjuicios reputacionales y reales para las partes interesadas, para ellas mismas y para las generaciones futuras que se derivan, y que son totalmente evitables.
  • Pide a los tribunales y a las fuerzas y cuerpos de seguridad que utilicen todo el peso de la ley para perseguir las pérdidas de datos que se produzcan por negligencia criminal o prevaricación, especialmente aquellas supresiones que pongan de manifiesto una mala conducta profesional o impidan la rendición pública de cuentas.
  • Pide a los responsables del tratamiento de datos, a los directores de tecnología y a los comités de auditoría de las empresas que reconozcan que los compromisos a largo plazo no pueden cumplirse únicamente a base de proyectos y que, por tanto, integren los proyectos de preservación digital a corto plazo y exploratorios en planes estratégicos a más largo plazo.

El informe 2023 Bit List también es alentador y recuerda a los usuarios que la preservación digital es factible. Las «honrosas excepciones» a las que se refiere el Dr. Currie son dos entradas que han pasado a clasificaciones de menor riesgo. La reclasificación de los «Datos de investigación publicados anexos a artículos de revistas» y de los «Datos de investigación no publicados» se basa en mejoras sólidas y materiales. En estos casos y en el pequeño número de tendencias de mejora, el consejo de la Lista de Bits ha podido identificar el impacto de las aclaraciones políticas y los lugares en los que se han aplicado el esfuerzo y la experiencia.