Archivo de la etiqueta: Gestión de datos de investigación

DeSci Connect de La Biblioteca Digital Max Planck (MPDL) fomenta el intercambio de datos de manera segura, transparente y responsable



Kleinfercher, Friederike. «MPDL Launches the Max Planck Decentralized Science Initiative: DeSci Connect.» Max Planck Digital Library, November 2024. https://www.mpdl.mpg.de/en/about-us/news/13-nachrichten/1025-mpdl-launches-the-max-planck-decentralized-science-initiative-desci-connect-2.html.

La Biblioteca Digital Max Planck (MPDL) ha lanzado la Iniciativa de Ciencia Descentralizada Max Planck, “DeSci Connect”. Esta iniciativa busca transformar la colaboración científica al adoptar principios de apertura, transparencia y democratización. A través de la integración de tecnologías Web3, DeSci Connect fomenta el intercambio de datos de manera segura, transparente y responsable, abriendo nuevos caminos para el descubrimiento científico.

El objetivo de la iniciativa es participar activamente en el movimiento internacional de DeSci, comprender su impacto en la comunidad científica y orientar su evolución. También proporcionará asesoramiento estratégico a la gestión de la Sociedad Max Planck y a los investigadores, destacando nuevas herramientas y metodologías DeSci que puedan mejorar los resultados científicos. DeSci Connect busca integrar estos enfoques innovadores para empoderar a los investigadores, promoviendo la transparencia, colaboración y eficiencia en su trabajo.

La iniciativa también impulsa modelos Web3 para la financiación y evaluación de la investigación, permitiendo que los científicos reciban apoyo directo de la comunidad y favoreciendo una investigación sostenible respaldada por ella. Con DeSci Connect, la Sociedad Max Planck se posiciona como una de las primeras organizaciones tradicionales de investigación en liderar la entrada estratégica en el campo de la ciencia descentralizada.

Modelos empresariales sostenibles para los datos abiertos: una estrategia para la reutilización en el sector público

 Exploring Business Models for Public Open Data Resources

New Business Models for Data-driven Services

Aunque la UE ha promovido el acceso a datos abiertos mediante iniciativas como la Directiva de Datos Abiertos y el Programa Europa Digital, persisten barreras significativas, entre ellas desafíos técnicos, legales y culturales, que limitan el aprovechamiento pleno del potencial económico de los datos abiertos.

Para enfrentar estos obstáculos, el informe propone recomendaciones clave de políticas. Primero, sugiere un enfoque de ecosistema que fomente asociaciones público-privadas y apoye a organizaciones intermediarias para conectar a proveedores y usuarios de datos. También aboga por inversiones en alfabetización de datos y en habilidades analíticas dentro de las instituciones públicas, así como en infraestructuras tecnológicas sólidas. Finalmente, destaca la necesidad de estrategias de publicación centradas en el usuario que prioricen conjuntos de datos de alto valor y garanticen su calidad y usabilidad.

Desbloqueo de datos del Pacto Verde: enfoques innovadores para la gobernanza y el intercambio de datos en Europa

Ponti, M., Maccani, G., Portela, M., Pierri, P. et al., Unlocking Green Deal data – Innovative approaches for data governance and sharing in Europe, Maccani, G.(editor) and Thabit Gonzalez, S.(editor), Publications Office of the European Union, 2024, https://data.europa.eu/doi/10.2760/0517622

El informe Unlocking Green Deal Data: Innovative Approaches for Data Governance and Sharing in Europe analiza enfoques innovadores para gestionar y compartir datos en apoyo a los objetivos del Pacto Verde Europeo. Basándose en el marco político y legal de la Estrategia Europea de Datos (2020) y en la creación de espacios comunes de datos europeos, el informe examina la gobernanza y el intercambio de datos relacionados con el Pacto Verde, enfocándose en nuevos instrumentos regulatorios, como la Ley de Gobernanza de Datos y la Ley de Datos.

Se analizan los incentivos y desincentivos actuales para el intercambio de datos, el papel de los intermediarios de datos y las organizaciones de altruismo de datos, así como prácticas de gobernanza relacionadas con los datos generados por los ciudadanos (CGD). Además, incluye perspectivas del sector privado y presenta recomendaciones para apoyar la revisión de la Directiva INSPIRE (2007), en el contexto del espacio común de datos del Pacto Verde Europeo, fomentando un ecosistema de datos más justo y sostenible.

Adopción y barreras en la puesta en común de datos abiertos entre comunidades de investigación física

Holst, Faye. «IOP Publishing Study Reveals Varied Adoption and Barriers in Open Data Sharing among Physical Research Communities». IOP Publishing, 21 de octubre de 2024. https://ioppublishing.org/news/iop-publishing-study-reveals-varied-adoption-and-barriers-in-open-data-sharing-among-physical-research-communities-copy/.

Un estudio realizado por IOP Publishing (IOPP) ha puesto de manifiesto las diferencias en la adopción de la compartición de datos abiertos en las comunidades de investigación en ciencias físicas y las diversas barreras que enfrentan.

El acceso a los datos permite la replicación de la investigación y fortalece la confianza en los resultados. Los principios FAIR se introdujeron en 2016 para estandarizar los metadatos, asignar identificadores persistentes y proporcionar licencias de uso claras, asegurando que los datos de investigación sean fácilmente localizables, accesibles, combinables y reutilizables con la debida atribución.

Desde 2022, IOPP exige a todos los autores que incluyan una declaración de disponibilidad de datos en sus artículos, especificando si y cómo se pueden acceder a los datos que respaldan su investigación. Esta política se amplió en 2023, exigiendo a los autores que no puedan o no deseen compartir sus datos públicamente que expliquen las razones.

El análisis incluyó más de 30,000 artículos de investigación, cuyos hallazgos fueron publicados en el documento de IOPP titulado “Bringing researchers on board: Navigating the barriers to sharing data publicly”.

Hallazgos clave:

  1. Científicos ambientales:
    • Más del 80% comparte sus datos de investigación abiertamente.
    • Casi el 60% sigue los principios de Findability, Accessibility, Interoperability, and Reusability (FAIR).
    • Mayor barrera: restricciones legales relacionadas con la propiedad de datos de terceros.
  2. Físicos:
    • Más del 70% comparte datos de investigación abiertamente.
    • Solo el 18% adhiere a los principios FAIR.
    • Mayor barrera: los formatos de datos son considerados inaccesibles, incluso si están disponibles.
  3. Ingenieros:
    • Solo el 55% comparte sus datos abiertamente.
    • Menos del 8% sigue los principios FAIR.
    • Mayor barrera: falta de un repositorio conocido para enviar datos.
  4. Científicos de materiales:
    • Más del 70% comparte sus datos abiertamente.
    • Solo cerca del 5% sigue los principios FAIR.
    • Mayor barrera: datos confidenciales o sensibles.

Conjuntos de datos de alto valor – Posibilidad de encontrar y comparar metadatos entre países

 Eendenburg, L., Fernández Nebreda, B., Suárez, J. and Rozbroj Jasinskaja, N., High-value datasets – Cross-country findability and comparability of metadata, Fernández Nebreda, B.(editor) and Rozbroj Jasinskaja, N.(editor), Publications Office of the European Union, 2024, https://data.europa.eu/doi/10.2830/0033148

El estudio analiza la implementación de conjuntos de datos de alto valor (HVDs) en los Estados miembros de la Unión Europea, cruciales para impulsar las iniciativas de datos abiertos y promover la reutilización de datos entre países. Aunque el progreso varía entre los Estados, es necesario un enfoque estandarizado para asegurar la comparabilidad e interoperabilidad de estos conjuntos de datos a nivel de la UE. El estudio aborda los desafíos en la armonización de metadatos y la mejora de la accesibilidad y localización de los HVDs, guiado por los principios FAIR (facilidad de localización, accesibilidad, interoperabilidad y reutilización) y las directrices DCAT-AP HVD. Esta investigación piloto, realizada entre abril y mayo de 2024, antes de la entrada en vigor del Reglamento de Implementación de la Comisión (UE) 2023/138 en junio de 2024, evalúa la localización y comparabilidad de los metadatos de los HVDs en países seleccionados (Dinamarca, Estonia, Letonia y Finlandia). La evaluación se basa en una muestra de 24 conjuntos de datos bajo seis categorías temáticas: geoespacial, observación de la Tierra y medio ambiente, meteorología, estadísticas, empresas y propiedad empresarial, y movilidad. El estudio también ofrece recomendaciones para mejorar la estandarización de los metadatos y la localización de los conjuntos de datos.

Código de buenas prácticas en materia de datos de investigación de COUNTER

Code of Practice Release 5.1. COUNTER, 2024

Ver código

El Código de Prácticas para Datos de Investigación, desarrollado en colaboración con Make Data Count, marca un hito en las prácticas de evaluación de datos al permitir la generación de informes comparables sobre el uso de datos a través de plataformas. En mayo, se informó que Make Data Count y COUNTER están explorando el futuro del Código, y en los próximos meses se trabajará en su integración con la Versión 5.1 del Código de Prácticas de COUNTER.

Los datos de entrenamiento para plataformas de Inteligencia Artificial podrían escasear si los sitios web restringen los robots rastreadores

«With Robots.Txt, Websites Halt AI Companies’ Web Crawlers – IEEE Spectrum». Accedido 3 de septiembre de 2024. https://spectrum.ieee.org/web-crawling.

El informe de la Data Provenance Initiative, un grupo de investigadores voluntarios especializados en inteligencia artificial (IA), revela una creciente preocupación sobre la disminución de la disponibilidad de datos públicos utilizados para entrenar modelos de IA generativa. Estos modelos, como los desarrollados por empresas líderes como OpenAI y Anthropic, dependen de enormes conjuntos de datos extraídos de la web, que incluyen información recopilada de sitios públicos como blogs, redes sociales y foros. Sin embargo, muchas organizaciones están tomando medidas para proteger sus datos de estos rastreadores, utilizando el archivo robots.txt, que impide que los bots accedan a determinadas partes de sus sitios web.

El informe, tituladoConsent in Crisis: The Rapid Decline of the AI Data Commons destaca que esta tendencia de restringir el acceso a datos es particularmente notable en sitios monetizados como los de noticias, artistas y otros contenidos protegidos por derechos de autor. Estos sitios están preocupados por cómo la IA generativa podría afectar sus ingresos y, por tanto, están implementando barreras para proteger su contenido.

Shayne Longpre, uno de los investigadores principales del informe, explicó que este cambio tiene serias implicaciones para el futuro de la IA. A medida que más sitios bloquean a los rastreadores, los modelos de IA se verán forzados a entrenarse con datos de menor calidad o menos actualizados, lo que podría comprometer su rendimiento y precisión. Además, aunque algunas grandes empresas de IA podrían superar este desafío al negociar acuerdos exclusivos para acceder a datos de alta calidad, esto podría generar problemas de competencia y aumentar la barrera de entrada para nuevas empresas en el campo de la IA.

El informe también menciona la creciente preocupación por el uso de datos sintéticos como alternativa, que aunque tiene potencial, podría llevar a problemas como la «degradación del modelo» si se basa en datos de baja calidad.

Las empresas de IA deben jugar limpio cuando utilizan datos académicos en el entrenamiento de sus modelos

«AI Firms Must Play Fair When They Use Academic Data in Training». Nature 632, n.o 8027 (27 de agosto de 2024): 953-953. https://doi.org/10.1038/d41586-024-02757-z.

Las empresas de inteligencia artificial (IA) deben actuar de manera justa cuando utilizan datos académicos en el entrenamiento de sus modelos. Los investigadores están preocupados por el uso sin restricciones de su propiedad intelectual en la formación de modelos de lenguaje como ChatGPT. Es crucial establecer reglas claras sobre el uso aceptable de estos datos.

Actualmente, no se sabe con precisión qué datos se usaron para entrenar modelos como ChatGPT, pero es probable que se hayan utilizado millones de artículos académicos, incluidos aquellos bajo acceso abierto y posiblemente también artículos protegidos por derechos de autor. Esto plantea preguntas sobre si los creadores de estos datos deberían recibir crédito y cómo.

El tema es complicado por las leyes de propiedad intelectual, que varían según la jurisdicción y no siempre son claras sobre si la recolección de datos o su uso para crear modelos de IA constituye una infracción de derechos de autor. Algunas empresas de IA, para evitar litigios, están comenzando a comprar licencias para los datos utilizados en el entrenamiento.

El uso de materiales bajo licencias como Creative Commons, que promueven la distribución y reutilización libre, también genera ambigüedades. Aunque no siempre se considera una infracción el uso de estos materiales para entrenar IA, hay preocupaciones sobre cómo las IA pueden afectar a los creadores, incluyendo a investigadores cuyo trabajo podría ser reutilizado sin la atribución adecuada.

La atribución es un principio fundamental en la ciencia, y algunos investigadores consideran que el uso de datos científicos por modelos comerciales de IA excede lo que las exenciones legales actuales estaban destinadas a permitir. Dado que es casi imposible atribuir correctamente las contribuciones cuando se usan millones de fuentes, se han sugerido soluciones como la generación aumentada por recuperación, que podría permitir a los modelos citar trabajos relevantes.

Dar a los investigadores la opción de excluir su trabajo del entrenamiento de IA podría aliviar sus preocupaciones, y algunas herramientas ya están emergiendo para facilitar esto. Además, leyes como la Ley de IA de la UE, que exige mayor transparencia sobre los datos utilizados en el entrenamiento, podrían fortalecer el control de los creadores sobre su trabajo.

Es necesario continuar investigando si se requieren soluciones más radicales, como nuevas licencias o cambios en la ley de derechos de autor. Las herramientas de IA, al aprovechar un ecosistema de datos construido por movimientos de código abierto, deben respetar las expectativas de reciprocidad y uso razonable, para evitar desincentivar la creación original y asegurar que los creadores mantengan cierto control sobre su obra.

Anonimización: La ciencia imperfecta de utilizar los datos preservando la privacidad

Gadotti, Andrea, Luc Rocher, Florimond Houssiau, Ana-Maria Creţu, y Yves-Alexandre de Montjoye. «Anonymization: The imperfect science of using data while preserving privacy». Science Advances 10, n.o 29 (17 de julio de 2024): eadn7053. https://doi.org/10.1126/sciadv.adn7053.

La información sobre nosotros, nuestras acciones y nuestras preferencias se crea a escala a través de encuestas o estudios científicos o como resultado de nuestra interacción con dispositivos digitales como teléfonos inteligentes y rastreadores de fitness. La capacidad de compartir y analizar estos datos de forma segura es clave para el progreso científico y social. La anonimización es considerada por científicos y responsables políticos como una de las principales formas de compartir datos minimizando los riesgos para la privacidad. En esta revisión, ofrecemos una perspectiva pragmática de la literatura moderna sobre ataques a la privacidad y técnicas de anonimización. Analizamos las técnicas tradicionales de desidentificación y sus grandes limitaciones en la era de los macrodatos. A continuación, centramos nuestra atención en los enfoques modernos para compartir datos agregados anónimos, como los sistemas de consulta de datos, los datos sintéticos y la privacidad diferencial. Llegamos a la conclusión de que, aunque no existe una solución perfecta, la aplicación de técnicas modernas al tiempo que se auditan sus garantías contra los ataques es el mejor enfoque para utilizar y compartir datos de forma segura hoy en día.

Un nuevo indicador de Ciencia Abierta: medición del registro de estudios

PLOS. (2024, julio 1). A new Open Science Indicator: Measuring study registration. The Official PLOS Blog. https://theplosblog.plos.org/2024/07/a-new-open-science-indicator-measuring-study-registration/

El 1 de julio de 2024, PLOS lanzó un nuevo indicador de registro de estudios, mostrando un crecimiento lento pero constante en su adopción. El conjunto de datos incluye prácticas de Ciencia Abierta como la compartición de datos y códigos, y la publicación de preprints. Se solicita retroalimentación para mejorar el indicador y asegurar su utilidad.

Con el último lanzamiento de los resultados de los Indicadores de Ciencia Abierta (OSI) de PLOS, estamos introduciendo un nuevo indicador para el registro de estudios, también conocido como preregistro. Los resultados de esta versión preliminar del indicador muestran que la adopción es menor en comparación con otros indicadores, pero está creciendo, aunque lentamente. Con el tiempo, más investigadores pueden descubrir cómo registrar y compartir públicamente el diseño de un estudio antes de conocer los resultados puede aumentar la confianza en su trabajo.

Este lanzamiento también proporciona un primer vistazo a las prácticas de Ciencia Abierta para artículos publicados en 2024, actualizando los resultados de compartición de datos, compartición de código y publicación de preprints hasta el primer trimestre de este año. El conjunto de datos completo, que se remonta a 2018 y ahora comprende 135.214 artículos, está siempre disponible de forma gratuita para acceso y reutilización.


Desarrollo del nuevo indicador

El registro de estudios ha sido identificado como una práctica prioritaria de Ciencia Abierta para monitorear en la investigación biomédica. También es un indicador de interés para los pilotos organizados por la Red de Reproducibilidad del Reino Unido, en los cuales PLOS y DataSeer están participando. Para los fines de OSI, definiendo el registro de estudios como “el plan para un estudio de investigación, incluyendo preguntas/hipótesis de investigación, detalles sobre el diseño de la investigación y/o planes para el análisis de datos, que se ha puesto a disposición para compartir públicamente con el fin de asegurar un resultado imparcial y apoyar la diferenciación de direcciones de investigación planificadas y no planificadas”.

Desde ahí, se trabaja para desarrollar un enfoque para medir el registro de estudios en la literatura científica publicada. Inicialmente se enfoca en detectar referencias a registros que recogen información estructurada sobre el diseño de un estudio, incluyendo registros de ensayos clínicos, registros de revisiones sistemáticas, registros de estudios en animales y otros registros de propósito general como Open Science Framework. Posteriormente, se emparejan identificadores persistentes y otros enlaces con los registros correspondientes.

Este enfoque—que cubre más de 30 registros—es el más completo que se ha desarrollado e implementado a escala. Pero, debido a que se basa en una lista permitida predefinida de registros (ver la declaración de métodos del indicador de registro de estudios para más información), es posible que haya registros que se pasen por alto.


¿Qué tan común es el registro de estudios?

En los últimos cinco años, las tasas de registro de estudios en PLOS han aumentado lenta pero constantemente, del 5% de los artículos en 2018 al 7% en 2023. La misma tendencia general se puede observar en el corpus comparador, con tasas que aumentan del 6% en 2018 al 7% en 2023.

El registro más utilizado por los autores de PLOS es Clinicaltrials.gov, seguido por el registro de revisiones sistemáticas PROSPERO. Pero también se puede observar por primera vez con este nuevo indicador la prevalencia de registros usando el Open Science Framework y otros registros, que cubren una amplia variedad de diseños de estudio. Los datos que se están publicando actualmente no están optimizados para segmentar por disciplina, aunque una versión anterior del conjunto de datos de OSI incluye campos de investigación para la mayoría de los artículos relevantes y planeamos compartir un análisis de los datos de registro de estudios por campo más adelante este año. Otras características que estamos considerando para este indicador incluyen detectar registros en el texto de archivos suplementarios y capturar las fechas en que se registraron y compartieron los registros.


Otros resultados y refinamientos

Los principales archivos de datos en el último conjunto de datos de OSI incluyen todos los 112,229 artículos de investigación de PLOS publicados entre el 1 de enero de 2018 y el 31 de marzo de 2024, así como un corpus comparador más pequeño. Para los artículos de PLOS, los últimos resultados muestran:

  • 31% de todos los artículos de investigación compartieron datos de investigación en un repositorio en el primer trimestre de 2024 (sin cambios desde el cuarto trimestre de 2023).
  • 17% de todos los artículos de investigación compartieron código en el primer trimestre de 2024 (un 1% más que en el cuarto trimestre de 2023).
  • 22% de todos los artículos de investigación estuvieron asociados con un preprint en el primer trimestre de 2024 (un 2% menos que en el cuarto trimestre de 2023).

La tasa de adopción de preprints en los comparadores ha sido mayor que en PLOS desde 2023, impulsada por editores con servidores de preprints internos, pero esta tasa también disminuyó en los comparadores en el primer trimestre de 2024, lo que sugiere una tendencia más amplia. Mientras tanto, se han aplicado mejoras al indicador de preprints y se han aplicado retroactivamente a todo el corpus. Se ha eliminado una fuente menor de falsos positivos y, de manera más significativa, se han eliminado los preprints publicados después de que se publicó el artículo de investigación asociado (también conocidos como “postprints”). Este cambio afecta desproporcionadamente a los artículos más antiguos, que han tenido más tiempo para acumular un postprint.

También se ha actualizado el enfoque de emparejamiento de artículos comparadores. Para esta última versión, los términos de encabezados de materias médicas (MeSH) para el nuevo trimestre de datos se han actualizado según la distribución de términos MeSH para los artículos de PLOS publicados entre el 1 de enero de 2022 y el 31 de diciembre de 2023. Se espera actualizar la distribución de términos MeSH anualmente para asegurar que la comparativa siga siendo comparable a la composición cambiante de los artículos de PLOS.