Archivo de la etiqueta: Gestión de datos de investigación

El panorama de los servicios de datos de investigación en instituciones de educación superior de Estados Unidos y Canadá

MacDougall, Ruby, and Dylan Ruediger. «The Research Data Services Landscape at US and Canadian Higher Education Institutions.» Ithaka S+R. Ithaka S+R. 14 March 2024. Web. 15 March 2024. https://doi.org/10.18665/sr.320420

PDF

El informe destaca el cambiante panorama de los servicios de datos de investigación, enfatizando la creciente demanda de infraestructuras eficientes para respaldar metodologías de investigación intensivas en datos en las instituciones de educación superior. Desde su inventario inicial en 2020, Ithaka S+R ha observado requisitos más estrictos por parte de fundaciones y gobiernos federales tanto en Estados Unidos como en Canadá con respecto a la gestión y compartición de datos. En consecuencia, la necesidad de que las universidades desarrollen servicios de datos de investigación sólidos se ha convertido en una prioridad estratégica urgente.

En respuesta a estos desafíos, Ithaka S+R amplió su alcance para incluir universidades canadienses en su inventario, colaborando con 29 universidades de investigación para coordinar y alinear los servicios de datos de investigación con las necesidades cambiantes de la comunidad investigadora. Los hallazgos, basados en una revisión exhaustiva de los servicios de datos en 120 instituciones estadounidenses y ocho miembros de la Asociación Canadiense de Bibliotecas de Investigación (CARL), ofrecen información valiosa sobre el panorama actual.

Entre los hallazgos clave se incluyen:

  • Existen divergencias significativas en la cantidad y variedad de servicios ofrecidos en diferentes tipos de instituciones, siendo las instituciones R1 las líderes, ofreciendo aproximadamente tres veces más servicios que las instituciones R2 y más de nueve veces más servicios que los colegios de artes liberales.
  • Los servicios generales de datos de investigación son comunes en todos los tipos de instituciones, con servicios estadísticos, geoespaciales y de visualización también comunes, especialmente en universidades de investigación.
  • Las bibliotecas siguen siendo los principales proveedores de servicios de datos de investigación, aunque los departamentos de TI y las unidades afiliadas a la oficina de investigación desempeñan roles colaborativos cruciales, especialmente en la oferta de servicios especializados.
  • Los servicios de bioinformática se ofrecen principalmente a través de unidades interdisciplinarias asociadas a la oficina de investigación o instalaciones centrales vinculadas a las escuelas de medicina.
  • Los servicios de consultoría constituyen el modo predominante de provisión de servicios, abarcando casi tres cuartos de todos los servicios de datos.

Este informe sirve como un recurso vital para los tomadores de decisiones universitarias, ofreciendo datos actualizados para informar la planificación estratégica y la asignación de recursos en el ámbito de los servicios de datos de investigación.

A partir de diciembre de 2025 los datos de investigaciones financiadas estarán públicos en Estados Unidos

Steinhart, Gail, y Katherine Skinner. «The Cost and Price of Public Access to Research Data: A Synthesis», 29 de febrero de 2024. https://zenodo.org/records/10729575.

Texto completo

A partir del 31 de diciembre de 2025, o antes, todos los beneficiarios de fondos de investigación federales de los Estados Unidos estarán obligados a hacer que sus resultados académicos financiados por el gobierno federal, incluidos los datos científicos, estén disponibles gratuitamente a través de lugares de acceso público sin demoras ni embargos. Este documento se centra en los datos de investigación como uno de los tipos principales de resultados académicos afectados por los requisitos delineados en el Memorándum sobre Garantizar el Acceso Gratuito, Inmediato y Equitativo a la Investigación Financiada por el Gobierno Federal emitido por la Oficina de Política Científica y Tecnológica (OSTP) de los EE. UU., comúnmente llamado el “memo Nelson”.

Este documento establece definiciones operativas de cuatro términos clave: costo, precio, razonable y permitido. Utilizando estos términos, describimos algunos de los caminos que toman los datos de investigación hacia su publicación final, y resumimos parte del extenso cuerpo de investigación sobre los costos de la curación y compartición de datos de investigación. En el proceso, examinamos la experimentación de modelización de costos en los campos de la gestión de datos de investigación y la preservación digital para considerar qué podría ser relevante de sus enfoques.

¿Cómo apoyan las bibliotecas la toma de decisiones basada en datos?

Bryant, Rebecca. «Libraries Support Data-Driven Decision Making». Hanging Together (blog), 21 de febrero de 2024. https://hangingtogether.org/libraries-support-data-driven-decision-making/.

Las bibliotecas respaldan la toma de decisiones basada en datos de varias maneras. Por ejemplo, a través de esfuerzos de colecciones colectivas para gestionar fondos combinados y decisiones de retención de colecciones. También utilizan estadísticas de préstamos para tomar decisiones sobre el desarrollo y eliminación de colecciones. Además, analizan datos de uso de los edificios para medir la ocupación de espacios y fundamentar decisiones de gestión del espacio. En el ámbito de la investigación, gestionan datos sobre historiales académicos para informar evaluaciones nacionales y apoyan esfuerzos institucionales para comprender la productividad de la investigación y la investigación abierta. Además, crean funciones específicas para gestionar y poner a disposición una variedad de datos para su reutilización.

Colecciones

Hay docenas de formas en las que las bibliotecas apoyan la toma de decisiones basada en datos. Los participantes describieron los esfuerzos de las colecciones colectivas, en las que un grupo de bibliotecas trabaja conjuntamente para gestionar sus fondos combinados, apoyar las decisiones de retención de colecciones y mucho más. Además, las estadísticas de préstamos pueden utilizarse para tomar decisiones sobre el desarrollo y la eliminación de colecciones.

Espacios

Además de las colecciones, los participantes describieron el análisis de los datos de uso de los edificios de las bibliotecas (como el tráfico en las puertas y el uso del wifi) para medir la ocupación de los espacios y fundamentar las decisiones de gestión del espacio.

Apoyo a la investigación

Los participantes también describieron el creciente papel de la biblioteca en el análisis de la investigación, en apoyo de los objetivos institucionales. En el Reino Unido, la biblioteca suele encargarse de gestionar los datos sobre el historial académico institucional, para informar al ejercicio nacional de evaluación del Marco de Excelencia en la Investigación (REF). En otros lugares, los bibliotecarios apoyan los esfuerzos institucionales para comprender la productividad de la investigación, el progreso hacia los objetivos de investigación abierta e identificar posibles colaboraciones. Y, por supuesto, las bibliotecas están creando funciones específicas para gestionar una amplia variedad de datos y ponerlos a disposición para su reutilización, tema de una reciente entrevista de LIBER con Matthias Töwe, conservador de datos de la Biblioteca ETH de Zúrich.

Realidades del compartir datos académicos (RADS): metodología de investigación 2022–2023 encuestas y entrevistas

Association of Research Libraries. «Realities of Academic Data Sharing (RADS) Initiative: Research Methodology 2022–2023 Surveys and Interviews». Accedido 8 de febrero de 2024. https://www.arl.org/resources/realities-of-academic-data-sharing-rads-initiative-research-methodology-2022-2023-surveys-and-interviews/.

El acceso público a los datos de investigación es fundamental para avanzar en la ciencia y resolver problemas del mundo real. En los últimos años, varias agencias de financiamiento han requerido la gestión y el amplio intercambio de datos de investigación y otros resultados relacionados para acelerar los impactos de sus inversiones. En respuesta, muchas instituciones académicas han desarrollado e implementado infraestructuras para apoyar a los profesores en estos requisitos. Estos servicios a menudo están dispersos en toda la institución y se encuentran en varias unidades administrativas, como la tecnología de la información del campus, las bibliotecas universitarias y la oficina de investigación, entre otras. Dada esta naturaleza distribuida, la coordinación de los servicios suele ser informal y el verdadero costo institucional del acceso público a los datos de investigación no se comprende bien.

Este informe describe la metodología de la investigación llevada a cabo durante la primera etapa de la Iniciativa Realities of Academic Data Sharing (RADS) iniciativa financiada por la Fundación Nacional de Ciencias (NSF) de los Estados Unidos, desde 2021 hasta 2023. Se debe considerar como un complemento a los informes finales adicionales de investigación (documentos técnicos) producidos como resultado de esta investigación. Como parte de la Iniciativa RADS, se encuestaron administradores institucionales e investigadores financiados en 2022 y se entrevistaron en 2023 sobre detalles relacionados con los servicios de apoyo y prácticas de compartir datos de investigación, así como sus gastos correspondientes. Si bien la Asociación de Bibliotecas de Investigación (ARL) es la sede administrativa de la Iniciativa RADS, la investigación se llevó a cabo con participantes de las siguientes instituciones: Universidad Cornell, Universidad Duke, Universidad de Michigan, Universidad de Minnesota, Virginia Tech y Universidad de Washington en St. Louis.

Este proyecto aborda las siguientes preguntas de investigación:

¿Dónde están haciendo públicamente accesibles sus datos los investigadores financiados en estas instituciones y cuál es la calidad de los metadatos? ¿Cómo toman los investigadores decisiones sobre por qué y cómo compartir datos de investigación? ¿Cuál es el costo para la institución de implementar la política federal de acceso público a los datos de investigación? Para comprender mejor la perspectiva institucional sobre el acceso público a los datos de investigación, la Iniciativa Realidades del Compartir Datos Académicos (RADS) llevará a cabo investigaciones con equipos institucionales afiliados a DCN para cumplir los siguientes objetivos:

Evaluar el uso de repositorios de acceso público a datos de investigación para descubrir dónde los investigadores comparten más frecuentemente datos de investigación. Realizar un estudio retrospectivo de las prácticas de acceso público a datos de investigación específicas de la disciplina y del formato de los profesores en los campus académicos para desarrollar modelos funcionales basados en servicios e infraestructura para comprender cómo se está llevando a cabo el acceso público a datos de investigación en nuestros campus académicos utilizando recursos institucionales. Recopilar información financiera sobre gastos relacionados con el acceso público a datos de investigación para probar y evaluar los modelos financieros existentes para el acceso público a datos de investigación. Involucrar a la comunidad académica en general en modelos y mejores prácticas.

Haciendo los datos de investigación públicamente accesibles: estimaciones de gastos institucionales e investigativos

Association of Research Libraries. «Webinar: Making Research Data Publicly Accessible—Estimates of Institutional & Researcher Expenses». Accedido 8 de febrero de 2024.

Texto completo


Las instituciones universitarias han realizado inversiones significativas para apoyar los requisitos de acceso público a los datos de investigación, sin embargo, actualmente existe poca o ninguna información sobre estos servicios, infraestructura y costos, y esta información no se comparte ampliamente. Para optimizar el acceso público a los datos de investigación, las agencias de financiamiento, las instituciones y las organizaciones deben comprender mejor las inversiones realizadas por las instituciones y los investigadores individuales para cumplir con estos requisitos.

Este estudio de métodos mixtos fue financiado por la Fundación Nacional de Ciencias de los Estados Unidos. La Asociación de Bibliotecas de Investigación (ARL) y seis instituciones académicas de apoyo a la investigación: la Universidad Cornell, la Universidad Duke, la Universidad de Michigan, la Universidad de Minnesota, la Universidad de Virginia Tech y la Universidad de Washington en St. Louis, utilizaron encuestas y entrevistas para realizar un examen inicial de los gastos institucionales para el acceso público a los datos de investigación. Debido a la amplitud y heterogeneidad de los datos de investigación y la financiación, limitamos este trabajo a tres agencias federales de financiación de EE. UU. (Departamento de Energía, Institutos Nacionales de Salud y Fundación Nacional de Ciencias) y cinco áreas disciplinarias (ciencias biomédicas, ciencias ambientales, ciencias de los materiales, física y psicología).

El Portal del Riesgo Climático y la Resiliencia (ClimRR)

Climate Risk and Resilience Portal (ClimRR)

El Portal del Riesgo Climático y la Resiliencia (ClimRR) es una galardonada fuente nacional gratuita en línea de datos climáticos sofisticados hasta el nivel de vecindario. ClimRR facilita el acceso a los datos climáticos para integrar las condiciones futuras en los planes de mitigación de riesgos, los planes de uso del suelo, el diseño de infraestructuras y la herramienta de análisis y planificación de la resiliencia (RAPT) de FEMA.

Los datos de ClimRR están disponibles para los peligros cambiantes: temperaturas extremas (calor y frío), grados-día de refrigeración y calefacción, índice de calor, viento, índice meteorológico de incendios, precipitaciones/sin precipitaciones en dos escenarios de emisiones de carbono. El portal actualizado permite a los usuarios visualizar y analizar futuros riesgos climáticos combinados con datos demográficos y de infraestructuras locales. Las funciones mejoradas incluyen:

  • Nuevos informes locales consolidados que evalúan los riesgos climáticos futuros y los impactos en la comunidad
  • Nuevos mapas, gráficos y visualizaciones
  • Funciones educativas mejoradas para interpretar los puntos de datos sobre riesgos climáticos

El futuro de los datos en la publicación de trabajos de investigación: ¿de lo bueno a lo necesario?

Borgman, C. L., & Brand, A. (2023). The Future of Data in Research Publishing: From Nice to Have to Need to Have?  . Harvard Data Science Review. https://doi.org/10.1162/99608f92.b73aae77

La política científica promueve el acceso abierto a los datos de investigación con fines de transparencia y reutilización de datos en interés público. Esperamos que se acelere la demanda de datos abiertos en la publicación académica, al menos en parte como respuesta a la opacidad de los algoritmos de inteligencia artificial. Los datos abiertos deben ser localizables, accesibles, interoperables y reutilizables (FAIR), así como fiables y verificables.

El estado actual de los datos abiertos en la publicación académica está en transición de «bonito de tener» a «necesario de tener». Los datos de investigación sólo son valiosos, interpretables y verificables en el contexto de su origen y con la infraestructura suficiente para facilitar su reutilización. Hacer que los datos de investigación sean útiles es caro; los beneficios y los costes se distribuyen de forma desigual. Los datos abiertos también plantean riesgos de procedencia, propiedad intelectual, uso indebido y apropiación indebida en una era de trolls y algoritmos de IA alucinantes. Los académicos y las editoriales académicas deben hacer más accesibles los datos probatorios para promover la confianza pública en la investigación. Para que los procesos de investigación sean más fiables, transparentes y verificables, las partes interesadas deben invertir más en la gestión de los datos y las infraestructuras del conocimiento.

Urge solucionar la falta de transparencia en torno a los datos utilizados para entrenar modelos de Inteligencia Artificial

Hardinges, Jack, Elena Simperl, y Nigel Shadbolt. 2023. «We Must Fix the Lack of Transparency Around the Data Used to Train Foundation Models». Harvard Data Science Review, diciembre. https://doi.org/10.1162/99608f92.a50ec6e6.

En el ámbito de la IA, los modelos, ya sean de aprendizaje supervisado, no supervisado o de otro tipo, necesitan ser alimentados con grandes cantidades de datos para aprender patrones y realizar tareas específicas. Abordar esta falta de transparencia es crucial para garantizar que la IA se desarrolle y utilice de manera ética y responsable. La transparencia en este proceso implica proporcionar información clara y completa sobre la naturaleza y la fuente de los datos utilizados en el entrenamiento de estos modelos. Sin embargo, en la mayoría de los casos, las empresas o desarrolladores no muestran de dónde compilan esta información, lo que puede tener consecuencias significativas en términos de ética, sesgo y confianza pública.


El estudio aborda la importancia del acceso a información sobre los datos utilizados en la formación de modelos de inteligencia artificial (IA). Aunque algunos sectores de la comunidad de IA han progresado, persiste una falta general de transparencia sobre el contenido y las fuentes de los conjuntos de datos de entrenamiento, ya sea por iniciativa voluntaria de las empresas o por intervención regulatoria, y esto debe cambiar.

Los modelos fundamentales se entrenan con grandes colecciones de datos, muchos de los cuales se recopilan de toda la web. La investigación del Instituto Allen de IA y The Washington Post sobre el popular conjunto de datos de entrenamiento C4 reveló que su contenido provenía de 15 millones de dominios web diferentes.

Conocer el contenido de los conjuntos de datos utilizados para entrenar modelos y cómo se han compilado es de vital importancia. Sin esta información, el trabajo de desarrolladores, investigadores y éticos para abordar sesgos o eliminar contenido perjudicial de los datos se ve obstaculizado. La información sobre los datos de entrenamiento también es crucial para que los legisladores evalúen si los modelos fundamentales han absorbido datos personales o material con derechos de autor. Además, los operadores previstos de los sistemas de IA y aquellos afectados por su uso son mucho más propensos a confiar en ellos si comprenden cómo se han desarrollado.

Sin embargo, algunas empresas no documentan el contenido de sus datos de entrenamiento, incluso internamente, por temor a encontrar información personal sobre individuos identificables, material con derechos de autor y otros datos obtenidos sin consentimiento.

En público, las empresas han utilizado diferentes argumentos para justificar la falta de transparencia en torno a sus datos de entrenamiento. OpenAI, en el lanzamiento de su modelo GPT-4, declaró que no compartiría información detallada sobre la «construcción del conjunto de datos» y otros aspectos del desarrollo del modelo debido al «panorama competitivo y las implicaciones de seguridad de los modelos a gran escala». Aunque algunas empresas han publicado los datos de ajuste fino, tienden a omitir los conjuntos de datos de entrenamiento más grandes y complejos que son más propensos a contener contenido perjudicial o material con derechos de autor.

Partes de la comunidad de IA han avanzado en la transparencia de los datos de entrenamiento. La plataforma Hugging Face, inspirada en los pioneros de la seguridad de la IA Emily Bender, Batya Friedman y Timnit Gebru, promueve el uso de Model Cards y Dataset Cards entre su comunidad de desarrolladores. Las Dataset Cards documentan cómo se creó un conjunto de datos, su contenido y posibles problemas legales o éticos asociados.

En julio de 2023, la Casa Blanca anunció que siete grandes empresas de IA se comprometieron a «desarrollar medidas técnicas sólidas para garantizar que los usuarios sepan cuándo el contenido es generado por IA, como el marcado de agua». Dado que los modelos fundamentales de IA han comenzado a entrenarse con datos generados por IA, estas herramientas desempeñarán un papel importante en documentar la procedencia de los datos de entrenamiento y la integridad de las salidas resultantes de la IA.

Las decisiones sobre qué documentar sobre los datos de entrenamiento podrían eventualmente salir de las manos de los desarrolladores. La Comisión Federal de Comercio de EE. UU. ha ordenado recientemente a OpenAI que documente todas las fuentes de datos utilizadas para entrenar sus grandes modelos de lenguaje. Un grupo de grandes medios de comunicación ha publicado una carta abierta instando a los legisladores de todo el mundo a introducir nuevas regulaciones que exijan transparencia en los conjuntos de datos de entrenamiento.

Se prevé que la demanda de información sobre los datos de entrenamiento sea la última ola en un esfuerzo continuo por la transparencia empresarial. En el Reino Unido, las leyes sobre el registro obligatorio y la publicación de información por parte de las empresas se remontan al siglo XIX, y a lo largo del tiempo, los reguladores han desarrollado enfoques estandarizados para evitar que cada empresa elija su propia forma de informar sobre sus finanzas y otras actividades. Quizás necesitemos lo mismo para las divulgaciones sobre los datos en los que se han entrenado los modelos fundamentales de IA.

Ya sea que las empresas den un paso adelante o que intervengan los gobiernos, deben asegurarnos de que los datos utilizados para entrenar sistemas de IA no estén envueltos en secreto. La confianza pública, nuestra capacidad para mitigar sus posibles daños y la eficacia de nuestro régimen regulatorio dependen de ello.

Liberar el poder de los espacios comunes europeos de datos para agilizar la información reglamentaria

Sziranyi, Z., Guasch, C., Nardin, A. et al., Unlocking the power of common European data spaces for streamlined regulatory reporting, Publications Office of the European Union, 2023, https://data.europa.eu/doi/10.2799/546237


Este documento temático tiene como objetivo explorar qué son los espacios de datos europeos comunes y cómo podrían ayudar en el contexto de la presentación de informes regulatorios. Al facilitar la consolidación, la descubribilidad y el intercambio de datos, los espacios de datos europeos comunes podrían desempeñar un papel beneficioso al respaldar la simplificación de las distintas etapas del proceso de presentación de informes regulatorios y, en consecuencia, reducir la carga administrativa.

¿Cómo hacer que los datos sean abiertos?

Jessica Farrell. How to Make Data Open? Stop Overlooking Librarians. Nature, 12 December 2023

La ‘Year of Open Science’ (Año de la Ciencia Abierta), declarada por la Oficina de Política Científica y Tecnológica de los Estados Unidos (OSTP, por sus siglas en inglés), está llegando a su fin. Esto siguió a un memorando de agosto de 2022 de la directora interina de la OSTP, Alondra Nelson, que ordenó que los datos y las publicaciones revisadas por pares de la investigación financiada con fondos federales deberían estar libremente accesibles para fines de 2025. Se espera que las agencias federales publiquen planes completos para este cambio a fines de 2024.

Sin embargo, los detalles sobre cómo se preservarán y harán públicos los datos aún no se han definido por completo. Jessica Farrell, quien trabajó en archivos durante diez años y ahora facilita dos comunidades de archivos digitales, aboga por la integración de archivistas digitales y bibliotecarios en proyectos de ciencia abierta para capitalizar las herramientas y enfoques que ya han creado para hacer que el conocimiento sea accesible y abierto al público.

Hacer que los datos estén abiertos y sigan el principio de ‘FAIR’ (encontrables, accesibles, interoperables y reutilizables) plantea preguntas técnicas, legales, organizativas y financieras. La autora destaca que los problemas técnicos, aunque complejos, son los más solucionables con suficiente financiamiento. Se destaca la importancia de la colaboración entre científicos y archivistas digitales para abordar estos desafíos y garantizar el acceso universal a los datos de investigación.

En cuanto a las barreras legales y organizativas, se menciona que en los Estados Unidos, la Ley de Derechos de Autor del Milenio Digital de 1998 ha presentado desafíos para las bibliotecas al no permitirles romper cerraduras digitales en el software, incluso para fines de preservación o investigación. Gracias a la defensa de la Software Preservation Network, se han actualizado reglas que permiten a las bibliotecas romper esas cerraduras para preservar el software en sus colecciones, asegurando el acceso a largo plazo a los datos.

Se destaca la necesidad de superar las concepciones obsoletas sobre la biblioteconomía y reconocer a los archivistas y bibliotecarios como co-creadores en el proceso de producción de conocimiento. La autora aboga por una mayor colaboración entre científicos y archivistas digitales, utilizando herramientas y estándares existentes para garantizar que los datos sean FAIR (encontrables, accesibles, interoperables y reutilizables). Finalmente, se mencionan ejemplos exitosos de colaboración entre investigadores y archivistas, como la Cumbre de Ciencia Abierta organizada por la NASA y el Servicio de Información Científica en CERN, y se destaca la visión compartida de un mundo donde los datos abiertos y confiables estén disponibles para todos.