Archivo de la etiqueta: Gestión de datos de investigación

Asta DataVoyager, una nueva herramienta de IA para el análisis de datos estructurados sin necesidad de amplios conocimientos de programación

Allen Institute for AI. “Asta DataVoyager: Data-Driven Discovery and Analysis.” Allen Institute for AI (blog), 26 de septiembre de 2025. https://allenai.org/blog/asta-datavoyager

Ai2 presenta Asta DataVoyager, una herramienta diseñada para facilitar el análisis de datos estructurados sin necesidad de amplios conocimientos de programación. La plataforma permite a científicos y usuarios hacer preguntas en lenguaje natural sobre archivos de datos (CSV, JSON, Excel, Parquet, etc.) y recibir respuestas bien fundamentadas, acompañadas de visualizaciones, código reproducible y explicaciones de los métodos utilizados.

DataVoyager transforma la forma de interactuar con los datos al generar salidas estructuradas y coherentes que pueden compartirse como parte de un informe científico o cuaderno de trabajo. Además, permite seguir con preguntas de aclaración o nuevos análisis (“filtra por tal variable”, “haz test no paramétrico”, etc.), añadiendo nuevas secciones al reporte y conservando la trazabilidad del análisis.

Un caso de uso temprano se da con la Cancer AI Alliance (CAIA), que ha desplegado una versión federada de DataVoyager: investigadores de varios centros oncológicos pueden hacer consultas sobre datos clínicos federados sin que la información sensible abandone las instalaciones de cada institución. Con esto se busca extraer conclusiones agregadas y útiles para la investigación sin comprometer la privacidad de pacientes.

La propuesta subraya que el control y manejo de los datos permanece en manos del usuario: DataVoyager puede instalarse en infraestructura propia (servidores locales, nubes privadas, etc.), y los investigadores pueden borrar sus datos en cualquier momento. La idea central es acortar el tiempo entre una duda científica y una conclusión fiable, proporcionando transparencia en cada paso analítico y fortaleciendo la confianza en los resultados.

Datos listos para la IA: consideraciones clave para la ciencia abierta y responsable

McBride, Vanessa; Natalia Norori; Denisse Albornoz. Data and AI for Science: Key Considerations. Working Paper, International Science Council, septiembre de 2025. DOI: 10.24948/2025.11

Texto completo

El informe ofrece una visión amplia y crítica del cruce entre inteligencia artificial, datos y ciencia, destacando que solo mediante la combinación de apertura, responsabilidad y cooperación internacional se podrá aprovechar plenamente el potencial de la IA en beneficio del conocimiento y la sociedad.

El informe explora cómo la inteligencia artificial está transformando la práctica científica y qué condiciones deben cumplirse para que los datos puedan aprovecharse de manera efectiva, ética y sostenible. La noción central es la de datos “AI-ready”, es decir, conjuntos de datos preparados para ser procesados y reutilizados por sistemas de IA en beneficio de la investigación. Este concepto implica que los datos no solo deben estar disponibles, sino también estructurados, limpios, interoperables y documentados de manera adecuada.

Una parte importante del documento se centra en la calidad e interoperabilidad de los datos. La ciencia abierta ha impulsado normas como FAIR (Findable, Accessible, Interoperable, Reusable), pero el uso de IA añade nuevas exigencias. Por ejemplo, los algoritmos requieren datos con metadatos consistentes, esquemas comunes y estándares de anotación que permitan la reutilización automática. Además, se subraya que la preparación de datos para IA debe considerar la reducción de sesgos y garantizar la inclusión de voces y contextos diversos, para evitar reproducir inequidades existentes en los resultados científicos.

Otro eje del informe son las dimensiones éticas, sociales y ambientales. Los autores advierten que el entrenamiento y uso de grandes modelos de IA conlleva altos costes energéticos y huellas de carbono significativas, por lo que la sostenibilidad debe integrarse en la planificación de infraestructuras científicas. En paralelo, se examinan los riesgos para la privacidad, la seguridad y la soberanía de los datos, especialmente en campos sensibles como la biomedicina o las ciencias sociales. Estos retos requieren marcos sólidos de gobernanza que equilibren apertura y protección.

El informe también vincula la preparación de datos para IA con la agenda de la ciencia abierta. Se argumenta que los principios de transparencia, accesibilidad y colaboración resultan esenciales para garantizar que la IA potencie la ciencia de manera inclusiva y global. Se destacan casos prácticos en los que repositorios, proyectos colaborativos y consorcios internacionales han logrado implementar buenas prácticas de datos AI-ready, sirviendo como ejemplos para otras disciplinas.

Finalmente, se presentan recomendaciones estratégicas:

  • Consolidar marcos normativos y estándares internacionales, como FAIR-R y Croissant.
  • Invertir en infraestructuras digitales y capacidad de cómputo adecuadas para la investigación con IA.
  • Fortalecer la capacitación en gestión de datos e inteligencia artificial.
  • Reconocer institucionalmente la labor de quienes trabajan en la preparación y curación de datos.
  • Garantizar la equidad y la inclusividad en las políticas sobre datos e IA, evitando que el acceso desigual a recursos tecnológicos aumente las brechas entre regiones y comunidades científicas.

Marcos de políticas de datos de investigación de revistas

“Journal Research Data Policy Frameworks – The Value of RDA for Policy”

Research Data Alliance. 2025. Journal Research Data Policy Frameworks: The Value of RDA for Policy. White Paper Series. Agosto. Research Data Alliance. https://www.rd-alliance.org/wp-content/uploads/2025/08/Journal_Research_Data_Policy_Frameworks_The-Value-of-RDA-for-Policy.pdf

“Journal Research Data Policy Frameworks – The Value of RDA for Policy” forma parte de la serie de white papers de la Research Data Alliance (RDA) y fue publicado en agosto de 2025. Surge de los talleres organizados en mayo del mismo año, cuyo objetivo era mostrar el impacto de las recomendaciones de la RDA en la formulación de políticas de investigación, particularmente en lo relativo a la gestión de datos en revistas académicas.

El Journal Research Data Policy Framework se presenta como una herramienta estandarizada para ayudar a revistas y editores a crear o mejorar sus políticas de datos. Este marco ofrece claridad sobre las expectativas de publicación, refuerza prácticas ya asentadas en diversas disciplinas y favorece la reproducibilidad, visibilidad y citación de los resultados científicos. Además, simplifica la implementación para los editores, al proporcionar una estructura común pero adaptable a las necesidades de cada área del conocimiento.

Su valor radica en que las políticas de datos en revistas integran normas consistentes dentro de las instrucciones para autores, alineándose con los requisitos de financiadores e instituciones en momentos clave del ciclo de investigación. Entre los beneficios que aporta destacan: la definición clara de cuándo y cómo compartir datos, la extensión de buenas prácticas disciplinares, el aumento del impacto científico gracias a la reutilización y revisión de datos, y la reducción de la carga administrativa al contar con un marco estándar y flexible.

El marco fue elaborado en 2020 por el Interest Group on Data Policy Standards for Journals de la RDA. Define 14 características de una política de datos y establece seis niveles de aplicación (tiers), desde los más básicos hasta los más exigentes, que incluyen requerimientos como la declaración de disponibilidad de datos, el uso de estándares reconocidos o la revisión por pares de los conjuntos de datos. Gracias a este enfoque escalonado, revistas de distintas disciplinas pueden adoptar políticas acordes a su madurez y contexto.

El white paper también recoge ejemplos de implementación en distintos entornos. En Eslovenia, el archivo de datos de ciencias sociales (ADP) adaptó el marco y desarrolló guías para revistas locales, lo que permitió impulsar la ciencia abierta a nivel nacional, aunque con dificultades iniciales de recursos y apoyo institucional. En el ámbito internacional, la asociación STM, que agrupa a editores científicos, técnicos y médicos, lo utilizó para diseñar políticas coherentes en áreas sensibles como salud y medicina, logrando mayor credibilidad y alineación con estándares globales. Finalmente, el proyecto BRIDGE en Francia, liderado por instituciones como IRD, INRAE y CIRAD, empleó el marco para armonizar la gestión de datos en unidades mixtas de investigación, desarrollando repositorios FAIR y guías prácticas que refuerzan la gobernanza de datos.

Las conclusiones del informe subrayan que el marco de la RDA es práctico, flexible y aplicable a distintos sectores, desde revistas académicas hasta instituciones farmacéuticas o colaboraciones internacionales. Su éxito depende de la adopción temprana, la consulta a todas las partes interesadas, el apoyo técnico e institucional y la evaluación continua de los resultados. Asimismo, se recomienda avanzar hacia políticas más exigentes (niveles 03 en adelante) para consolidar una cultura de datos abierta, reproducible y sostenible en la investigación científica.

Cómo puede la inteligencia artificial (IA) mejorar la gestión de datos de investigación?

Exploring How AI Can Help Research Data Management.” UC3 Blog, August 21, 2025. https://uc3.cdlib.org/2025/08/21/exploring-how-ai-can-help-research-data-management/

El artículo de UC3 explora cómo la inteligencia artificial (IA) puede mejorar la gestión de datos de investigación, enfocándose en tres áreas clave: la mejora de metadatos, la generación automatizada de planes de gestión de datos (DMPs) y la conexión de estos planes con los resultados de investigación

Mejora de metadatos con IA

UC3 utiliza IA para optimizar la calidad y escala de la curaduría de metadatos, especialmente en el Registro de Organizaciones de Investigación (ROR). La IA ayuda a transformar entradas de usuarios en salidas estructuradas y estandarizadas, acelerando el procesamiento de más de 1.000 solicitudes mensuales. Este enfoque híbrido combina la eficiencia de la IA con el juicio humano para mantener la calidad y coherencia de los datos.

Generación automatizada de DMPs con DMP Chef

UC3 está desarrollando «DMP Chef», una herramienta basada en modelos de lenguaje que permite a los investigadores generar borradores de DMPs a partir de descripciones simples de sus estudios. Actualmente, se está probando con plantillas del Instituto Nacional de la Salud (NIH), con planes de expandir a otras agencias como la Fundación Nacional de Ciencias (NSF). El objetivo es facilitar la creación de DMPs de alta calidad que los investigadores puedan personalizar según sus necesidades.uc3.cdlib.org

Conexión de DMPs con resultados de investigación

UC3 también está desarrollando herramientas para vincular automáticamente los DMPs con los resultados de investigación que describen, como conjuntos de datos, artículos y software. Estas conexiones mejoran la visibilidad y accesibilidad de los datos de investigación, facilitando su descubrimiento y uso por parte de la comunidad científica.

Alerta sobre los datos oficiales: las estadísticas federales de EE. UU. en riesgo

American Statistical Association. Assessing the Health of the Federal Statistical Agencies: The Nation’s Data at a Crossroads, Year Two Status Report. 2025. https://www.amstat.org/docs/default-source/amstat-documents/nations-data-at-crossroads.pdf

El informe ofrece una evaluación detallada y crítica del estado actual de las agencias estadísticas federales en Estados Unidos durante el año 2025. En él se señala que estas agencias, fundamentales para la recopilación y análisis de datos fiables, se encuentran en un momento decisivo. Se han registrado reducciones en la disponibilidad de datos, retrasos en la publicación de informes clave e incluso casos preocupantes de posible interferencia política. Estas circunstancias amenazan con erosionar no solo la objetividad real de las estadísticas federales, sino también la percepción pública de su imparcialidad. A pesar de estas advertencias, el informe sostiene que, por ahora, los usuarios pueden seguir confiando en los datos producidos por estas agencias.

El documento también subraya los desafíos estructurales que se ciernen sobre el futuro de la estadística federal: la caída en las tasas de respuesta a encuestas oficiales, la creciente desconfianza en las instituciones públicas, las restricciones presupuestarias crónicas, el auge de bases de datos privadas de calidad incierta y la pérdida de credibilidad de los expertos ante la opinión pública. Estos factores configuran un panorama complejo que pone en riesgo la continuidad y la credibilidad de programas estadísticos esenciales. Para contrarrestar este deterioro, el informe propone medidas urgentes, como una inversión decidida en infraestructuras estadísticas, una apuesta sostenida por la investigación y la innovación metodológica, y el firme compromiso político con los principios de integridad e independencia estadística. De no tomarse medidas inmediatas, Estados Unidos podría ver no solo el debilitamiento de sus programas estadísticos fundamentales, sino también la pérdida de su liderazgo internacional como referente en la producción de datos confiables y de alta calidad.

Una filtración revela los sitios web usados para entrenar modelos de Anthropic sin supervisión directa

Rollet, C. (2025, 23 de julio). Here’s the list of websites gig workers used to fine‑tune Anthropic’s AI models. Its contractor left it wide open. Business Insider. Recuperado de Business Insider: https://www.businessinsider.com/anthropic-surge-ai-leaked-list-sites-2025-7

Se ha publicado un documento interno, filtrado de Surge AI (contratista de Anthropic), que detallaba qué sitios web estaban permitidos y cuáles estaban prohibidos para el entrenamiento mediante fine‑tuning de modelos de IA. Esta hoja de cálculo estaba expuesta de forma pública en Google Drive hasta que fue eliminada tras la consulta de Business Insider

La hoja incluía más de 120 sitios autorizados, entre ellos fuentes de prestigio como Harvard, Mayo Clinic, Bloomberg, Cornell University o el New England Journal of Medicine. En cambio, se bloqueaban más de 50 fuentes comunes como The New York Times, The Wall Street Journal, Reddit, Wiley, Stanford University y Harvard Business Review.

Los trabajadores de Surge utilizaban estos sitios aprobados para realizar tareas de RLHF (Reinforcement Learning from Human Feedback): copiaban fragmentos de texto, pedían al modelo que los resumiera y seleccionaban las mejores respuestas. La hoja de cálculo se empleaba como guía tanto para contenidos permitidos como para evitar aquellos no autorizados.

Anthropic aseguró que no estaba al tanto del documento, afirmando que había sido creado de forma independiente por Surge. Surge, por su parte, declaró que la filtración fue un error y que ya tomó medidas para restringir el acceso a esos materiales.

Varias de las fuentes bloqueadas, como Reddit, han presentado acciones legales contra Anthropic o competidores, acusando uso de datos sin permiso. Aunque algunos argumentan que la RLHF podría entrar en uso justo, expertos legales advierten que esa distinción entre pre-entrenamiento y RLHF puede no ser significativa en tribunales. Además, este incidente se suma a ejemplos precedentes, como en Scale AI, donde se filtraron documentos internos similares al caer expuestos en Google Drive

Esta filtración revela cómo una empresa externa pudo influir directamente en qué fuentes alimentaron el entrenamiento de un modelo sofisticado, poniendo en evidencia vulnerabilidades en la seguridad de datos y decisiones de proveedores. El incidente refuerza el debate sobre la transparencia en las prácticas de entrenamiento de IA, el uso justo de datos web y el manejo responsable de información sensible por parte de terceros.

Gestión de datos de investigación con Yusnelkis Milanés Guisado. Planeta Biblioteca 2025/05/08

Gestión de datos de investigación con Yusnelkis Milanés Guisado.

Planeta Biblioteca 2025/05/08

ESCUCHAR

Descargar

Hoy en Radio USAL hemos conversado con Yusnelkis Milanés Guisado, científica de datos y analista de investigación en el Joint Research Centre (JRC) de la Comisión Europea en Sevilla. Con una sólida trayectoria en análisis, visualización y gestión de datos, así como en inteligencia artificial, Yusnelkis nos ha ofrecido una visión integral sobre la importancia de la gestión de datos de investigación, destacando su impacto en la transparencia, reproducibilidad y eficiencia de los proyectos científicos.

Durante la entrevista, ha explicado que la gestión de datos no solo implica almacenamiento, sino también planificación, documentación, protección y compartición adecuada a lo largo del ciclo de vida de un proyecto. Subrayó la necesidad de garantizar la privacidad, especialmente en investigaciones con datos personales, aplicando medidas éticas y tecnológicas para proteger la información sensible.

En cuanto a formación, recomendó que los jóvenes investigadores adquieran desde el inicio competencias en gestión de datos, principios FAIR (datos localizables, accesibles, interoperables y reutilizables), y habilidades en visualización y uso de herramientas digitales. También abordó el papel cada vez más relevante que desempeña la inteligencia artificial, que exige un enfoque riguroso y ético en el manejo de datos.

Desde su experiencia como consultora, alertó sobre errores frecuentes como la falta de planificación en la gestión de datos o el uso inadecuado de visualizaciones, y sugirió plataformas y estrategias para asegurar la preservación a largo plazo y la apertura responsable de la ciencia. Finalmente, señaló los retos que aún enfrenta la ciencia abierta, como las resistencias culturales, la escasa formación y la infraestructura limitada en algunos entornos.

Política de Gestión de Datos de Investigación (RDM): de la estrategia a la implementación

Abel, Jennifer, Ian Milligan, Alison Hitchens, Beth Sandore Namachchivaya, Caroline Hyslop, Anneliese Eber, Vicky Chung, et al. 2023. Building an Inter-Institutional and Cross-Functional Research Data Management Community: From Strategy to Implementation. University of Waterloo. https://hdl.handle.net/10012/21683

Texto completo

Este documento presenta los resultados de un taller celebrado en septiembre de 2023 en la Universidad de Waterloo, Canadá, como respuesta a la Política de Gestión de Datos de Investigación (RDM, por sus siglas en inglés) de las Tres Agencias del Gobierno de Canadá, publicada en marzo de 2021. Esta política exigía que todas las instituciones postsecundarias y hospitales de investigación que administran fondos de las Tres Agencias (CIHR, NSERC y SSHRC) desarrollaran y publicaran estrategias institucionales de gestión de datos antes del 1 de marzo de 2023.

Una vez establecidas estas estrategias, surgió la necesidad de pasar de la planificación a la implementación efectiva. Para ello, el taller de Waterloo, financiado por el Consejo de Investigación en Ciencias Sociales y Humanidades (SSHRC), reunió a representantes de más de 30 instituciones canadienses —de distintos tamaños y niveles de intensidad investigadora— con el fin de dialogar y colaborar sobre cómo llevar estas estrategias a la práctica.

Durante los diálogos realizados en el taller celebrado en la Universidad de Waterloo, los participantes identificaron nueve recomendaciones clave de alto nivel para guiar la implementación eficaz de estrategias de gestión de datos de investigación (RDM):

  1. Claridad en las expectativas y comunicación: Es fundamental establecer directrices claras sobre el cumplimiento normativo, los requisitos institucionales y los servicios disponibles.
  2. Compromiso del liderazgo universitario: Se requiere el apoyo explícito de las autoridades de las instituciones para que las estrategias de RDM se consoliden y se prioricen.
  3. Financiamiento institucional: Es necesario identificar y asegurar fondos específicos para implementar y sostener actividades de RDM dentro de las instituciones.
  4. Desarrollo de capacidades del personal: Se debe fortalecer la formación y el desarrollo de competencias del personal técnico y de apoyo, tanto a nivel institucional como nacional.
  5. Coordinación interna: Se recomienda fomentar la colaboración y la integración entre los distintos departamentos y servicios dentro de cada institución para una gestión efectiva de los datos.
  6. Colaboración entre instituciones: Promover alianzas entre instituciones, especialmente para apoyar a las de menor tamaño en el cumplimiento de los requerimientos en RDM.
  7. Soberanía de los datos indígenas: Impulsar el desarrollo de políticas y directrices que reconozcan y respeten los derechos de las comunidades indígenas sobre sus datos.
  8. Formación e implicación del personal investigador: Incrementar la capacitación, el apoyo y la concienciación de los investigadores en temas de RDM.
  9. Estructuras nacionales de apoyo: Crear mecanismos nacionales que fomenten la colaboración, el desarrollo estratégico y un lenguaje común sobre RDM.

Estas recomendaciones están dirigidas a un público amplio: agencias financiadoras, organismos gubernamentales, organizaciones profesionales, consorcios académicos, administraciones universitarias, investigadores y profesionales del ámbito de la información.

Aprovechar las citas de datos para responder a las necesidades de evaluación de datos de las bibliotecas.

Dean, Clare. 2025. Leveraging Data Citations to Respond to Libraries’ Data Evaluation Needs. Zenodo. https://doi.org/10.60804/yxna-f837

Se presenta un estudio sobre cómo la automatización de citas de datos puede mejorar las métricas de datos abiertos y ayudar a las bibliotecas a evaluar el uso y el impacto de los conjuntos de datos generados por sus instituciones.

Las bibliotecas desempeñan un papel clave en la promoción de los datos abiertos y necesitan evaluar el uso e impacto de los conjuntos de datos para apoyar la gestión de datos de investigación y reconocer el trabajo de sus investigadores. Sin embargo, medir este impacto es complejo debido a la dispersión y falta de visibilidad de la información.

Una solución prometedora es el uso de citas de datos como indicadores de utilización. Para demostrar su valor, se analizó el uso de datos en la Universidad Northwestern y la Universidad de Colorado Boulder mediante el Data Citation Corpus y Europe PMC. Se observó un aumento significativo de citas entre 2020 y 2023, con un pico en 2021. Los repositorios más citados fueron dbSNP, Protein Data Bank y European Nucleotide Archive, reflejando un fuerte enfoque en biomedicina y biología estructural.

En cuanto a áreas intensivas en datos, Northwestern destaca en investigación médica y neurociencia, mientras que Colorado Boulder lo hace en ciencias ambientales y biología vegetal. Las citas provienen principalmente de revistas especializadas en dichas disciplinas.

1. Objetivo principal

Mejorar la capacidad de las bibliotecas para rastrear, analizar y reportar el impacto de los datos de investigación utilizando citas automatizadas a gran escala, especialmente a través del Data Citation Corpus.

2. Instituciones involucradas

  • University Libraries, University of Colorado Boulder
  • Helmholtz Open Science Office, Alemania
  • Northwestern University Feinberg School of Medicine

3. Hallazgos clave (Key Data Citation Insights)

  • Los datos de Northwestern se citan más en revistas de ciencias de la vida y biomédicas.
  • Los datos de CU Boulder se usan más en revistas específicas de campos como ciencias ambientales.

Áreas de investigación intensiva en datos:

  • CU Boulder: Ciencias ambientales, biología molecular y genética, ciencias de las plantas.
  • Northwestern: Investigación médica, bioquímica, biología molecular, neurociencia.

Se concluye que las citas de datos ofrecen información valiosa para las estrategias institucionales, y se está ampliando el Data Citation Corpus con nuevas fuentes y mejoras en los metadatos. También se están desarrollando recursos para que las bibliotecas integren estas métricas en procesos de evaluación institucional junto con iniciativas como HELIOS Open.

Datos, información y conocimiento en el marco de la cultura impresa y la cultura digital: aproximaciones, tendencias y retos desde la perspectiva bibliotecológica

Datos, información y conocimiento en el marco de la cultura impresa y la cultura digital: aproximaciones, tendencias y retos desde la perspectiva bibliotecológica y los estudios de la información / coordinadores Eder Ávila Barrientos, Adriana Suárez Sánchez. – Primera edición. – Ciudad de México : Universidad Nacional Autónoma de México, Instituto de Investigaciones Bibliotecológicas y de la Información, 2

Texto completo

Este libro aborda la relación entre datos, información y conocimiento en el contexto de la cultura impresa y la cultura digital, desde una perspectiva bibliotecológica y de los estudios de la información. A través de once capítulos, expertos en el campo reflexionan sobre las transformaciones tecnológicas que han redefinido la gestión, organización y acceso a la información en las últimas décadas. La obra se estructura en cuatro secciones principales: Organización de la información y del conocimiento; Ciencia abierta, alfabetización digital y usuarios; Información y sociedad; y Archivos y recursos relacionados. Cada apartado analiza desafíos; y tendencias actuales. Se tratan temas como la gobernanza de datos; el uso de LRM, BIBFRAME y RDA para concebir al catálogo del futuro; la exclusión digital; el papel de los datos en el ejercicio ciudadano y la ciencia ciudadana; y la preservación del patrimonio documental, entre otros. Dirigido a estudiantes, docentes y profesionales de la información, este volumen ofrece una visión integral sobre cómo las tecnologías digitales están reconfigurando las prácticas bibliotecarias y archivísticas, al tiempo que plantea preguntas cruciales sobre el futuro de la gestión del conocimiento en un mundo cada vez más interconectado.