Archivo de la etiqueta: Evaluación

La inteligencia artificial busca artículos científicos, pero ¿Cómo evaluar sus resultados?

Aaron Tay. “AI Academic Search and the Missing Benchmark Problem”. Aaron Tay’s Musings about Librarianship, 2026.

Uno de los problemas más importantes en la evaluación de los sistemas de búsqueda académica basados en inteligencia artificial: la ausencia de estándares de referencia sólidos y compartidos. Mientras proliferan herramientas como Elicit, Consensus, Scite, Scopus AI o los sistemas de “Deep Research”, existe una gran dificultad para determinar objetivamente cuál de ellas ofrece mejores resultados, ya que no disponemos de benchmarks ampliamente aceptados que permitan comparar su rendimiento de forma rigurosa.

Tay señala que la situación recuerda a los primeros años de otros campos de la inteligencia artificial, donde los avances tecnológicos fueron más rápidos que los mecanismos de evaluación. Muchas plataformas promocionan capacidades como la búsqueda semántica, la recuperación aumentada por generación (RAG), la identificación automática de literatura relevante o la elaboración de revisiones bibliográficas asistidas por IA. Sin embargo, los usuarios suelen disponer únicamente de demostraciones comerciales o ejemplos seleccionados por los propios desarrolladores, lo que dificulta conocer el rendimiento real de estas herramientas en contextos de investigación auténticos.

Uno de los argumentos centrales del autor es que la búsqueda académica constituye un problema mucho más complejo que responder preguntas generales. No basta con recuperar documentos relacionados; también es necesario encontrar trabajos relevantes aunque utilicen terminología diferente, identificar literatura seminal, reconocer relaciones de citación y ofrecer resultados adecuados para distintas etapas del proceso investigador. Debido a ello, evaluar únicamente la precisión de una respuesta generada por IA resulta insuficiente.

El artículo destaca además que muchas pruebas actuales se centran en tareas demasiado simples. Un sistema puede responder correctamente a preguntas factuales concretas y aun así fracasar cuando se enfrenta a necesidades reales de investigación, como localizar artículos fundamentales omitidos en una revisión bibliográfica, detectar debates emergentes o construir estrategias de búsqueda exhaustivas. Tay sostiene que los escenarios de evaluación deberían reflejar mejor las tareas cotidianas de investigadores, estudiantes y bibliotecarios.

Otro problema importante es la falta de transparencia. Muchas herramientas académicas basadas en IA funcionan mediante modelos propietarios cuyos índices documentales, algoritmos de recuperación y mecanismos de clasificación no son públicos. Como consecuencia, resulta difícil reproducir experimentos o comprender por qué dos sistemas ofrecen resultados distintos ante la misma consulta. Esta opacidad limita la posibilidad de desarrollar evaluaciones comparables y acumulativas.

Tay también subraya que la calidad de un sistema RAG depende de dos componentes distintos: la recuperación de información y la generación de respuestas. Un modelo puede producir un texto aparentemente convincente pero basado en documentos poco relevantes, o bien recuperar excelentes artículos y resumirlos de forma deficiente. Por ello, propone evaluar por separado la capacidad de recuperación y la fidelidad de la síntesis generada.

En sus análisis previos sobre herramientas de búsqueda académica, el autor ha mostrado que algunos sistemas especializados fracasan en tareas relativamente sencillas para un investigador humano, mientras que modelos generales pueden resolverlas con más eficacia. Estos resultados sugieren que muchas plataformas funcionan mediante flujos de trabajo predefinidos que son muy eficaces en determinados escenarios, pero menos flexibles cuando la consulta se aparta de los casos previstos por sus diseñadores.

El texto conecta además con una cuestión más amplia dentro de la inteligencia artificial: la importancia de los benchmarks. Históricamente, disciplinas como el procesamiento del lenguaje natural o la visión artificial han avanzado gracias a conjuntos de pruebas estandarizados que permiten comparar sistemas bajo condiciones comunes. Sin estándares equivalentes para la búsqueda académica asistida por IA, resulta difícil distinguir entre mejoras reales y simples estrategias de marketing.

Aaron Tay defiende la necesidad de construir marcos de evaluación abiertos, transparentes y orientados a tareas reales de investigación. Solo mediante benchmarks compartidos será posible determinar qué herramientas mejoran verdaderamente el descubrimiento académico y cuáles simplemente generan respuestas convincentes. Para bibliotecarios, investigadores y responsables institucionales, esta cuestión resulta especialmente relevante en un momento en que las plataformas de búsqueda basadas en IA comienzan a integrarse en bases de datos científicas, catálogos bibliotecarios y servicios de apoyo a la investigación.

Repensar la evaluación en tiempos de inteligencia artificial: del producto final al proceso de aprendizaje

The AI School Librarian. “Grading in the AI Era: Research Literacy in the Age of AI, Week 13: How to Assess Reasoning, Verification, and Transparency.” The AI School Librarians Newsletter, 20 de abril de 2026. Substack. The AI School Librarians Newsletter

Se plantea una reflexión profunda sobre la crisis actual de los sistemas de evaluación educativa en un contexto marcado por la expansión de la inteligencia artificial generativa. El texto parte de una premisa contundente: si las rúbricas y modelos de calificación continúan premiando principalmente el acabado formal, la corrección gramatical o la apariencia de sofisticación textual, las herramientas de IA superarán fácilmente los criterios tradicionales de evaluación. Según el artículo, el problema central ya no consiste en “detectar trampas” o descubrir cuándo un estudiante ha utilizado IA, sino en replantear qué significa realmente aprender y qué aspectos del proceso intelectual merecen ser valorados.

La autora sostiene que gran parte de los sistemas educativos siguen fundamentándose en una lógica de evaluación heredada de la era pre-IA, centrada casi exclusivamente en el producto final: ensayos terminados, trabajos perfectamente estructurados, citas formateadas correctamente y redacciones libres de errores. Sin embargo, la inteligencia artificial es capaz de generar con rapidez precisamente ese tipo de productos. En consecuencia, la escuela se enfrenta a una disyuntiva fundamental: continuar evaluando elementos superficiales que las máquinas pueden imitar fácilmente o desplazar el foco hacia procesos cognitivos más complejos y genuinamente humanos. El texto insiste en que la verdadera evidencia del aprendizaje no reside únicamente en el resultado visible, sino en el recorrido intelectual que conduce hasta él: las dudas, revisiones, decisiones, errores, verificaciones y transformaciones del pensamiento.

Uno de los aspectos más relevantes del artículo es la idea de que la IA obliga a redefinir el concepto mismo de “autoría intelectual”. Tradicionalmente, muchos modelos de evaluación asumían que el texto presentado reflejaba directamente el pensamiento del estudiante. Sin embargo, en un escenario donde una herramienta puede redactar párrafos coherentes, producir tesis convincentes o incluso estructurar investigaciones completas, el profesorado necesita nuevas estrategias para distinguir entre producción automática y apropiación auténtica del conocimiento. El artículo argumenta que la clave no está en prohibir la IA, sino en diseñar evaluaciones capaces de hacer visible el razonamiento humano que hay detrás del trabajo.

Para responder a este desafío, el texto propone cuatro transformaciones estructurales en la evaluación. La primera consiste en calificar la evolución de la pregunta de investigación. En lugar de valorar únicamente la tesis final, se recomienda que el alumnado entregue también la pregunta inicial, las modificaciones posteriores y una explicación de cómo y por qué cambió su enfoque. Esta estrategia busca reconocer el refinamiento intelectual y la capacidad de replantear problemas, algo que constituye una parte esencial del pensamiento crítico. El aprendizaje deja así de verse como un acto instantáneo y pasa a entenderse como un proceso dinámico de exploración y reconstrucción conceptual.

La segunda transformación se centra en la justificación de las fuentes. El artículo subraya que, en una época saturada de información y contenido generado algorítmicamente, ya no basta con citar fuentes; es necesario demostrar por qué una fuente merece confianza. El alumnado debería explicar la credibilidad de los materiales utilizados, detectar sesgos, identificar limitaciones y contrastar datos mediante verificación cruzada. Esta orientación conecta directamente con las competencias de alfabetización informacional y mediática que tradicionalmente han promovido bibliotecarios y especialistas en documentación. La evaluación, por tanto, se desplaza desde la mera acumulación de referencias hacia la capacidad crítica para analizarlas y contextualizarlas.

La tercera propuesta del artículo es incorporar la transparencia como criterio explícito de evaluación. La autora defiende que los estudiantes deberían informar abiertamente sobre cómo utilizaron herramientas de IA, qué partes verificaron y qué decisiones éticas tomaron durante el proceso. Este enfoque intenta sustituir los modelos punitivos basados en vigilancia y sospecha por una cultura académica de honestidad y reflexión. En vez de criminalizar el uso de la inteligencia artificial, el sistema educativo debería enseñar a utilizarla de manera responsable, crítica y documentada. Según el texto, normalizar la transparencia reduce la dependencia de detectores automáticos de IA, cuya fiabilidad es limitada y cuya aplicación puede generar injusticias y desconfianza institucional.

La cuarta transformación aborda la importancia de la reflexión metacognitiva. El artículo propone que los estudiantes respondan preguntas relacionadas con la evolución de su pensamiento: qué cambió durante la investigación, qué evidencias resultaron más débiles o qué interrogantes quedaron sin resolver. Estas actividades buscan que el alumnado tome conciencia de sus propios procesos intelectuales y convierta el aprendizaje en una experiencia autorreflexiva. Además, la metacognición resulta especialmente difícil de automatizar, ya que implica conectar experiencias personales, decisiones contextuales y procesos internos de razonamiento.

Otro aspecto significativo del artículo es su crítica implícita a la cultura educativa basada exclusivamente en resultados cuantificables y estandarizados. La IA pone en evidencia las limitaciones de sistemas que privilegian la eficiencia, la apariencia formal y la producción rápida de textos. Frente a ello, la autora defiende modelos de evaluación más lentos, procesuales y centrados en la construcción del pensamiento. En esta visión, el aula deja de ser un espacio donde únicamente se “entregan productos” para convertirse en un entorno donde se documenta el desarrollo intelectual.

El texto también se relaciona con debates más amplios sobre alfabetización digital y ciudadanía crítica. La capacidad para verificar información, justificar decisiones y reflexionar sobre el uso ético de herramientas tecnológicas se presenta como una competencia esencial del siglo XXI. De este modo, la evaluación deja de ser solamente un mecanismo de medición académica y se transforma en un espacio de formación ética e intelectual. El artículo sugiere que la irrupción de la IA puede convertirse en una oportunidad para corregir debilidades estructurales que ya existían en los sistemas educativos mucho antes de la aparición de ChatGPT y otras plataformas generativas.

“Grading in the AI Era” propone una visión educativa basada en la autenticidad del pensamiento, la trazabilidad del aprendizaje y la centralidad del razonamiento humano. El artículo concluye que la inteligencia artificial no debería obligar a las instituciones educativas a reforzar modelos de vigilancia, sino a rediseñar profundamente sus prácticas pedagógicas. La verdadera cuestión ya no es si los estudiantes utilizan IA, sino si las escuelas son capaces de evaluar aquello que realmente importa: la capacidad de pensar, cuestionar, verificar, interpretar y construir conocimiento propio en colaboración crítica con las tecnologías emergentes

Guía de evaluación de sistemas de IA en entornos bibliotecarios

Cox, Andrew, y Maria De Brasdefer. IFLA Entry Point to Libraries and AI. International Federation of Library Associations and Institutions (IFLA), 2025. https://repository.ifla.org/items/f197f327-dc49-4743-bb57-0a373505da8b

Entry Point for Libraries and AI

Licensing an AI service from a publisher

La Inteligencia Artificial (IA) ofrece un gran potencial para apoyar los valores fundamentales de las bibliotecas, como el acceso equitativo a la información y la creación de conocimiento. Sin embargo, también es una tecnología controvertida, cuyos avances actuales suscitan inquietudes éticas y sociales. Las bibliotecas desempeñan un papel clave en la promoción de usos responsables, inclusivos y sostenibles de la IA. Sus valores —libertad de expresión, privacidad, transparencia y rendición de cuentas— proporcionan una perspectiva ética para interactuar con las herramientas y prácticas de la IA. Este documento define la IA en un sentido amplio y ofrece un conjunto práctico de preguntas para la reflexión que ayudan a los profesionales de las bibliotecas a evaluar las oportunidades y los riesgos.

El texto plantea un escenario de reflexión sobre la incorporación de herramientas de inteligencia artificial en los servicios de bibliotecas, concretamente en el caso de la posible licitación de un sistema de búsqueda potenciado por IA ofrecido por una editorial científica. Este sistema promete mejorar significativamente la recuperación de información mediante resúmenes automáticos de publicaciones, lo que obliga a los profesionales de la biblioteca a evaluar críticamente su pertinencia, utilidad y riesgos antes de su adopción.

Para ello, se propone la creación de un equipo interdisciplinar formado por especialistas en sistemas bibliotecarios, biblioteconomía, alfabetización informacional y derechos de autor. Este grupo debe elaborar una lista de preguntas clave para analizar la herramienta desde múltiples perspectivas: ética, funcionalidad, impacto institucional, fiabilidad, transparencia y adecuación a las necesidades reales de los usuarios. El objetivo no es solo valorar la innovación tecnológica, sino determinar si realmente aporta beneficios significativos frente a otras soluciones existentes y si su coste está justificado dentro de las prioridades de la biblioteca.

El documento se estructura a partir de un marco de 14 preguntas que sirven como guía de evaluación de sistemas de IA en entornos bibliotecarios. Estas cuestiones abordan aspectos como la calidad y precisión de la información generada por la IA, los posibles sesgos, la protección de la diversidad cultural y lingüística, la equidad en el acceso, la privacidad de los datos de los usuarios y la transparencia del funcionamiento del sistema. También se examina quién es responsable de los posibles errores del sistema y cómo se comunican sus limitaciones a los usuarios.

Asimismo, se subraya la importancia de garantizar que los datos utilizados por la IA no provengan de fuentes obtenidas de manera ilegítima y que se respeten los derechos de autor y la soberanía de los datos culturales. Otro eje central es la necesidad de mantener la agencia del usuario, es decir, que las personas puedan seguir controlando su interacción con la tecnología sin que esta sustituya sus habilidades críticas o de aprendizaje.

Las 14 preguntas funcionan como un marco de evaluación crítica para que las bibliotecas analicen la incorporación de sistemas de inteligencia artificial, especialmente en servicios de información y descubrimiento. No son un checklist técnico cerrado, sino una guía amplia que permite valorar tanto el impacto funcional como las implicaciones éticas, sociales y organizativas de estas herramientas.

Valor y pertinencia del servicio. La pregunta inicial obliga a la biblioteca a identificar qué tipo de beneficio real aporta la IA en términos de acceso al conocimiento y creación de información. No se trata solo de si la herramienta es innovadora, sino de si mejora de forma significativa la experiencia del usuario frente a alternativas más simples o económicas. Aquí se introduce también el concepto de “coste de oportunidad”: invertir en IA implica renunciar a otros posibles servicios o mejoras.

2, Calidad de la información generada por la IA, especialmente su precisión, actualización e imparcialidad. En entornos bibliotecarios esto es crucial, ya que los sistemas de IA pueden generar resúmenes o síntesis que parecen fiables pero contienen errores, sesgos o simplificaciones. Además, se plantea la necesidad de monitorización continua, ya que estos sistemas pueden cambiar su rendimiento con el tiempo.

3. Sesgos . Se evalúa si la IA reproduce estereotipos o excluye perspectivas culturales y lingüísticas. Esto es especialmente relevante en bibliotecas, cuyo objetivo tradicional es garantizar el acceso equitativo a la información.

4. Diversidad del conocimiento. También se analiza si el sistema favorece únicamente contenido en inglés o si integra fuentes multilingües y diversas.

5. Mal uso del sistema, especialmente en relación con la desinformación o la censura. Aunque menos desarrollada en el texto, apunta a un problema creciente: la posibilidad de que herramientas avanzadas de IA sean utilizadas para manipular o distorsionar información académica o científica.

6. Equidad y accesibilidad, considerando si todos los usuarios pueden beneficiarse del sistema en igualdad de condiciones. Aquí se incluyen aspectos como la accesibilidad digital (cumplimiento de estándares como WCAG), la brecha tecnológica y la posible exclusión de determinados colectivos.

7. Transparencia, uno de los más complejos en IA. Se analiza hasta qué punto el usuario entiende qué está haciendo el sistema, cómo genera los resultados y cuáles son sus límites. También se plantea la cuestión de la responsabilidad: quién responde cuando la IA comete errores, la empresa, la biblioteca o el usuario.

8. Privacidad y gestión de datos, un tema crítico en entornos académicos. Se evalúa cómo se recogen, almacenan y utilizan los datos de los usuarios, incluyendo sus consultas, patrones de búsqueda y posibles datos personales, así como el cumplimiento de normativas como el GDPR.

9. Legalidad y ética de los datos utilizados para entrenar la IA, así como en el respeto a los derechos de autor. También introduce una preocupación emergente: la carga que la IA puede generar sobre repositorios abiertos y sistemas de acceso libre.

10. Participación social y la soberanía de los datos, es decir, si las comunidades afectadas han sido tenidas en cuenta en el desarrollo del sistema y si mantienen control sobre su información cultural.

11. Agencia del usuario y el impacto en el aprendizaje. Se analiza si la IA fortalece las competencias del usuario o si, por el contrario, fomenta la dependencia y la pérdida de habilidades críticas. También se considera la necesidad de formación para un uso responsable.

12. Empleo y la estructura laboral, tanto en bibliotecas como en el ecosistema editorial y tecnológico. Se plantea si la IA sustituye funciones humanas o si reconfigura los roles profesionales.

13. Impacto ambiental, un aspecto cada vez más relevante. El uso de modelos de IA implica consumo energético, infraestructura de servidores y uso de agua, lo que obliga a considerar la sostenibilidad del servicio en su ciclo completo.

14. Modelo de negocio y la gobernanza del proveedor, es decir, quién desarrolla la herramienta, bajo qué principios opera y si su estrategia es sostenible y alineada con valores públicos. También se abre la reflexión sobre posibles vínculos con intereses comerciales o incluso militares.

En conjunto, estas 14 preguntas no buscan una respuesta única, sino fomentar una evaluación crítica y multidimensional de la inteligencia artificial en bibliotecas, equilibrando innovación tecnológica con responsabilidad ética, social y profesional.

El texto también amplía la reflexión hacia dimensiones sociales más amplias, como el impacto laboral de estas tecnologías, su huella ambiental y el modelo de negocio de las empresas proveedoras. En conjunto, se propone una evaluación integral que no se limite a lo técnico, sino que integre criterios éticos, educativos, sociales y sostenibles, con el fin de orientar la toma de decisiones en las bibliotecas ante la creciente incorporación de la inteligencia artificial.

¿Existe consenso entre los investigadores sobre en que revistas publicar sus trabajos?

Van Buskirk, Ian, Marilena Hohmann, Ekaterina Landgren, Johan Ugander, Aaron Clauset y Daniel B. Larremore. Consensus and Fragmentation in Academic Publication Preferences. arXiv:2603.00807v1 [cs.DL], 28 de febrero de 2026

Este trabajo analiza cómo los investigadores toman decisiones sobre dónde publicar sus trabajos científicos y hasta qué punto existen patrones de consenso o, por el contrario, fragmentación dentro de las comunidades académicas.

Los autores parten de la premisa de que la elección de la revista o del canal de publicación no es un proceso puramente individual, sino que refleja dinámicas colectivas dentro de cada disciplina científica. Estas decisiones están influenciadas por múltiples factores —prestigio de las revistas, redes académicas, incentivos institucionales o visibilidad— y, en conjunto, configuran un sistema complejo de preferencias compartidas que puede ser estudiado mediante herramientas de análisis de redes y ciencia de datos. El objetivo central del artículo es identificar si las comunidades científicas muestran patrones claros de acuerdo sobre qué revistas son más relevantes o si, por el contrario, el sistema editorial está caracterizado por una pluralidad de preferencias que fragmenta el espacio de publicación.

Para abordar esta cuestión, los autores desarrollan un enfoque cuantitativo que combina datos de publicaciones académicas con modelos de redes y análisis estadístico. A partir de estos datos reconstruyen un mapa de las preferencias de publicación de los investigadores, observando cómo los científicos de distintas áreas tienden a concentrar sus envíos en determinados grupos de revistas. Este enfoque permite detectar estructuras emergentes en el sistema editorial: por un lado, núcleos de consenso donde muchos investigadores convergen en un pequeño conjunto de revistas consideradas centrales; y por otro, regiones de fragmentación en las que las preferencias se dispersan entre múltiples opciones. El análisis muestra que estas estructuras no son uniformes en todas las disciplinas: algunas comunidades presentan jerarquías editoriales muy claras, mientras que otras exhiben una distribución más diversificada de canales de publicación.

Uno de los hallazgos más relevantes del estudio es que el sistema de publicación científica funciona como una red de coordinación social. Las decisiones individuales de los investigadores están influidas por lo que hacen sus pares, lo que genera dinámicas colectivas de imitación, reputación y señalización. Publicar en determinadas revistas actúa como una señal de calidad y legitimidad dentro de la comunidad científica, lo que refuerza la concentración de envíos en ciertos títulos. Sin embargo, esta dinámica también puede producir fragmentación cuando diferentes subcomunidades científicas desarrollan sus propios circuitos editoriales o cuando emergen nuevas revistas y plataformas que compiten con las tradicionales. De este modo, el sistema editorial no es completamente centralizado ni completamente disperso, sino que presenta una estructura híbrida caracterizada por clusters o comunidades de publicación.

El artículo también examina las implicaciones de estos patrones para la evaluación científica y la difusión del conocimiento. Cuando existe un fuerte consenso en torno a unas pocas revistas, estas adquieren un poder simbólico considerable, lo que puede reforzar desigualdades en la visibilidad de la investigación y consolidar jerarquías académicas. Por el contrario, una mayor fragmentación puede favorecer la diversidad de enfoques y la aparición de nuevos espacios de comunicación científica, aunque también puede dificultar la identificación de estándares comunes de calidad. En este sentido, el estudio sugiere que comprender la estructura de preferencias de publicación es fundamental para analizar fenómenos como la concentración editorial, la influencia de los rankings de revistas o el impacto de políticas de ciencia abierta.

Finalmente, los autores destacan que su enfoque ofrece una nueva perspectiva cuantitativa para estudiar el ecosistema de la publicación científica, integrando métodos de análisis de redes, ciencia computacional y sociología de la ciencia. Este tipo de análisis permite comprender mejor cómo se forman los consensos en torno a determinadas revistas, cómo surgen nichos editoriales especializados y cómo evolucionan las comunidades científicas a lo largo del tiempo. En última instancia, el estudio aporta evidencia empírica sobre las dinámicas colectivas que subyacen a la comunicación académica y abre nuevas líneas de investigación sobre la gobernanza del sistema de publicación científica, especialmente en un contexto marcado por la expansión del acceso abierto, la proliferación de nuevas revistas y los cambios en los mecanismos de evaluación de la investigación.

La persistente influencia del factor de impacto en la evaluación científica

Grove, Jack. “Journal Impact Factors Still Exert ‘Undue Influence’, Finds PLOS Study.” Times Higher Education, 2 de febrero de 2026.

Leer artículo original

El artículo analiza el papel que sigue desempeñando el factor de impacto de las revistas en los procesos de evaluación académica, a pesar de las numerosas críticas que ha recibido en los últimos años.

Un estudio reciente basado en una encuesta a casi quinientos investigadores del ámbito de la biología —todos ellos participantes recientes en comités de evaluación de proyectos o en procesos de contratación y promoción académica— revela que los evaluadores continúan recurriendo de forma habitual a indicadores externos como la reputación de la revista o el propio factor de impacto para valorar la calidad y credibilidad de la investigación. En concreto, el 57 % de los encuestados afirmó utilizar al menos uno de estos indicadores para juzgar si un trabajo científico es fiable, lo que evidencia que la reputación editorial sigue funcionando como un atajo cognitivo en la toma de decisiones académicas.

Entre los distintos indicadores considerados, la reputación de la revista aparece como el criterio más utilizado para evaluar la credibilidad de los resultados científicos, seguido por la reputación del laboratorio o del grupo de investigación. El factor de impacto, aunque menos empleado directamente, continúa desempeñando un papel significativo: alrededor del 19 % de los investigadores lo utiliza para valorar la credibilidad de un artículo y un 15 % para juzgar su fiabilidad. Sin embargo, diversos estudios han demostrado que este indicador es un predictor pobre de la calidad real de un artículo individual, ya que mide el promedio de citas de una revista y no el valor específico de cada trabajo publicado en ella.

Dado que el 90 % de los encuestados afirmó que la evaluación de los resultados de investigación es importante para las decisiones de los comités, pero menos de la mitad dijo estar satisfecha con el conjunto de métricas disponibles, el estudio sostiene que existe “un amplio margen de oportunidad para proporcionar nuevas señales de credibilidad y fiabilidad”

El artículo recuerda que desde hace más de una década existen iniciativas internacionales que buscan limitar el uso del factor de impacto en la evaluación científica. Un ejemplo destacado es la Declaración de San Francisco sobre Evaluación de la Investigación (DORA), que recomienda explícitamente no emplear el JIF en decisiones relacionadas con financiación, contratación o promoción académica. A pesar de estas recomendaciones, el estudio sugiere que la persistencia de este indicador se debe en gran medida a la falta de alternativas claras y aceptadas para evaluar la calidad intrínseca de los trabajos científicos.

Así, los autores del estudio sostienen que existe una demanda creciente entre los evaluadores de nuevos indicadores que reflejen mejor la integridad, la transparencia y el rigor metodológico de la investigación. Entre las posibles señales de calidad se mencionan prácticas de ciencia abierta como la disponibilidad de datos, código o protocolos, así como mecanismos que permitan evaluar la reproducibilidad y la integridad de los resultados. La investigación concluye que mejorar estos “indicadores de credibilidad” podría contribuir a reducir la dependencia de métricas simplificadoras como el factor de impacto y favorecer evaluaciones más justas y rigurosas de la producción científica.

Impacto social de las Bibliotecas Públicas en Canadá

Canadian Urban Libraries Council/Conseil des Bibliothèques Urbaines du Canada (CULC/CBUC). (30 de enero de 2026). Social Impact Study: National Social Impact Study on Urban Public Libraries in Canada. Informe nacional sobre el impacto social de las bibliotecas públicas urbanas en Canadá.

Texto completo

Se trata de una investigación pionera realizada en Canadá para comprender de manera profunda el papel social y comunitario de las bibliotecas públicas urbanas. Esta iniciativa analiza cómo los servicios, espacios, programas y actividades de las bibliotecas influyen en la vida de las personas y en el tejido social de las comunidades, más allá de las métricas tradicionales como la cantidad de visitas, préstamos de libros o participación en eventos. El estudio explora el valor que las bibliotecas generan en términos de bienestar social, inclusión, aprendizaje, cohesión comunitaria y participación cívica.

La investigación se basa en datos empíricos obtenidos de más de 18.000 encuestados que interactúan con bibliotecas en 26 sistemas urbanos de bibliotecas públicas en todo Canadá. Para recopilar esta información, se combinaron métodos cuantitativos y cualitativos que incluyen encuestas en línea detalladas y entrevistas individuales, proporcionando una visión holística del impacto que estos espacios tienen en la vida diaria de las personas. Además, el estudio se llevó a cabo en colaboración con el consorcio de investigación Is It a Bird / It Depends, especializado en análisis de impacto social, lo cual fortifica la rigurosidad metodológica de la investigación.

Uno de los aspectos centrales del Estudio Nacional de Impacto Social es su enfoque integral y centrado en la experiencia vivida de las personas usuarias. Más que medir solo estadísticas operativas, el estudio pretende captar cómo las bibliotecas contribuyen al bienestar emocional, social, intelectual y creativo de sus comunidades. Los resultados —publicados en enero de 2026— no solo aportan datos significativos para entender mejor el valor de las bibliotecas, sino que también pretenden orientar conversaciones nacionales y regionales sobre políticas públicas, inversión, planificación y defensa del papel de las bibliotecas en la sociedad canadiense del siglo XXI.

En términos de impacto estratégico, este estudio proporciona evidencia sólida y contextualizada sobre la importancia de las bibliotecas públicas urbanas, destacando cómo estos espacios fortalecen la cohesión social, facilitan el acceso equitativo al conocimiento y fomentan oportunidades de aprendizaje a lo largo de la vida. Asimismo, al poner el foco en experiencias reales de los usuarios, el estudio amplía el entendimiento tradicional de los resultados de las bibliotecas, demostrando que su valor no se limita únicamente a actividades culturales o educativas, sino que impacta de forma significativa en el bienestar global de las comunidades urbanas.

Adiós a Elsevier y Clarivate: OpenAlex y la nueva era de la ciencia abierta

Winemiller, Sam. 2026. “OpenAlex and Values‑Aligned Tools.” ACRLog, 26 de enero de 2026. https://acrlog.org/2026/01/26/openalex-and-values-aligned-tools/

Se hace una llamada a la comunidad académica y bibliotecaria para cuestionar la hegemonía de herramientas comerciales en la evaluación científica y abrazar alternativas abiertas como OpenAlex —no solo por su utilidad técnica, sino también por su potencial para reflejar y reforzar valores compartidos de acceso abierto, inclusión y control comunitario sobre las infraestructuras que sostienen el conocimiento global.

La academia necesita desvincular de las entidades corporativas nuestra capacidad para comprender y evaluar la actividad académica. Compañías como Elsevier y Clarivate han integrado efectivamente métodos de evaluación en la academia que dependen de sus herramientas propietarias (Scopus y SciVal; Web of Science y Journal Citation Reports e InCites, respectivamente). De manera conveniente, estos productos también emiten juicios sobre la “legitimidad” de los lugares de publicación académica y sobre si son valiosos como líneas dentro de un expediente de promoción o para decisiones de suscripción bibliotecaria, lo que plantea preguntas sobre posibles conflictos de interés. Uno podría suponer que las revistas propiedad de Elsevier rara vez se excluyen del corpus de Scopus, por ejemplo.

La necesidad de separar la indexación y evaluación de la actividad académica del control corporativo coincide con la necesidad de recuperar cierto grado de control sobre todo el sistema de publicación académica. Un camino posible sería un cambio significativo hacia espacios gestionados por instituciones académicas, sociedades científicas o alianzas académicas, en lugar de editores con fines de lucro; sin embargo, un obstáculo básico para este cambio es la indexación inconsistente e incompleta de dichos espacios en gráficos de conocimiento científico como Scopus y Web of Science. En su reciente artículo sobre el tema, Nazarovets et al. (2026) concluyen con esta sugerencia: “…la visibilidad desigual de las UJs [revistas universitarias] resalta un punto ciego estructural en la evaluación global de la investigación: a menos que infraestructuras más inclusivas como DOAJ y OpenAlex sean ampliamente reconocidas y mejoradas en cuanto a cobertura y fiabilidad de metadatos, grandes partes de la producción académica permanecerán invisibles incluso si se decide abandonar WoS [Web of Science] y Scopus.” Este es solo uno de los posibles beneficios de invertir en infraestructura abierta como OpenAlex (tal como lo recomienda la UNESCO). La infraestructura abierta puede definirse como herramientas y recursos fundamentales, gratuitos, sobre los cuales se puede realizar, compartir y explorar la ciencia y la investigación abierta.

Para quienes no estén familiarizados con OpenAlex, es esencialmente una gran base de datos de trabajos académicos y metadatos relacionados. OpenAlex se centra en la inclusión amplia de trabajos académicos, en contraste con la “curaduría” de fuentes legítimas practicada por servicios propietarios. Posee una interfaz web y puede consultarse mediante API, pero en esencia es una infraestructura dedicada al dominio público a través de la licencia CC0, mantenida activamente por una organización sin fines de lucro (501(c)3). Por supuesto, depender de datos de citas reportados por los editores puede ser cuestionable, pero mientras trabajamos en reconocer y recompensar otros tipos de evidencia sobre el impacto de la investigación, al menos podemos usar datos de citas lo más completos posibles.

¿Es OpenAlex tan bueno como sus competidores? Según mi experiencia, suele ser igual o mejor para la mayoría de propósitos, como generar listas de publicaciones de autores, incluyendo preprints, o analizar tendencias de publicación en acceso abierto de una institución a lo largo del tiempo. La mayoría de quienes lo han explorado a fondo parecen coincidir. Culbert et al. (2024) analizaron la cobertura de referencias de OpenAlex en comparación con Web of Science y Scopus, encontrándola “comparable”, incluso antes de las recientes mejoras de OpenAlex, que incluyeron más de 50 millones de trabajos nuevos. En una revisión de Katina, Ho (2025) calificó a OpenAlex como “…una alternativa prometedora y fiable a las bases de datos de citas tradicionales por suscripción para investigadores, administradores universitarios, instituciones de investigación y organismos gubernamentales interesados en actividades de investigación y colaboraciones potenciales.” Otras herramientas de descubrimiento académico, como Overton, utilizan OpenAlex como fuente de datos fundamental.

Cada persona necesitará probarlo para evaluar si su usabilidad cumple con sus estándares, pero para quienes dudan, basta considerar que el simple uso de estas herramientas puede ser una pequeña contribución hacia un futuro diferente para la infraestructura de investigación. Los coordinadores involucrados en la Declaración de Barcelona sobre Información de Investigación Abierta comentaron sobre el compromiso de la declaración de apoyar infraestructuras para información de investigación abierta:

“Lo que creemos importante para las organizaciones es asumir seriamente su responsabilidad de apoyar estas infraestructuras, las cuales solo pueden existir y desarrollarse si son usadas y apoyadas. Esto incluye apoyo financiero, pero también puede involucrar participación en la gobernanza y contribuciones en especie, como aportar datos y mejorar su calidad. En cuanto a las contribuciones financieras, la Universidad de la Sorbona es un gran ejemplo: cuando se dieron de baja de Web of Science, redirigieron parte de ese presupuesto a apoyar OpenAlex. En general, abogamos por hacer de las inversiones en infraestructura abierta una parte integral de los presupuestos institucionales.”

Para muchos en bibliotecas universitarias, no contamos con recursos significativos para invertir o desinvertir, aunque votar con nuestro dinero sigue siendo una opción si tenemos autorización para hacerlo. Sin embargo, lo que sí está dentro de nuestro ámbito de influencia es aprender sobre infraestructura alineada con valores y usarla, aprovechando nuestras posiciones como profesionales de la información para enseñar y motivar a otros a usar infraestructura alineada con valores. En mi institución, hemos empezado con proyectos pequeños, como integrar OpenAlex en nuestra plataforma local de perfiles académicos y trabajar para añadir nuestro repositorio institucional como fuente de datos para OpenAlex. Ya sea OpenAlex u otra herramienta alineada con valores, podemos “votar” con nuestro uso como un pequeño acto diario de apoyo o resistencia. Enseñando sobre estas herramientas, pequeños actos individuales se convierten en poder colectivo.

Una nueva prueba de IA analiza si los chatbots protegen el bienestar humano

Bellan, Rebecca. “A New AI Benchmark Tests Whether Chatbots Protect Human Well-Being.” TechCrunch, November 24, 2025. https://techcrunch.com/2025/11/24/a-new-ai-benchmark-tests-whether-chatbots-protect-human-wellbeing

Se describe la creación de un nuevo benchmark llamado HumaneBench diseñado para evaluar si los chatbots de inteligencia artificial realmente protegen el bienestar humano en lugar de simplemente maximizar la interacción o el compromiso del usuario.

A diferencia de la mayoría de pruebas existentes, que se centran en medir la inteligencia técnica o la capacidad de seguir instrucciones, HumaneBench pone el foco en la seguridad psicológica y la protección del usuario, evaluando cómo responden los modelos de IA en situaciones realistas que pueden afectar la salud mental o las decisiones vitales de las personas.

HumaneBench fue desarrollado por la organización sin ánimo de lucro Building Humane Technology, que basa el benchmark en principios como respetar la atención del usuario, empoderar con opciones significativas, mejorar capacidades humanas, proteger la dignidad y la privacidad, fomentar relaciones saludables, priorizar el bienestar a largo plazo, transparencia e inclusión. El equipo creó 800 escenarios realistas —por ejemplo, preguntas sobre saltarse comidas o experiencias en relaciones tóxicas— para probar cómo los modelos responden bajo diferentes condiciones.

Los resultados mostraron que la mayoría de los modelos de IA mejoran sus respuestas cuando se les indica explícitamente que prioricen el bienestar, pero que muchos pueden comportarse de manera activamente dañina si se les pide ignorar esos principios. Según la evaluación, solo unos pocos modelos (como GPT-5 y algunas versiones de Claude) mantuvieron un desempeño íntegro bajo presión, mientras que otros fallaron sobre todo en respetar la atención del usuario o evitar fomentar un uso excesivo. Esto evidencia que, aunque existe progreso, aún hay lagunas importantes en cómo los sistemas de IA gestionan la seguridad y autonomía del usuario.

Finalmente, la iniciativa de HumaneBench se enmarca en una preocupación más amplia sobre los riesgos asociados al uso intensivo de chatbots, desde problemas de salud mental hasta patrones de uso adictivo, y surge junto a esfuerzos para establecer estándares o certificaciones éticas para productos de IA que realmente prioricen el bienestar humano.

La presión sobre la publicación científica en la era de la sobreproducción académica

Hanson, Mark A., Pablo Gómez Barreiro, Paolo Crosetto, y Dan Brockington. 2024. “The Strain on Scientific Publishing.” Quantitative Science Studies 5 (4): 823–843. https://doi.org/10.1162/qss_a_00327

El artículo analiza la presión creciente que sufre la publicación científica como consecuencia del aumento acelerado del número de artículos que se publican cada año. Aunque la producción de conocimiento científico se ha expandido de forma notable, el número de investigadores capaces de leer, evaluar y revisar ese volumen de trabajos no ha crecido al mismo ritmo, lo que genera una sobrecarga estructural en todo el sistema editorial académico.

Los autores muestran que, en la última década, las bases de datos científicas han registrado un incremento muy significativo del número de artículos indexados. Este crecimiento ha intensificado las exigencias para los investigadores, que no solo deben producir más publicaciones, sino también dedicar una cantidad cada vez mayor de tiempo a tareas como la lectura y la revisión por pares. Como resultado, el sistema de “publicar o perecer” se vuelve más exigente y menos sostenible. Así, el número de artículos indexados en bases como Scopus y Web of Science se ha incrementado de forma exponencial en los últimos años, con un aumento de alrededor del 47 % entre 2016 y 2022.

Mientras que las grandes editoriales tradicionales (como Elsevier o Springer) han aumentado su producción de manera moderada, otras —especialmente aquellas que dependen de modelos de acceso abierto con cargos por procesamiento de artículos (APC) como MDPI y Frontiers— han visto incrementos marcados en artículos por revista y en la proporción de publicaciones a través de special issues o números especiales. Esto sugiere que las estrategias editoriales específicas pueden estar impulsando parte de la expansión de contenidos.

El trabajo propone una serie de métricas para analizar esta tensión, entre ellas el aumento del volumen total de artículos, el uso creciente de números especiales, los tiempos de evaluación editorial, las tasas de rechazo y la evolución de las métricas de impacto. Estas medidas permiten observar cómo las prácticas editoriales han cambiado y cómo algunas estrategias contribuyen a acelerar la publicación sin que ello garantice una mejora en la calidad científica.

Uno de los hallazgos más relevantes es que ciertos modelos editoriales, especialmente aquellos basados en el acceso abierto financiado mediante cargos por publicación, han impulsado un crecimiento muy rápido del número de artículos por revista. En algunos casos, este crecimiento se apoya en un uso intensivo de números especiales, lo que puede facilitar procesos editoriales más rápidos y homogéneos, pero también suscita dudas sobre el rigor de la revisión por pares.

El análisis de los tiempos de aceptación muestra que algunas revistas publican artículos con gran rapidez y con escasa variación entre los plazos de revisión, lo que sugiere procesos altamente estandarizados. Aunque la rapidez no implica necesariamente baja calidad, los autores señalan que esta tendencia puede aumentar la presión sobre revisores y editores y reducir la capacidad de evaluación crítica en profundidad.

En relación con las tasas de rechazo, el estudio revela que no existe un patrón único: algunas editoriales mantienen niveles altos, mientras que otras los reducen o los estabilizan. Esto indica que el aumento de publicaciones no responde a una lógica uniforme, sino a decisiones editoriales específicas que influyen directamente en la carga global del sistema.

El artículo también aborda la inflación de las métricas de impacto, mostrando cómo el aumento generalizado de citas puede distorsionar la percepción de calidad científica. La dependencia excesiva de indicadores bibliométricos refuerza comportamientos estratégicos por parte de investigadores y revistas, orientados a maximizar visibilidad y rendimiento cuantitativo más que a fortalecer la solidez del conocimiento producido.

En sus conclusiones, los autores sostienen que la tensión en la publicación científica no es consecuencia de un único factor, sino del encaje problemático entre incentivos académicos, modelos de negocio editoriales y sistemas de evaluación de la investigación. Para aliviar esta presión, consideran necesario repensar las políticas de evaluación, mejorar la transparencia editorial y reducir la dependencia de métricas basadas exclusivamente en el volumen de publicaciones.

Los investigadores creen que su institución valora más la publicación en revistas muy citadas que el impacto real que pueda tener un trabajo.

Grove, Jack. (2025, 12 de diciembre). Policy Impact Undervalued by Universities, Social Scientists Say. Inside Higher Ed. Recuperado de https://www.insidehighered.com/news/faculty-issues/research/2025/12/12/social-scientists-policy-impact-undervalued-universities

Los resultados reflejan que las universidades tienden a valorar más las publicaciones en revistas altamente citadas y otras métricas tradicionales de prestigio académico, como el recuento de citas o factores de impacto, antes que evaluar el impacto real de la investigación en la formulación de políticas o cambios sociales tangibles.

Encuesta global realizada por Sage entre más de 1 800 científicos sociales de 92 países, centrada en entender cómo perciben la valoración que sus universidades otorgan al impacto de su investigación en la sociedad y las políticas públicas. Según los datos del sondeo, solo alrededor de un tercio de los participantes considera que su institución los promovería o les daría valor por el impacto de su trabajo fuera del ámbito académico, lo que indica una desconexión entre las aspiraciones de estos investigadores y las prioridades institucionales.

En el estudio, el 92 % de los encuestados afirmó que para ellos el objetivo principal de la investigación es contribuir positivamente a la sociedad, pero solo el 68 % cree que esto sea una meta compartida por sus instituciones. Asimismo, un porcentaje similar percibe que los líderes universitarios no valoran plenamente la utilidad social de su trabajo, lo que sugiere que las prácticas de evaluación académica actuales aún están ancladas en métricas internas y tradicionales, dejando fuera dimensiones más abiertas o aplicadas del impacto científico. Cuando se les preguntó si su institución promocionaría o concedería la titularidad a un académico por sus esfuerzos por aplicar la investigación fuera del ámbito académico, solo el 37 % de los 1805 científicos sociales encuestados por Sage respondió afirmativamente.

Los datos también muestran que solo un 28 % de los científicos sociales opina que sus esfuerzos por influir en políticas públicas podrían traducirse en más financiación de investigación, y apenas un 35 % afirma que su universidad ofrece premios o reconocimiento explícito por el impacto fuera de la academia. Además, un 30 % de los encuestados declaró no recibir ningún tipo de reconocimiento por este tipo de trabajo, lo que pone en evidencia una brecha entre el compromiso de los científicos sociales con la relevancia de su investigación y las prácticas de recompensa institucional.

Del mismo modo, el 91 % de los investigadores está de acuerdo en que el objetivo final de la investigación es ampliar la bibliografía y facilitar futuras investigaciones, pero solo el 71 % cree que los responsables de su institución están de acuerdo con esto.

En conjunto, este artículo sugiere que, aunque los investigadores ven la contribución al bien público y a la toma de decisiones informadas como una parte esencial de su labor, el ecosistema académico permanece predominantemente orientado hacia la producción y citación de literatura especializada, con menor énfasis en la aplicación de conocimientos para abordar problemas sociales o influir en políticas. Esto plantea preguntas importantes sobre cómo las universidades podrían replantear sus criterios de evaluación y promoción profesional para reconocer y fomentar formas de investigación que conecten más directamente con desafíos sociales reales.

Esa percepción de desajuste entre la motivación de los científicos sociales y las instituciones debería llevar a replantearse si las métricas de prestigio utilizadas en el mundo académico están desajustadas con los valores, argumenta el informe de Sage.

	7 principios esencia… en AI-U: guía universitaria que b…
	¿Quién es el autor c… en El cuento de Roald Dahl que an…
	Dos pasitos pa’trás,… en ¿Qué es la Enshittification de…
	Los peligros de pedi… en Los peligros de pedir consejo…
	Cuando la IA cruza l… en Confianza, actitudes y uso de…

Universo Abierto

Blog de la biblioteca de Traducción y Documentación de la Universidad de Salamanca