Archivo de la etiqueta: Evaluación

Principios del seguimiento de la ciencia abierta

Open Science Monitoring Initiative. (2025). The Principles of Open Science Monitoring. Recuperado de https://open-science-monitoring.org/principles/

Se presentan los principios del Open Science Monitoring Initiative (OSMI), diseñados para ofrecer un marco global que oriente la creación de sistemas de seguimiento (monitorización) de la ciencia abierta en distintos contextos nacionales, institucionales y disciplinarios.

La iniciativa surge como respuesta a la falta de directrices globales para evaluar el grado y avance de prácticas de ciencia abierta tras la adopción de la 2021 UNESCO Recommendation on Open Science.

Los principios se estructuran alrededor de tres pilares fundamentales:

  • Relevancia y significación: los indicadores deben ser útiles, adaptables a diversos contextos, desarrollados con participación de distintos actores, y capaces de reflejar impactos reales de la ciencia abierta. Esto asegura que los sistemas de monitoreo realmente aporten información significativa para políticas, instituciones o comunidades científicas.
  • Transparencia y reproducibilidad: los sistemas de monitoreo deben apoyarse en infraestructuras abiertas, usar herramientas de código abierto, documentar públicamente los procesos y metodologías, asegurar la trazabilidad de los datos y permitir la reutilización. Los datos deben ser accesibles, los métodos claros, y los resultados comunicados de forma abierta, lo cual promueve confianza, auditabilidad y comparabilidad entre contextos
  • Autoevaluación y uso responsable: la monitorización debe emplearse como herramienta de mejora continua, con revisiones periódicas, sensibilidad al contexto, y nunca como un mecanismo para clasificar o rankear a investigadores individualmente. En su lugar, debe centrarse en apoyar el desarrollo colectivo de prácticas de ciencia abierta, respetando diversidad disciplinaria, equidad, inclusión y adaptabilidad local.

El documento enfatiza que estos principios no son prescriptivos sino aspiracionales: buscan guiar y orientar la creación de sistemas de monitoreo —no imponer un modelo único. Su carácter flexible y modular facilita su adopción por diversos actores institucionales, gubernamentales o comunitarios con distintas capacidades, recursos y realidades.

La perdida de influencia del factor de impacto: hacia una evaluación más holística de la investigación

Worlock, David. The Implosion of the Impact Factor. David Worlock Blog, octubre de 2025. https://www.davidworlock.com/2025/10/the-implosion-of-the-impact-factor/

Se analiza la creciente irrelevancia del factor de impacto como métrica principal en la evaluación de la investigación académica. Worlock argumenta que esta métrica, que históricamente ha influido en decisiones de financiación, promoción y prestigio académico, está perdiendo eficacia debido a su enfoque limitado y a la evolución del panorama de la investigación.

David Worlock recuerda una reunión entre Eugene Garfield y Thompson en 1982 en la que Garfield afirmo, “Saben”, lo que he desarrollado aquí es solo la forma menos mala de medir la importancia de la ciencia experimental. Todas las demás que he examinado tienen fallas graves y perjudiciales: medir las citas es neutral y universal”.

A lo largo de los años se han hecho muchas sugerencias para añadir métricas/altmétricas nuevas o diferentes, o para crear un esquema de múltiples métricas para crear mejores maneras de distinguir la ciencia sólida de las contribuciones más importantes. Todas han fracasado.

Worlock destaca que el factor de impacto no refleja adecuadamente la calidad o el impacto real de una investigación, ya que se basa en el número de citas recibidas por los artículos publicados en una revista, sin considerar el contexto o la relevancia de esas citas. Además, señala que la creciente disponibilidad de preprints y la diversificación de los canales de publicación están haciendo que esta métrica sea aún menos representativa del valor real de la investigación.

También menciona iniciativas como la de Web of Science, que han comenzado a cuestionar y revisar el uso del factor de impacto, sugiriendo que la comunidad académica está reconociendo la necesidad de adoptar métricas más holísticas y contextuales para evaluar la investigación.

En conclusión, el artículo sugiere que la «implosión» del factor de impacto es una señal de que el sistema de evaluación académica está en transición hacia métodos más sofisticados y representativos, que consideren una gama más amplia de factores y contextos en la valoración de la investigación. En la era de la IA, y nuestra capacidad para examinar y comparar estructuras taxonómicas y ontológicas con un nivel de intensidad completamente diferente, sin duda deberíamos hacerlo mejor.

Buenas prácticas para la implementación de la inteligencia artificial en las bibliotecas

Ehrenpreis, Michelle, y John DeLooper. “Chatbot Assessment: Best Practices for Artificial Intelligence in the Library.” portal: Libraries and the Academy 25, n.º 4 (2025): 669-701. https://preprint.press.jhu.edu/portal/sites/default/files/06_25.4ehrenpreis.pdf

El estudio representa una evaluación pionera de un chatbot de biblioteca que incorpora la API de ChatGPT, proporcionando evidencia práctica de sus capacidades y limitaciones, así como recomendaciones operativas para maximizar su utilidad en entornos académicos.

Evaluación detallada de un chatbot utilizado en una biblioteca universitaria, específicamente Ivy.ai (“IvyQuantum”) en la Lehman College Library (parte del sistema CUNY). Este chatbot fue inicialmente implementado en otoño de 2019, usando un modelo basado en reglas (rules-based), y más adelante, desde abril de 2023, se integró con la API de ChatGPT para convertirse en un sistema híbrido de generación más inteligente (modelo generativo + base de conocimiento local).

Para evaluar el desempeño tras esta actualización, los autores analizaron una muestra aleatoria de 101 interacciones de chatbot durante el semestre de primavera de 2023 (de un total de 816) más las 39 “tickets” generados cuando el chatbot no pudo contestar (es decir, casos en los que el usuario solicitaba asistencia humana). Cada interacción fue valorada mediante un rúbrica desarrollada por los autores que incluyó criterios como confianza del chatbot (respuestas “low confidence”, “no confidence”), si el usuario rechazó generar un ticket, la evaluación del usuario (pulgar arriba/abajo) y variables de comportamiento del usuario (por ejemplo, desconexión prematura, satisfacción explícita, solicitud de agente humano). Además, las respuestas fueron codificadas según temas (por ejemplo, libros, artículos, solicitudes de agente, investigación) para identificar los tipos de preguntas con menor desempeño.

Los resultados muestran que el chatbot tiene un rendimiento moderado: en la muestra aleatoria, aproximadamente el 39 % de las respuestas recibieron una calificación 1 (correctas pero incompletas) según la rúbrica, mientras que el 42 % fueron calificadas como respuestas completas pero incorrectas (puntuación 2). En comparación con la tasa de éxito atribuida a bibliotecarios humanos en servicios de referencia (alrededor del 55 %), su desempeño es destacable para una herramienta automatizada, aunque con limitaciones claras. Las preguntas más problemáticas para el chatbot fueron aquellas que solicitaban hablar con un agente humano, consultas sobre libros (incluyendo disponibilidad, edición o reservas) y peticiones para investigación o artículos académicos. Tras la integración del ChatGPT, se observó una reducción en el número total de consultas sin ticket (−45 %) pero un aumento significativo en el número de tickets generados (+190 %) en comparación con el periodo anterior.

A partir de sus hallazgos, los autores proponen una serie de mejores prácticas para bibliotecas que consideren adoptar chatbots: revisión periódica de las transcripciones y las preguntas de los usuarios para ajustar respuestas personalizadas, mantener actualizada y estructurada la base de conocimiento de la biblioteca (por ejemplo, mediante archivos CSV con datos limpios), diseñar la interfaz para que los usuarios comprendan el propósito del chatbot (por ejemplo, distinguiendo claramente cuándo derivar al chat humano), y asegurar que haya personal bibliotecario dedicado al mantenimiento y mejora del sistema.

También destacan que la participación institucional y el compromiso de los bibliotecarios son factores clave para el éxito, y que la adopción de sistemas híbridos (reglas + generación) puede ofrecer un equilibrio entre control y flexibilidad.

Lo que funciona y lo que no: un estudio exploratorio de los modelos de referencia bibliotecaria actuales en grandes bibliotecas universitarias

Weare, William H., Jaena Alabi, y John Fullerton. “What’s Working and What Isn’t: An Exploratory Study of Current Reference Models in Large Academic Libraries.” portal: Libraries and the Academy 25, n.º 4 (2025): 753-780. https://preprint.press.jhu.edu/portal/sites/default/files/09_25.4weare.pdf

El estudio analiza los modelos actuales de servicio de referencia en grandes bibliotecas universitarias, con el objetivo de identificar qué prácticas funcionan bien, cuáles presentan dificultades y cómo los cambios organizacionales afectan estas funciones.

Para ello, los autores entrevistaron a 15 responsables de servicios de referencia en universidades “land-grant” con alta matrícula (más de 20.000 estudiantes), situadas en Estados Unidos, utilizando un enfoque cualitativo con entrevistas semiestructuradas entre 2018 y 2019. Los entrevistados representaban instituciones sin programa acreditado de ciencias de la información, lo cual evitaba contar con un grupo de profesionales locales del gremio que pudiera distorsionar las dinámicas normales del servicio. Las entrevistas, con duración entre 43 y 73 minutos, fueron transcritas, codificadas y analizadas para identificar modelos de referencia, decisiones de personal y los factores que guiaban los cambios entre las diversas aproximaciones.

Los hallazgos revelan que no existe un modelo universal de referencia aplicado por todas las bibliotecas: muchas adoptan combinaciones adaptadas a su contexto institucional. Los autores identificaron siete enfoques dominantes: tradicional (con bibliotecarios atendiendo físicamente en escritorio), escritorio único combinado (referencia + circulación), peer-to-peer (estudiantes como asistentes de referencia), servicios escalonados (tiered), servicio “on call”, modelo de referencia por derivación (referral) y chat (o referencia virtual). En la práctica, los modelos no son mutuamente excluyentes; muchas bibliotecas combinan distintos enfoques según turno, necesidades del usuario o capacidades del personal. Un patrón frecuente es consolidar múltiples servicios en un solo mostrador para simplificar la experiencia del usuario y reducir la fragmentación de puntos de servicio.

Tres temas centrales atraviesan las decisiones institucionales: (1) la consolidación hacia un escritorio único de servicios, motivada por la necesidad de simplificar la experiencia del usuario y disminuir la confusión entre múltiples mostradores; (2) la retirada progresiva de bibliotecarios del servicio presencial directo, con la intención de liberar su tiempo para tareas especializadas, colaboración, docencia o proyectos externos; y (3) el aumento del uso de estudiantes en los puestos frontales de atención, como primer nivel de contacto, delegando a personal profesional preguntas más complejas. Entre las razones que impulsan estos movimientos destacan la reducción de la demanda presencial (caída de estadísticas de referencia), presiones institucionales para que los bibliotecarios asuman funciones de mayor impacto, cambios administrativos o de clasificación investigadora de la universidad, y un cuestionamiento sobre la eficiencia de tener personal altamente cualificado atendiendo consultas triviales.

Asimismo, el estudio señala que en muchas bibliotecas el volumen de consultas profundas es muy bajo; usando la escala READ (Reference Effort Assessment Data), varios entrevistados reportaron que un gran porcentaje de las preguntas corresponden a niveles bajos de complejidad, lo que sugiere que podrían atenderlas asistentes bien entrenados. Al mismo tiempo, se reconoce que la naturaleza de las preguntas ha evolucionado: aunque disminuye el volumen de preguntas básicas, los desafíos que llegan suelen ser más complejos y requieren intervención experta. En algunos casos, las instituciones mantienen el modelo tradicional por razones de identidad profesional, inercia institucional o porque sus bibliotecarios valoran el contacto directo con los usuarios.

En resumen, este estudio aporta evidencia cualitativa de que el futuro de los servicios de referencia en bibliotecas universitarias grandes se orienta hacia modelos híbridos, adaptativos y escalonados, más que hacia una sustitución total del servicio presencial o su configuración en un solo modelo rígido. La elección óptima depende del contexto institucional, cultura organizativa, recursos humanos y expectativas de los usuarios.

El programa PISA integrará alfabetización mediática e inteligencia artificial (IA) en 2029

Organisation for Economic Co-operation and Development (OECD). “PISA 2029 Media & Artificial Intelligence Literacy (MAIL).” OECD, consultado April 2025. https://www.oecd.org/en/about/projects/pisa-2029-media-and-artificial-intelligence-literacy.html

Según se indica, la nueva edición pondrá en el centro del análisis y evaluación escolar competencias como el pensamiento crítico, la conciencia algorítmica y la capacidad de evaluar críticamente los medios, reflejando la necesidad de preparar a los estudiantes para un entorno digital cada vez más complejo.

El programa PISA, desarrollado por la Organización para la Cooperación y el Desarrollo Económicos (OCDE), es reconocido por evaluar las habilidades de estudiantes de 15 años en lectura, matemáticas y ciencias en contextos del mundo real. La edición de 2029 incluye un nuevo dominio innovador: la alfabetización mediática y en inteligencia artificial, conocida como MAIL (Media & Artificial Intelligence Literacy), que amplía significativamente el alcance tradicional de la evaluación. El dominio MAIL busca evaluar si los estudiantes han tenido oportunidades de aprender a participar de modo proactivo y crítico en un mundo mediado por herramientas digitales y de inteligencia artificial.

La evaluación MAIL se diseñará como un entorno simulado—incluyendo redes sociales, internet y herramientas generativas de IA—que permitirá evaluar de forma realista competencias relacionadas con el análisis de credibilidad del contenido digital, el uso ético de la IA y la colaboración en entornos digitales.

La edición de 2029 planteará una agenda educativa más adaptativa e integral, centrada en la alfabetización mediática (comprensión crítica de contenido digital y medios) y en la alfabetización sobre IA, lo que incluye entender cómo funcionan los algoritmos, cómo influyen en la sociedad y cómo interactuar con las herramientas digitales de manera ética e informada.

Este cambio significativo en PISA orienta a las escuelas y responsables de políticas educativas hacia una actualización de los currículos. Es esencial que las instituciones incluyan en sus programas de estudios contenidos específicos sobre IA y medios digitales, y que desarrollen metodologías que evalúen estas competencias emergentes. De este modo, no solo se adaptan a los cambios en las herramientas de evaluación internacional, sino que contribuyen a formar estudiantes más preparados para un mundo donde la tecnología digital y algorítmica es omnipresente.

Project Outcome: evaluación y medición de resultados en bibliotecas públicas

El Proyecto Outcome es una iniciativa de la Public Library Association (PLA) que proporciona herramientas gratuitas para que las bibliotecas públicas midan y comprendan el impacto de sus programas y servicios esenciales. Lanzado en 2015, este proyecto ofrece encuestas estandarizadas y un proceso sencillo para medir y analizar resultados, permitiendo a las bibliotecas demostrar su efectividad y abogar por su valor en la comunidad.

Las encuestas del Proyecto Outcome están diseñadas para evaluar cuatro resultados clave en los usuarios: conocimiento, confianza, aplicación y conciencia. Estas encuestas se centran en nueve áreas de servicio prioritarias, incluyendo lectura de verano, habilidades laborales, alfabetización infantil temprana, aprendizaje digital y salud. Además, se ofrecen recursos y capacitación para ayudar a las bibliotecas a aplicar sus resultados y defender con confianza el futuro de sus servicios.

El Proyecto Outcome ha demostrado ser una herramienta valiosa para las bibliotecas, permitiéndoles no solo medir el impacto de sus programas, sino también utilizar esos datos para mejorar sus servicios y abogar por su relevancia en la comunidad. Con el apoyo de la PLA, las bibliotecas pueden acceder a estos recursos y capacitaciones sin costo alguno, fortaleciendo así su capacidad para servir a sus comunidades de manera efectiva.

Se publica la nueva edición de Scholar Metrics 2025

Google Scholars. “2025 Scholar Metrics Released.” Google Scholar Blog, 22 de julio de 2025. Consultado en línea. https://scholar.google.com/

English Scholar Metrics

Spanish Scholar Metrics

Social Sciences

Health & Medical Sciences

Life Sciences & Earth Sciences

Communication

El 22 de julio de 2025, Google publicó oficialmente su nueva edición de Scholar Metrics, una herramienta que permite a autores e instituciones evaluar rápida y eficazmente la visibilidad e influencia de publicaciones científicas recientes. Esta versión abarca artículos publicados entre 2020 y 2024, utilizando todas las citas de artículos indexados en Google Scholar hasta julio de 2025, y se focaliza especialmente en métricas como el h5‑index y el h5‑median, que reflejan el impacto de los artículos durante los últimos cinco años

Solo se incluyen en Scholar Metrics aquellas revistas y conferencias que cumplan ciertos requisitos: al menos 100 artículos publicados en el periodo 2020‑2024 y al menos una cita durante esos años. Además, se limita a publicaciones de sitios que siguen las pautas de inclusión de Google Scholar, y a conferencias seleccionadas en ingeniería y ciencias computacionales. Se excluyen patentes, libros, tesis, opiniones legales y publicaciones sin citaciones o con escasa producción.

La plataforma permite explorar categorías específicas como Engineering & Computer Science o Health & Medical Sciences., ofreciendo listados con las 20 principales publicaciones por h5‑index y h5‑median. También se encuentran rankings por idioma (español, portugués, entre otros), mostrando los 100 mejores títulos en cada lengua. Asimismo, es posible buscar publicaciones adicionales por palabra clave en el título, lo que facilita el acceso a revistas que no aparecen en los listados principales

Estas métricas son útiles para autores, editores y bibliotecarios que buscan evaluar o comparar la influencia de revistas dentro de un campo específico o región lingüística. No obstante, su eficacia puede estar limitada por la falta de transparencia en los criterios de indexación, la inclusión de revistas menores o mal configuradas y la ausencia de filtros por ISSN, región o características editoriales, aspectos que han sido señalados como puntos débiles en estudios críticos sobre Google Scholar Metrics

Evaluación de 8 chatbots de inteligencia artificial

Caswell, Amanda. “I Tested 8 AI Chatbots for Our First Ever AI Madness — and This Is the Surprise Winner.” Tom’s Guide, marzo‑abril 2025.

Texto completo

En marzo de 2025, el medio tecnológico Tom’s Guide organizó una competencia llamada “AI Madness”, una especie de torneo eliminatorio inspirado en los brackets deportivos, para evaluar y comparar ocho de los chatbots de inteligencia artificial más avanzados del momento.

La periodista Amanda Caswell fue la encargada de probar cada modelo en múltiples rondas, utilizando una serie de prompts reales que abarcaban seis criterios clave: precisión factual, creatividad, utilidad, capacidades multimodales, experiencia de usuario e interfaz, y velocidad de respuesta.

En la primera ronda, ChatGPT (de OpenAI) venció a Perplexity.ai gracias a su equilibrio entre creatividad, profundidad y claridad. Gemini, el chatbot de Google, superó a Mistral por ofrecer una lógica más ordenada y explicaciones más didácticas. Una de las mayores sorpresas fue que Grok, el modelo de xAI desarrollado por Elon Musk, derrotó a Claude (de Anthropic), al mostrar respuestas más completas y accesibles para usuarios generales. Finalmente, DeepSeek, una plataforma emergente de origen chino, logró imponerse a Meta AI destacando por su tono conversacional, precisión técnica y versatilidad temática.

En las semifinales, Gemini se enfrentó a ChatGPT en una ronda muy reñida. Aunque ambos ofrecieron un alto nivel de rendimiento, Gemini destacó por estructurar mejor las respuestas y adaptarse a distintos tipos de consultas, como explicaciones académicas, planificación de menús y diseños de bases de datos. DeepSeek, por su parte, logró derrotar a Grok al demostrar una mayor profundidad analítica y un estilo más claro, manteniendo a la vez un enfoque conversacional eficaz.

La final del torneo fue entre Gemini y DeepSeek. Aunque Gemini mantuvo un nivel alto de desempeño, DeepSeek logró brillar en la mayoría de las tareas propuestas, entre ellas la resolución de problemas reales, la explicación de conceptos para diferentes edades, y la creatividad narrativa. El modelo combinó razonamiento avanzado con un lenguaje claro y accesible, superando las expectativas del jurado. Como resultado, DeepSeek fue proclamado ganador absoluto del torneo AI Madness 2025.

Un factor diferencial que explica el rendimiento sobresaliente de DeepSeek fue su enfoque de entrenamiento. A diferencia de muchos modelos que dependen principalmente del aprendizaje supervisado, DeepSeek-R1 utiliza aprendizaje por refuerzo (reinforcement learning), lo que le permite mejorar su capacidad de razonamiento y reflexión con menos intervención humana. Esto le otorga mayor autonomía y eficiencia a la hora de generar respuestas coherentes y detalladas en tiempo real.

¿Son mejores las ideas de investigación generadas por Inteligencia Artificial o las creadas por humanos?

Si, Chenglei, Tatsunori Hashimoto y Diyi Yang. The Ideation-Execution Gap: Execution Outcomes of LLM-Generated versus Human Research Ideas. arXiv, 25 de junio de 2025. https://arxiv.org/abs/2506.20803

Los resultados mostraron que las ideas generadas por LLM recibieron puntuaciones significativamente más bajas que las ideas humanas en todos los criterios evaluados: novedad, entusiasmo, efectividad y puntuación general. Este fenómeno, denominado «brecha ideación-ejecución», sugiere que, aunque los LLM pueden generar ideas originales, su capacidad para traducir esas ideas en resultados de investigación efectivos es limitada.

El estudio investiga la diferencia entre la generación de ideas de investigación por modelos de lenguaje grande (LLM, Large Language Models) y la capacidad real de esas ideas para traducirse en resultados concretos y efectivos cuando se llevan a la práctica. Aunque investigaciones anteriores han señalado que los LLM pueden producir ideas originales e innovadoras, el presente estudio se enfoca en la llamada “brecha ideación-ejecución” para determinar si estas ideas realmente tienen éxito cuando se implementan en proyectos de investigación reales.

Para evaluar esta cuestión, los autores diseñaron un experimento riguroso en el que 43 investigadores expertos en procesamiento de lenguaje natural recibieron ideas de investigación generadas tanto por humanos como por LLM. Cada investigador trabajó durante más de 100 horas en la ejecución de una de estas ideas, desarrollando proyectos completos documentados en informes detallados de cuatro páginas. Estos informes fueron luego evaluados de manera anónima por otros expertos para medir la calidad y el impacto de los resultados obtenidos.

Los resultados revelaron que, en múltiples dimensiones evaluadas —incluyendo la novedad de la idea, el entusiasmo generado, la efectividad del proyecto y la valoración general—, los proyectos derivados de ideas humanas superaron claramente a los derivados de ideas generadas por LLM. En otras palabras, aunque los LLM son capaces de ofrecer propuestas creativas y novedosas, su capacidad para traducir esas ideas en investigaciones exitosas y aplicables es significativamente menor.

Este hallazgo tiene implicaciones importantes para el uso de la inteligencia artificial en la investigación científica. Sugiere que, aunque la IA puede ser una herramienta valiosa para inspirar ideas o asistir en la fase inicial de generación conceptual, la supervisión humana y la experiencia siguen siendo cruciales para asegurar que las ideas puedan concretarse en resultados tangibles y de calidad. El estudio enfatiza la necesidad de evaluar no solo la creatividad o novedad de las ideas producidas por IA, sino también su factibilidad y capacidad de ejecución.

Finalmente, los autores invitan a reflexionar sobre cómo integrar de manera efectiva las capacidades de los modelos de lenguaje en el proceso de investigación, proponiendo un enfoque colaborativo entre humanos e IA que maximice las fortalezas de cada uno, minimizando las limitaciones observadas.

GLAT: herramienta para evaluar la alfabetización en inteligencia artificial generativa

Yueqiao Jin, Roberto Martinez-Maldonado, Dragan Gašević, Lixiang Yan, GLAT: The generative AI literacy assessment test, Computers and Education: Artificial Intelligence,
Volume 9, 2025, 10 de junio de 2025. https://www.sciencedirect.com/science/article/pii/S2666920X25000761

Se presenta «GLAT: The Generative AI Literacy Assessment Test» una herramienta para el desarrollo y validación del rendimiento para medir la alfabetización en inteligencia artificial generativa (GenAI).

Esta prueba, denominada GLAT, fue diseñada para evaluar la capacidad de los individuos para utilizar herramientas de GenAI de manera efectiva y ética, abordando la creciente necesidad de evaluar habilidades en un entorno digital cada vez más automatizado.

La investigación destaca que, a pesar del aumento en el uso de tecnologías de GenAI, existe una falta de herramientas estandarizadas para medir la competencia en este ámbito. GLAT se diferencia de las evaluaciones tradicionales al centrarse en tareas prácticas que simulan escenarios reales donde los usuarios deben interactuar con sistemas de GenAI, evaluando su capacidad para generar, analizar y aplicar contenido de manera crítica.

Además, el estudio valida la fiabilidad y validez del GLAT a través de pruebas empíricas, demostrando que la herramienta es efectiva para medir la alfabetización en GenAI en diversos grupos demográficos. Los resultados sugieren que el GLAT puede ser una herramienta valiosa para instituciones educativas, organizaciones y gobiernos que buscan evaluar y mejorar las competencias digitales relacionadas con la inteligencia artificial generativa.

GLAT es una solución innovadora para abordar la necesidad urgente de evaluar la alfabetización en GenAI, proporcionando una base para el desarrollo de políticas educativas y formativas que promuevan el uso responsable y competente de las tecnologías de inteligencia artificial generativa