Archivo de la etiqueta: Inteligencia artificial

Estereotipos de la profesión bibliotecaria en la inteligencia artificial generativa

Spennemann, Dirk H. R., y Kay Oddone. “What do librarians look like? Stereotyping of a profession by generative AI.” Journal of Librarianship and Information Science (publicado recientemente). DOI: 10.1177/09610006251357286

El artículo investiga si existen sesgos en la representación visual de los bibliotecarios en las respuestas generadas por ChatGPT. El objetivo principal es analizar cómo la inteligencia artificial reproduce o refuerza estereotipos profesionales al generar imágenes asociadas a esta profesión.

Se analiza cómo la inteligencia artificial generativa, específicamente ChatGPT4o con integración de DALL·E, produce imágenes estereotipadas de bibliotecarios en distintos contextos (bibliotecas escolares, públicas y universitarias). El estudio compara representaciones generadas por IA con estereotipos tradicionales profundamente arraigados en la percepción social del oficio.

Los autores parten de la premisa de que los estereotipos profesionales —como la imagen del bibliotecario rígido, femenino, de mediana edad, vestido con rebecas y gafas— persisten desde hace décadas y han sido reforzados por la cultura popular. La investigación se propone averiguar si la IA reproduce estos estereotipos o introduce sesgos adicionales que distorsionan la realidad demográfica de la profesión.

El marco teórico de la investigación se sustenta en la idea de que los estereotipos son “generalizaciones perezosas” que reducen a los individuos a una serie de características simplificadas y frecuentemente sesgadas. Esto implica una reflexión crítica sobre cómo la IA, al aprender de grandes cantidades de datos, puede perpetuar imágenes prejuiciosas que afectan la percepción de los bibliotecarios como un grupo homogéneo, con atributos visuales específicos que posiblemente no correspondan con la diversidad real del perfil profesional.

El método consistió en usar zero-shot prompting, es decir, instrucciones abiertas a ChatGPT para generar imágenes en dos situaciones: (1) dos bibliotecarios conversando y (2) un bibliotecario asesorando a un usuario. Se produjeron 300 imágenes en total (50 por escenario y tipo de biblioteca). Estas se analizaron según variables como género, edad, etnicidad, indumentaria, peinados, postura corporal y representación del espacio bibliotecario.

Los resultados muestran un claro sesgo. En términos étnicos, más del 98% de los bibliotecarios fueron representados como caucásicos, con mínima aparición de asiáticos (1,6%) y prácticamente ninguna representación afrodescendiente o de otras minorías. En cuanto al género, mientras que las bibliotecas escolares presentaron cierta paridad (52% hombres, 48% mujeres), las públicas y universitarias mostraron una fuerte sobrerrepresentación masculina, llegando al 94% de hombres en universidades, lo cual contradice las estadísticas reales que indican que la profesión es mayoritariamente femenina. Además, los hombres fueron situados sistemáticamente en posiciones de autoridad, ya sea de pie, en el lado izquierdo de la imagen o interactuando con usuarios de forma jerárquica, lo que refuerza la percepción de dominación masculina en el ámbito profesional.

Respecto a la edad, se observó una tendencia a representar a los bibliotecarios como más mayores en entornos académicos y públicos, mientras que en las bibliotecas escolares se los mostró más jóvenes. En el caso de las mujeres, los estereotipos visuales fueron evidentes: las más jóvenes aparecían con el cabello suelto o en coleta y con blusas, mientras que las de mayor edad eran representadas con moños, rebecas y gafas. Los hombres, por su parte, eran retratados con barba a medida que aumentaba la edad y predominantemente vestidos con traje, especialmente en el entorno universitario.

El análisis también reveló problemas éticos: algunas imágenes mostraban conductas inapropiadas, como bibliotecarios (sobre todo hombres mayores) colocando la mano en el hombro de usuarios, lo cual puede transmitir un mensaje de exceso de familiaridad o incluso acoso. Además, la IA cometió errores de generación (libreros flotantes, figuras con más extremidades, etc.), reflejando las limitaciones técnicas del modelo.

En la discusión, los autores señalan que, aunque ciertos rasgos coinciden con la demografía real (predominio de profesionales caucásicos y de edad media-alta), la IA tergiversa aspectos clave al sobrerrepresentar a hombres en posiciones de autoridad y minimizar la presencia femenina. Esto refuerza prejuicios que ya afectan la percepción pública de la profesión y la consolidan como subordinada o poco visible. Además, se alerta sobre el peligro de que imágenes producidas por IA —al ser baratas, rápidas y libres de derechos— se difundan ampliamente en materiales educativos o de comunicación, contribuyendo a perpetuar desigualdades y discriminación en lugar de reflejar la diversidad real.

En conjunto, este trabajo contribuye al debate en torno a los riesgos y limitaciones éticas del uso de inteligencia artificial generativa en contextos profesionales, especialmente aquellos en que la representación visual puede influir en la percepción pública y en dinámicas de identidad laboral. La investigación subraya la necesidad de mayor vigilancia y conciencia crítica sobre la manera en que la IA reproduce normas culturales y estereotipos visuales.

ChatGPT tiende a ignorar las retractaciones en artículos científicos

Chawla, Dalmeet Singh. «ChatGPT Tends to Ignore Retractions on Scientific PapersChemical & Engineering News, 15 de agosto de 2025. https://cen.acs.org/policy/publishing/ChatGPT-tends-ignore-retractions-scientific/103/web/2025/08

Un estudio reciente revela que ChatGPT, específicamente la versión GPT 4o-mini, no identifica ni menciona las retractaciones o problemas de validez en artículos científicos previamente retirados.

Al analizar 217 estudios académicos que habían sido retirados o señalados por preocupaciones de validez en la base de datos Retraction Watch, los investigadores descubrieron que el modelo de lenguaje no hacía referencia a estas retractaciones en ninguno de los 6.510 informes generados. En cambio, en 190 casos, describió los artículos como de «líder mundial» o «excelente internacionalmente». Solo en 27 casos se mencionaron críticas, y en 5 de ellos, incluyendo uno sobre la hidroxicloroquina como tratamiento para la COVID-19, se calificaron como «controvertidos».

Además, al verificar 61 afirmaciones de estudios retirados, el modelo respondió afirmativamente en dos tercios de los casos, incluso cuando la información ya había sido desmentida. Los autores del estudio sugieren que los algoritmos de inteligencia artificial, como ChatGPT, deberían ajustarse para reconocer y manejar adecuadamente las retractaciones, ya que su uso en revisiones bibliográficas podría propagar información científica

Debora Weber-Wulff, científica informática de la Universidad de Ciencias Aplicadas HTW Berlín, advierte que la dependencia excesiva de estas herramientas puede corromper el registro científico. Sin embargo, cuestiona la metodología del estudio, señalando que la falta de comparación con artículos no retirados limita la evaluación del desempeño del modelo. También destaca que las retractaciones no siempre están claramente marcadas en la literatura, lo que dificulta su identificación incluso para los humanos.

Este hallazgo subraya la necesidad de mejorar la capacidad de los modelos de lenguaje para reconocer y manejar información científica retractada, especialmente en contextos académicos donde la precisión es crucial.

ArXivBench: Evaluando la fiabilidad de los modelos de lenguaje en la generación de referencias académicas

Li, Ning; Zhang, Jingran; Cui, Justin. ArXivBench: When You Should Avoid Using ChatGPT for Academic Writing. arXiv preprint (v2), 7 de agosto de 2025. arXiv:2504.10496 [cs.IR]. https://arxiv.org/html/2504.10496v2

Los modelos de lenguaje a gran escala (LLMs) han mostrado capacidades impresionantes en razonamiento, pregunta-respuesta y generación de texto, pero su tendencia a generar contenido erróneo o referencias falsas sigue siendo una preocupación crítica en entornos académicos rigurosos. El artículo se enfoca en evaluar qué tan fiables son estos modelos al generar referencias académicas, concretamente enlaces a artículos en arXiv.

El artículo presenta ArXivBench, un banco de pruebas diseñado para evaluar la fiabilidad de los modelos de lenguaje a gran escala (LLMs) al generar referencias y enlaces a artículos académicos en arXiv. Los autores parten de la preocupación por el uso creciente de LLMs en redacción académica, donde su capacidad para producir contenido coherente y persuasivo no siempre va acompañada de precisión factual. En particular, señalan el riesgo de que los modelos generen referencias inventadas o incorrectas, lo que compromete la integridad de un trabajo de investigación.

Para abordar este problema, ArXivBench reúne un conjunto de 6.500 prompts que cubren trece áreas temáticas dentro de la informática, organizadas en ocho categorías y cinco subcampos. La herramienta incluye un flujo de trabajo automatizado para generar nuevos prompts y un sistema de evaluación que permite medir el rendimiento de diferentes modelos sin recurrir a técnicas de recuperación aumentada (RAG), evaluando así sus capacidades “de fábrica”. Se probaron quince modelos, tanto de código abierto como propietarios, analizando su precisión al proporcionar enlaces correctos y contenido relevante.

Los resultados muestran que el rendimiento varía de forma significativa según la disciplina. El subcampo de inteligencia artificial es donde los modelos ofrecen mejores resultados, mientras que en otras áreas las tasas de error son más elevadas. Entre los modelos evaluados, Claude-3.5-Sonnet destacó por su capacidad para generar respuestas relevantes y referencias exactas, superando de forma consistente a otros competidores.

Los autores concluyen que, si bien los LLMs pueden ser útiles en ciertas fases del trabajo académico, no son aún herramientas plenamente fiables para la generación de referencias académicas, especialmente en áreas menos cubiertas por sus datos de entrenamiento. ArXivBench se propone así como un instrumento para medir y mejorar la fiabilidad de estos sistemas, ofreciendo datos comparativos que orienten tanto a investigadores como a desarrolladores hacia un uso más responsable y fundamentado de la inteligencia artificial en la producción científica.

Las universidades chinas quieren que los estudiantes utilicen más la IA

MIT Technology Review. “Chinese Universities Want Students to Use More AI.” MIT Technology Review, July 28, 2025. https://www.technologyreview.com/2025/07/28/1120747/chinese-universities-ai-use/

En contraste con muchas instituciones occidentales que aún ven la IA como una amenaza, las universidades chinas están adoptando una estrategia proactiva. Lo que antes era desaconsejado —como el uso de ChatGPT en tareas académicas— ahora se alienta activamente, siempre que se haga con buenas prácticas. Un informe revela que solo el 1 % del profesorado y del alumnado afirma no haber usado herramientas de IA, y cerca del 60 % las utiliza frecuentemente, ya sea varias veces al día o semanalmente.

Este cambio refleja una tendencia a reconocer la IA no como un problema, sino como una habilidad esencial para el siglo XXI.

El surgimiento del modelo chino DeepSeek ha sido crucial. Varias universidades —como la de Shenzhen, Zhejiang, Shanghai Jiao Tong y Renmin— ya han incorporado cursos basados en DeepSeek. Estos programas no solo enseñan tecnología, sino que abordan también temáticas clave como la seguridad, la privacidad y la ética. Este enfoque holístico está alineado con el plan nacional China 2035, que busca un sistema educativo de alta calidad e inclusivo.

Un estudio reciente sobre estudiantes de ingeniería en China encontró que más de la mitad reconoce una mejora en su eficiencia, iniciativa y creatividad al usar IA generativa. Casi la mitad añadió que esta tecnología también potenció su pensamiento independiente. No obstante, hubo cierta preocupación sobre la precisión y confiabilidad específica de dominio, y muchos no percibieron una mejora significativa en sus calificaciones académicas.

El caso chino no es aislado. Técnicamente, a nivel mundial, la IA generativa ha comenzado a definir nuevas dinámicas educativas:

  • En Occidente, el enfoque aún gira en torno a detectar y sancionar su uso. Pero mientras muchos luchan por controlar su presencia, China ya la ve como una competencia y una herramienta empoderadora MediumLinkedIn.
  • Existe un impulso claro hacia integrar IA en todos los niveles educativos —incluyendo exámenes y libros de texto— para fomentar el pensamiento crítico y la resolución de problemas

Contenido generado por IA está contaminando los servidores de preprints

Watson, Traci. «AI content is tainting preprints: how moderators are fighting backNature, 12 de agosto de 2025. https://doi.org/10.1038/d41586-025-02469-y.

Diversos servidores de preprints —como PsyArXiv, arXiv, bioRxiv y medRxiv— están detectando un aumento en el número de manuscritos que parecen haber sido generados o asistidos por inteligencia artificial o incluso por fábricas de artículos («paper mills»). Este comportamiento plantea serias dudas sobre la integridad de la ciencia abierta y la velocidad de publicación sin control.

Un caso emblemático involucró un manuscrito titulado “Self-Experimental Report: Emergence of Generative AI Interfaces in Dream States” publicado en PsyArXiv. El estilo estrambótico del contenido, la falta de afiliación del autor y la ausencia de detalles claros sobre el uso de IA llevaron a una alerta lanzada por la psicóloga Olivia Kirtley, quien luego solicitó su eliminación. Aunque el autor afirmó que la IA solo tuvo un papel limitado (como cálculo simbólico y verificación de fórmulas), no lo declaró explícitamente, lo que violó las normas del servidor.

En el servidor arXiv, los moderadores estiman que aproximadamente un 2 % de las presentaciones son rechazadas por tener indicios de IA o ser elaboradas por paper mills.

En bioRxiv y medRxiv, se rechazan más de diez manuscritos al día que resultan sospechosos de ser generados de forma automatizada, dentro de un promedio de 7.000 envíos mensuales

Los servidores de preprints reconocen un incremento reciente en contenido generado por IA, especialmente tras el lanzamiento de herramientas como ChatGPT en 2022. Esto ha generado una crisis creciente en apenas los últimos meses. El Centro para la Ciencia Abierta (Center for Open Science), responsable de PsyArXiv, expresó públicamente su preocupación por esta tendencia.

Un estudio publicado la semana pasada en Nature Human Behavior estima que, en septiembre de 2024, casi dos años después del lanzamiento de ChatGPT, los LLM produjeron el 22 % del contenido de los resúmenes de informática publicados en arXiv y aproximadamente el 10 % del texto de los resúmenes de biología publicados en bioRxiv. En comparación, un análisis de los resúmenes biomédicos publicados en revistas en 2024 reveló que el 14 % contenía texto generado por LLM en sus resúmenes. (imagen de arriba)

Sin embargo, aplicar filtros más rigurosos para detectar contenido automatizado presenta desafíos: requiere recursos adicionales, puede ralentizar el proceso de publicación y genera dilemas sobre qué contenidos aceptar o rechazar sin convertirse en un sistema excesivamente burocrático

La proliferación de contenido no fiable amenaza con erosionar la credibilidad de la ciencia de los repositorios de preprints, que juegan un papel cada vez más relevante en la difusión rápida de descubrimientos. Se vuelve clave que los servicios de preprints implementen mecanismos de detección más sofisticados, promuevan la transparencia respecto al uso de IA en la redacción y mantengan un equilibrio entre agilidad de publicación y rigor científico.

¿Está la IA generativa transformando las prácticas académicas a nivel mundial?

Mohammadi, Ehsan, Mike Thelwall, Yizhou Cai, Taylor Collier, Iman Tahamtan, and Azar Eftekhar. 2025. “Is Generative AI Reshaping Academic Practices Worldwide? A Survey of Adoption, Benefits, and Concerns.” Information Processing & Management. https://doi.org/10.1016/j.ipm.2025.104350.

Descarga infografía

Se analiza el impacto de la IA generativa (Gen AI) en la investigación y la enseñanza a través de una encuesta en 20 países dirigida a académicos con publicaciones.

La inteligencia artificial generativa (Gen AI) está transformando la investigación y la enseñanza universitaria a nivel global. Para ello, se llevó a cabo una encuesta en 20 países, dirigida a académicos con publicaciones en revistas indexadas, con el objetivo de identificar niveles de adopción, beneficios percibidos y preocupaciones.

Los resultados muestran una alta conciencia y uso de estas herramientas: un 73 % de los participantes declaró estar muy familiarizado con ellas y más de la mitad indicó utilizarlas al menos una vez al mes. No obstante, se observaron diferencias significativas según el rol académico, la disciplina, el género y el país de origen. Los doctorandos y jóvenes investigadores son los usuarios más frecuentes, mientras que los profesores con mayor antigüedad hacen un uso más limitado. A nivel disciplinar, las ciencias sociales y las humanidades presentan mayor adopción que la medicina o las ciencias puras. En cuanto a la distribución geográfica, países de Asia y Oriente Medio (como Taiwán, Corea del Sur, India o Irán) presentan tasas de uso superiores a las de Estados Unidos, Reino Unido o Rusia, lo que se explica en parte por la necesidad de traducción al inglés para la publicación académica.

En el ámbito de la investigación, las aplicaciones más comunes son la traducción de textos, la corrección y edición de borradores, la redacción preliminar de textos académicos y el apoyo en revisiones bibliográficas. En cambio, el uso para análisis de datos sigue siendo minoritario. En la docencia, las herramientas de IA generativa se emplean sobre todo para crear materiales y contenidos educativos (30 %), apoyar el aprendizaje y la enseñanza de conceptos (22 %), y diseñar tareas o ejercicios (16 %). También se utilizan, aunque en menor medida, para elaborar programas de asignaturas y dar retroalimentación a estudiantes.

Los beneficios más señalados por los encuestados incluyen la posibilidad de ofrecer tutoría personalizada, mejorar la resolución de problemas y potenciar el aprendizaje de los estudiantes. Sin embargo, las opiniones se dividen respecto a la capacidad de la IA para fomentar la creatividad o generar contenidos consistentes y fiables. Solo una quinta parte de los académicos confía plenamente en la precisión de los textos generados por IA.

Las preocupaciones son generalizadas y constituyen una parte central del estudio. Entre las más destacadas figuran la información inexacta o “alucinaciones” (67,8 %), el plagio (65 %), la reducción de las habilidades de pensamiento crítico (61,7 %), la falta de transparencia y explicabilidad de los procesos, los riesgos sobre la propiedad intelectual (52,2 %) y la privacidad de los datos (49 %). Estas inquietudes reflejan una tensión constante entre el aprovechamiento de la tecnología y la preservación de la integridad académica.

El estudio también detecta una brecha de género: las mujeres son un 10 % menos propensas que los hombres a usar IA generativa con frecuencia (uso diario o semanal) en investigación, lo que podría ampliar desigualdades ya existentes en la academia.

En conclusión, los autores sostienen que la IA generativa se ha integrado de manera significativa en la vida académica, aunque de forma desigual entre regiones, disciplinas y grupos sociales. Mientras ofrece beneficios claros en escritura, traducción y apoyo docente, persisten serias dudas sobre su precisión, ética y efectos en la creatividad y el pensamiento crítico. Por ello, recomiendan que las instituciones y responsables políticos fomenten un uso responsable y equitativo de estas herramientas, con especial atención a los grupos y países en riesgo de quedar rezagados en esta transición tecnológica.

Principales resultados:

  • Conciencia y uso: el 73 % de los académicos conoce ampliamente estas herramientas y más de la mitad las usa al menos una vez al mes. La adopción varía según disciplina, género, país y rol académico.
  • Diferencias por rol: los doctorandos y jóvenes investigadores son los principales usuarios, mientras que los profesores titulares y sénior muestran menor frecuencia.
  • Disciplinas y regiones: mayor uso en ciencias sociales y humanidades; más extendido en países de Asia y Oriente Medio que en EE. UU. o Reino Unido, en parte por la necesidad de traducción al inglés.
  • Usos en investigación: principalmente para traducción de textos, corrección, redacción preliminar y revisiones bibliográficas; menos frecuente en análisis de datos.
  • Usos en docencia: creación de contenidos y materiales (30 %), apoyo al aprendizaje y enseñanza de conceptos (22 %), y diseño de tareas (16 %).
  • Beneficios percibidos: tutoría personalizada, apoyo a la resolución de problemas y mejora del aprendizaje.
  • Preocupaciones principales:
    • Información inexacta (67,8 %).
    • Plagio (65 %).
    • Disminución del pensamiento crítico (61,7 %).
    • Falta de transparencia, problemas de propiedad intelectual y riesgos de privacidad de datos.
  • Brecha de género: las mujeres son un 10 % menos propensas a usar IA frecuentemente en investigación, lo que puede agravar desigualdades.

Apertura de la IA: una guía para los responsables de políticas

OCDE (Organisation for Economic Co-operation and Development). 2025. AI Openness: A Primer for Policymakers. OECD Artificial Intelligence Papers, no. 44. París: OECD Publishing. https://doi.org/10.1787/02f73362-en

El informe aborda el concepto de apertura en la inteligencia artificial (IA), detallando la terminología clave y los diferentes grados de apertura existenciales

Señala que la expresión “código abierto”, asociada tradicionalmente al software, no captura plenamente las complejidades propias del ámbito de la IA. Además, el documento analiza tendencias actuales en modelos fundacionales de IA cuyos pesos están disponibles abiertamente, utilizando datos experimentales para ilustrar tanto sus beneficios (como impulsar la innovación) como los riesgos que conllevan

Se introduce la noción de marginalidad para enriquecer el análisis y considerar contextos o aplicaciones menos dominantes que permiten matizar el debate sobre apertura y gobernanza

El propósito esencial del informe es brindar a los responsables de formular políticas una herramienta clara y concisa para equilibrar la apertura de los modelos generativos de IA con una gobernanza responsable, fomentando debates informados en torno al diseño e implementación de marcos regulatorios adecuados

Un 65 % de los encuestados reconoce el nombre de ChatGPT, pero solo un 37 % afirma haberlo usado

Northeastern University. “Half of U.S. Adults Now Use AI — but Views on How to Regulate the Technology Vary Widely by State, New Research Shows.” Northeastern Global News, August 12, 2025. https://news.northeastern.edu/2025/08/12/generative-ai-chatgpt-northeastern-survey/.

Un estudio reciente de la Northeastern University revela que la mitad de los adultos en Estados Unidos ya utiliza herramientas de inteligencia artificial generativa, aunque con diferencias notables en términos de frecuencia, demografía y contexto geográfico.

Según los datos, un 65 % de los encuestados reconoce el nombre de ChatGPT, pero solo un 37 % afirma haberlo usado. Otras plataformas como Gemini (26 %) o Microsoft Copilot (18 %) también se mencionan, aunque con un alcance significativamente menor.

La investigación subraya que el uso de la IA está marcado por la edad, el nivel educativo y los ingresos: los adultos jóvenes, con estudios universitarios y rentas más altas, son quienes más la adoptan, mientras que los adultos mayores y habitantes de áreas rurales muestran un uso mucho más limitado. Esta brecha refleja una desigual incorporación de la tecnología en función de las oportunidades y el acceso digital.

Otro hallazgo relevante es que las percepciones sobre la regulación de la IA varían ampliamente según el estado y no responden a la tradicional división política entre “rojos” y “azules”. En Missouri y Washington predomina la preocupación por la ausencia de regulación, mientras que en Nueva York y Tennessee el temor principal es un exceso de intervención gubernamental. Estos contrastes sugieren que los estados pueden convertirse en laboratorios de políticas públicas en torno a la IA, con marcos regulatorios adaptados a realidades locales.

En cuanto al impacto laboral, la mayoría de los participantes prevé que la IA afectará a sus empleos en los próximos cinco años, especialmente en regiones con fuerte presencia tecnológica, como California, Massachusetts, Texas o Georgia. En cambio, en el Midwest industrial y en áreas rurales, la percepción de riesgo inmediato es menor, lo que indica diferencias en la expectativa de transformación económica según el territorio.

Este trabajo forma parte del proyecto Civic Health and Institutions Project (CHIP50), una colaboración entre varias universidades que busca comprender cómo la ciudadanía estadounidense interactúa con la IA y qué espera de sus instituciones en relación con esta tecnología. Los investigadores destacan que se trata del primer estudio que ofrece un panorama comparativo a nivel estatal sobre uso, regulación y percepciones hacia la inteligencia artificial.

La manipulación de chatbots puede multiplicar por 12 la exposición de información privada

Zhan, Xiao; Carrillo, Juan-Carlos; Seymour, William; y Such, José. 2025. “Malicious LLM-Based Conversational AI Makes Users Reveal Personal Information.” En Proceedings of the 34th USENIX Security Symposium, USENIX Association.

Texto completo

Un estudio reciente de King’s College London ha puesto de relieve la vulnerabilidad de los chatbots de inteligencia artificial (IA) con apariencia conversacional humana, utilizados por millones de personas en su vida diaria. La investigación demuestra que estos sistemas pueden ser manipulados con relativa facilidad para conseguir que los usuarios revelen mucha más información personal de la que compartirían en un contexto habitual.

Los resultados son especialmente llamativos: cuando los chatbots son diseñados o modificados con intenciones maliciosas, los usuarios llegan a proporcionar hasta 12,5 veces más datos privados que en interacciones normales. Este incremento se logra mediante la combinación de técnicas de ingeniería de prompts —instrucciones específicas que orientan el comportamiento del modelo— y estrategias psicológicas bien conocidas, como la creación de confianza, la apelación emocional o el uso de preguntas aparentemente inocentes que llevan a respuestas más profundas de lo esperado.

El estudio recalca además que no es necesario poseer una alta especialización técnica para lograr esta manipulación. Dado que muchas compañías permiten el acceso a los modelos base que sustentan a sus chatbots, cualquier persona con conocimientos mínimos puede ajustar parámetros y configuraciones para orientar la conversación hacia la obtención de datos sensibles, lo que multiplica el riesgo de un uso indebido.

Las implicaciones son serias. El trabajo de King’s College London alerta sobre la fragilidad de la privacidad en entornos digitales donde la interacción con chatbots se percibe como inofensiva y rutinaria. En contextos como la atención al cliente, el asesoramiento médico o financiero, o incluso el acompañamiento emocional, la posibilidad de que un chatbot manipulado extraiga información confidencial plantea amenazas directas a la seguridad de las personas y a la protección de sus datos.

Ante este escenario, los investigadores subrayan la urgente necesidad de reforzar las medidas de seguridad y protección de datos en los sistemas de IA conversacional. Proponen, entre otras acciones:

  • Desarrollar protocolos de verificación más estrictos sobre el acceso y modificación de modelos base.
  • Implementar mecanismos de detección de manipulación en los propios chatbots.
  • Fomentar la educación digital de los usuarios, para que reconozcan patrones de conversación sospechosos.
  • Establecer regulaciones claras y exigentes que limiten el mal uso de estos sistemas.

En definitiva, el estudio concluye que, aunque los chatbots de IA tienen un enorme potencial para mejorar la interacción humano-máquina, su diseño y despliegue deben ir acompañados de fuertes garantías éticas y técnicas, de lo contrario podrían convertirse en herramientas de explotación de la privacidad a gran escala.

Cómo evitar el rechazo a preguntas en los modelos de IA

Cui, Justin, Wei-Lin Chiang, Ion Stoica y Cho-Jui Hsieh. OR-Bench: An Over-Refusal Benchmark for Large Language Models. arXiv preprint (v5), 15 de junio de 2025. https://arxiv.org/html/2405.20947v5

Este trabajo presenta OR-Bench, una herramienta para medir cuándo los modelos de lenguaje (como ChatGPT o Llama) dicen “no puedo responder” incluso cuando la pregunta es segura.

Este problema se llama sobre-rechazo y ocurre porque, para evitar riesgos, los modelos a veces se vuelven demasiado cautos y rechazan más de lo necesario. Hasta ahora, no había una forma clara de detectar y medir este comportamiento.

OR-Bench reúne 80.000 ejemplos de preguntas que parecen delicadas pero que en realidad son seguras. Estas preguntas se dividen en diez tipos de temas que suelen activar los filtros (violencia, privacidad, sexo, odio, etc.). De ese total, hay 1.000 ejemplos especialmente difíciles y 600 que sí son tóxicos para comprobar que el modelo no responda contenido dañino por error.

Para crear este conjunto, los autores usaron un proceso automático: empezaron con frases peligrosas, las cambiaron para que fueran seguras y las revisaron con varios modelos grandes (GPT-4, Llama-3, Gemini, etc.). Solo se incluyeron las que la mayoría consideró inofensivas. Así, lograron un resultado muy parecido a la revisión humana, pero más rápido y a gran escala.

Con esta base de datos, evaluaron 32 modelos de distintas marcas. Descubrieron que, en general, los modelos más “seguros” también tienden a rechazar más preguntas seguras. Algunos modelos recientes, como GPT-4 o Llama-3.1, han mejorado este equilibrio, aunque a veces eso implica que toleren más contenido de riesgo.

Los autores concluyen que OR-Bench puede ayudar a diseñar modelos que sean seguros sin ser exageradamente restrictivos, para que puedan dar más respuestas útiles sin poner en riesgo a los usuarios.