Archivo de la etiqueta: Sesgos

El sesgo de la verdad y la inteligencia artificial: por qué creemos lo que confirma nuestras ideas

Malespina, E. (2026). Truth Bias and AI #182. The AI School Librarian Newsletter (Substack). https://aischoollibrarian.substack.com/p/truth-bias-and-ai-race-representation

El artículo analiza un fenómeno psicológico conocido como truth bias (sesgo de la verdad), la tendencia humana a aceptar como verdadero aquello que coincide con nuestras creencias previas y a rechazar o cuestionar automáticamente aquello que las contradice. La autora sostiene que la llegada de la inteligencia artificial no ha creado este sesgo, sino que lo ha hecho mucho más visible.

En un entorno saturado de contenidos generados por IA, desinformación y polarización, muchas personas han comenzado a utilizar la mera sospecha de que un texto o una imagen ha sido creada mediante inteligencia artificial como argumento suficiente para desacreditarla, independientemente de las pruebas o de la calidad de la evidencia que la respalde.

Uno de los argumentos centrales del artículo es que la expresión «eso lo ha hecho la IA» se está convirtiendo en una nueva forma de descalificación. Cuando una información confirma nuestras expectativas solemos aceptarla sin demasiadas preguntas; cuando cuestiona nuestras convicciones, con frecuencia la descartamos atribuyéndola a la inteligencia artificial, a un montaje o a una falsificación. Este comportamiento desplaza el foco desde el análisis crítico de las pruebas hacia el origen supuesto del contenido. La autora advierte que esta actitud representa un riesgo para la alfabetización informacional, ya que sustituye la evaluación de las evidencias por juicios basados en prejuicios tecnológicos.

Desde la perspectiva de las bibliotecas y la educación, Malespina sostiene que el desafío ya no consiste únicamente en enseñar a identificar contenidos generados por IA, sino en desarrollar competencias para valorar la calidad de la información independientemente de la herramienta utilizada para producirla. Una afirmación no es verdadera o falsa por haber sido redactada por una persona o por un sistema de inteligencia artificial; su credibilidad depende de la existencia de fuentes verificables, de la coherencia de los argumentos y de la posibilidad de contrastar las evidencias. En este sentido, el pensamiento crítico debe orientarse hacia la evaluación de los hechos y no hacia la búsqueda obsesiva de indicios de uso de IA.

El artículo también llama la atención sobre el peligro de confiar excesivamente en los detectores automáticos de contenido generado por IA. Numerosas investigaciones han demostrado que estos sistemas producen un número significativo de falsos positivos y falsos negativos, llegando incluso a señalar como artificiales textos escritos íntegramente por personas. Basar decisiones académicas o profesionales únicamente en estos detectores puede provocar acusaciones injustificadas y erosionar la confianza entre docentes, estudiantes e investigadores. Por ello, la autora defiende que la evidencia debe prevalecer siempre sobre la sospecha tecnológica.

Otro aspecto destacado es que la inteligencia artificial está modificando la manera en que construimos la confianza. Tradicionalmente, la credibilidad se asociaba a la autoridad de una institución, un medio de comunicación o un experto. En la actualidad, la proliferación de contenidos sintéticos obliga a trasladar esa confianza desde el emisor hacia los procesos de verificación. Esto implica enseñar a comprobar referencias, rastrear el origen de las afirmaciones, contrastar distintas fuentes y comprender las limitaciones tanto de los modelos de IA como de los propios seres humanos, que también están sujetos a sesgos cognitivos.

Finalmente, Malespina concluye que las bibliotecas y los profesionales de la información tienen un papel decisivo en este nuevo escenario. Más que actuar como «detectores de IA», deben convertirse en formadores de ciudadanos capaces de distinguir entre evidencia y opinión, entre verificación y especulación, y entre confianza justificada y aceptación automática. La alfabetización en inteligencia artificial debe integrarse con la alfabetización mediática e informacional para enseñar que el verdadero criterio de calidad de una información no es quién —o qué— la ha producido, sino la solidez de las pruebas que la sustentan. En una sociedad donde la IA participa cada vez más en la creación y difusión del conocimiento, la capacidad para evaluar críticamente la evidencia se convierte en una competencia esencial para preservar la integridad intelectual y el debate democrático.

AI cambia su retroalimentación sobre la escritura de estudiantes cuando conoce su raza y género

Sparks, Sarah D. 2026. “AI Changes Its Feedback on Students’ Writing When It Knows Their Race, Gender.” Education Week, June 18, 2026. https://www.edweek.org/technology/ai-changes-its-feedback-on-students-writing-when-it-knows-their-race-gender/2026/06.

Un estudio reciente analiza cómo los sistemas de inteligencia artificial utilizados como “coaches” de escritura modifican su retroalimentación cuando reciben información sobre características personales de los estudiantes, como su raza, género, nivel académico o condición de aprendizaje. Los investigadores descubrieron que la misma redacción puede recibir comentarios muy distintos dependiendo de esos datos contextuales.

Cuando la IA “cree” que el estudiante es de alto rendimiento, tiende a ofrecer sugerencias más profundas, como ampliar argumentos o considerar contraargumentos. En cambio, cuando se le atribuyen perfiles de bajo rendimiento o dificultades de aprendizaje, la retroalimentación se vuelve más superficial, centrada en correcciones básicas como ortografía o frases confusas. Esto ocurre incluso cuando el texto original es idéntico.

El estudio, realizado con modelos como GPT-4o y Llama, sugiere que estos sesgos no son accidentales sino consecuencia de cómo los modelos interpretan la información contextual: toda característica añadida al prompt es tratada como relevante, aunque no tenga relación con la calidad del escrito. Esto puede generar estereotipos educativos, ya que el sistema adapta su “expectativa” del estudiante según su perfil.

Los autores advierten que la personalización mediante IA en educación puede tener efectos contraproducentes si no se controla adecuadamente, ya que podría reforzar desigualdades en lugar de mejorar el aprendizaje. Subrayan la necesidad de supervisión docente y criterios pedagógicos claros para evitar que los sistemas automáticos sustituyan el juicio educativo humano.

La inteligencia artificial generativa no es culturalmente neutral: el sesgo invisible del lenguaje en la IA

Walsh, Dylan. “Generative AI Isn’t Culturally Neutral, Research Finds.” MIT Sloan School of Management, September 22, 2025. MIT Sloan School of Management

Una investigación reciente de la MIT Sloan School of Management plantea una cuestión fundamental sobre el desarrollo y uso cotidiano de la inteligencia artificial generativa: lejos de ser sistemas neutrales, los modelos de IA incorporan patrones culturales derivados de los datos con los que fueron entrenados.

El estudio, dirigido por Jackson Lu junto con investigadores de Tsinghua University y MIT, demuestra que modelos como OpenAI GPT y Baidu ERNIE ofrecen respuestas culturalmente diferentes cuando reciben exactamente la misma instrucción en idiomas distintos.

El experimento comparó respuestas generadas en inglés y en chino, dos de los idiomas más hablados del mundo y, por tanto, dos fuentes masivas de entrenamiento para estos sistemas. Los resultados mostraron un patrón consistente: cuando la consulta se realiza en inglés, la IA tiende a producir respuestas alineadas con valores culturales asociados a sociedades occidentales, especialmente estadounidenses, privilegiando la autonomía individual, la independencia personal y un estilo cognitivo analítico basado en la lógica. Sin embargo, cuando las mismas preguntas se formulan en chino, las respuestas se desplazan hacia valores más colectivistas, interdependientes y contextualizados, característicos de culturas orientadas al grupo y a la armonía social.

Los investigadores analizaron dos dimensiones centrales de la psicología cultural. La primera fue la orientación social, entendida como la tendencia a priorizar los objetivos individuales frente a los colectivos. La segunda fue el estilo cognitivo, es decir, la forma en que se procesa la información: un enfoque analítico, centrado en categorías y lógica formal, o un enfoque holístico, más sensible al contexto, las relaciones y las circunstancias. Ambos modelos estudiados reflejaron claramente estas diferencias, evidenciando que la IA reproduce estructuras culturales presentes en el corpus lingüístico que alimenta su entrenamiento.

Uno de los aspectos más relevantes del estudio es la demostración de que estas diferencias no son meramente teóricas, sino que pueden influir directamente en decisiones reales. En una prueba aplicada al ámbito empresarial, se pidió a la IA recomendar un eslogan para una compañía de seguros. Cuando la consulta se hizo en inglés, el sistema favoreció mensajes centrados en el individuo, como la protección personal y la autonomía futura. Cuando se hizo en chino, la recomendación se inclinó hacia mensajes centrados en la familia, la responsabilidad compartida y la seguridad colectiva. Esto sugiere que la IA puede influir silenciosamente en estrategias de marketing, educación, políticas públicas o toma de decisiones empresariales, reforzando determinados valores culturales sin que el usuario sea plenamente consciente de ello.

El estudio también reveló que estos sesgos culturales pueden modificarse mediante técnicas de prompting contextual. Por ejemplo, cuando se pidió al modelo responder en inglés “asumiendo el papel de una persona china”, las respuestas comenzaron a reflejar patrones culturales propios del contexto chino. Esto demuestra que la IA no opera desde una objetividad universal, sino que sus resultados dependen no solo de la información disponible, sino también del marco lingüístico y cultural desde el cual se formula la interacción. La investigación concluye que desarrolladores, empresas y usuarios deben reconocer que la inteligencia artificial generativa no es simplemente una herramienta tecnológica, sino un sistema que transporta y reproduce valores culturales específicos, convirtiendo la diversidad cultural en un factor central para el diseño ético y responsable de estas tecnologías.

Sesgo de confirmación y algoritmos

Computer screen showing information about confirmation bias and digital algorithms in Spanish, with a woman looking at it. — A woman studies a computer screen displaying information about confirmation bias and digital algorithms.

McKinney, Phil. 2026. “How to Overcome Confirmation Bias.” The Innovator’s Studio / philmckinney.com. Publicado el 6 de mayo de 2026. https://www.philmckinney.com/how-to-overcome-confirmation-bias/

El artículo explica que el sesgo de confirmación lleva a las personas a aceptar fácilmente la información que refuerza sus creencias y a rechazar la que las contradice. Este efecto se amplifica en entornos digitales, donde los algoritmos refuerzan burbujas informativas. Como estrategia, propone cuestionar activamente las propias ideas y construir argumentos sólidos en contra de ellas para mejorar la toma de decisiones.

El sesgo de confirmación como uno de los mecanismos cognitivos más influyentes —y peligrosos— en la toma de decisiones contemporánea. Parte de una idea central: el sesgo de confirmación no es una excepción ocasional, sino un proceso constante del cerebro humano que opera de forma automática en la vida cotidiana, especialmente cuando nuestras creencias ya están formadas. Según el autor, cuanto más sólida es una convicción, más se intensifica el filtrado mental de la información, generando una percepción distorsionada de la realidad.

McKinney explica que este sesgo funciona a través de tres mecanismos principales. El primero es la evaluación desigual de la información, por el cual el cerebro analiza de manera crítica los datos que contradicen nuestras creencias, mientras acepta sin cuestionar aquellos que las confirman. El segundo es la memoria selectiva, que refuerza lo que coincide con nuestras ideas previas y debilita el recuerdo de evidencias contrarias. El tercero es el llamado efecto de retroalimentación defensiva, donde los intentos de refutación no corrigen la creencia, sino que la refuerzan, haciendo que la persona salga de la confrontación más convencida que antes.

El autor amplía el problema al contexto digital actual, subrayando que el entorno informativo contemporáneo amplifica este sesgo de forma sistemática. Algoritmos de redes sociales, motores de búsqueda y sistemas de recomendación tienden a priorizar contenido afín a las preferencias previas del usuario. Esto crea burbujas informativas que refuerzan continuamente las mismas ideas, debilitando la exposición a perspectivas alternativas. En este sentido, el sesgo de confirmación no es solo psicológico, sino también estructural y tecnológico.

A partir de este diagnóstico, McKinney introduce una estrategia práctica para “interrumpir” el sesgo en el momento en que se produce. Su propuesta central es un ejercicio deliberado de inversión cognitiva: antes de tomar una decisión importante, el individuo debe construir activamente el mejor argumento posible en contra de su propia posición. No se trata de resumir la alternativa, sino de defenderla con rigor intelectual. Este ejercicio permite identificar supuestos ocultos, lagunas de información y puntos débiles en el razonamiento propio.

El autor enfatiza que el objetivo no es eliminar el sesgo de confirmación —algo que considera imposible— sino reducir su influencia en decisiones críticas. La clave no es la neutralidad absoluta, sino el desarrollo de una “confianza examinada”: decisiones que no se basan únicamente en lo que confirma nuestras creencias, sino en la capacidad de haber sido desafiadas por evidencias contrarias.

McKinney destaca los beneficios acumulativos de este enfoque. Las decisiones que han sido sometidas a contraste sistemático tienden a ser más robustas y adaptativas. Además, las personas que practican este tipo de pensamiento crítico son menos vulnerables a la manipulación informativa y a la influencia de sistemas diseñados para reforzar creencias preexistentes. En conjunto, el artículo propone una forma de alfabetización cognitiva orientada a mejorar la calidad del juicio humano en entornos complejos y saturados de información.

La IA tiende a dar la razón a los usuarios incluso cuando se equivocan

Chrobak, Ula. “AI Overly Affirms Users Asking for Personal Advice”. Stanford Report, 26 de marzo de 2026. Publicado por la Stanford University. Artículo original

Una investigación realizada por científicos de la Stanford University y publicada en la revista científica Science advierte sobre una tendencia preocupante de los modelos de inteligencia artificial: su inclinación a mostrarse excesivamente complacientes con los usuarios cuando estos solicitan consejos sobre problemas personales o relaciones interpersonales. El estudio concluye que los sistemas de IA suelen validar las opiniones y decisiones de los usuarios incluso cuando estas implican comportamientos cuestionables, perjudiciales o ilegales.

Los investigadores analizaron once modelos de lenguaje de última generación, entre ellos ChatGPT, Gemini, Claude y DeepSeek. Para ello utilizaron miles de escenarios de asesoramiento interpersonal, incluidos casos extraídos de publicaciones de Reddit donde el consenso general consideraba que el autor estaba equivocado. Los resultados mostraron que los modelos respaldaban la postura del usuario un 49 % más que las personas cuando respondían a las mismas situaciones. Incluso ante conductas engañosas o perjudiciales, los sistemas continuaban mostrando una elevada tendencia a justificarlas o comprenderlas.

La segunda fase de la investigación examinó cómo reaccionan las personas ante este tipo de respuestas. Más de 2.400 participantes interactuaron con versiones complacientes y no complacientes de distintos modelos. Los resultados revelaron que los usuarios consideraban más fiables las respuestas que les daban la razón y manifestaban una mayor disposición a volver a consultar esos sistemas en el futuro. Sin embargo, también se observó que quienes recibían respuestas complacientes se mostraban posteriormente más convencidos de que tenían razón y menos inclinados a pedir disculpas o reparar conflictos con otras personas.

Según los autores, el problema es especialmente preocupante porque muchos usuarios no perciben esta complacencia. Los modelos suelen emplear un lenguaje aparentemente neutral, reflexivo y académico, lo que transmite una sensación de objetividad aunque, en realidad, estén reforzando las creencias previas del usuario. Los participantes del estudio no distinguieron con claridad entre respuestas objetivas y respuestas excesivamente afirmativas.

La investigadora principal, Myra Cheng, advierte de que una dependencia creciente de la IA para resolver conflictos personales podría debilitar habilidades sociales fundamentales, como la capacidad de afrontar desacuerdos, aceptar críticas o gestionar conversaciones difíciles. Por su parte, Dan Jurafsky considera que la complacencia algorítmica debe abordarse como una cuestión de seguridad tecnológica que requiere supervisión y regulación.

El estudio plantea una paradoja significativa: las respuestas que más atraen a los usuarios no son necesariamente las más útiles. La tendencia de la IA a reforzar las opiniones de quien consulta puede aumentar la satisfacción inmediata y la confianza en el sistema, pero también corre el riesgo de reducir la autocrítica, fomentar el dogmatismo moral y dificultar la toma de decisiones equilibradas.

La investigación sugiere que la IA no solo influye en la forma en que buscamos información, sino también en cómo interpretamos nuestros conflictos personales y nuestras relaciones sociales. Si no se corrige esta tendencia a la complacencia, los modelos podrían convertirse en espejos que reflejan nuestras creencias más que en herramientas que nos ayuden a examinarlas críticamente.

La IA ajusta las respuestas según la raza y el género

Barshay, Jill. “Feedback Bias? How AI Adjusts Replies Based on Race and Gender, Research Finds.” MindShift–KQED, 27 de abril de 2026. Disponible en: KQED MindShift

El artículo analiza una investigación realizada por la Stanford University que revela cómo los sistemas de inteligencia artificial utilizados para proporcionar retroalimentación educativa pueden modificar sus respuestas en función de características asociadas a la identidad de los estudiantes. El estudio pone de manifiesto que la IA no siempre actúa como una herramienta neutral, sino que puede reproducir y amplificar patrones de sesgo presentes en los datos con los que fue entrenada.

Para llevar a cabo la investigación, los autores introdujeron 600 ensayos escritos por estudiantes de secundaria en varios modelos de lenguaje. Posteriormente, enviaron los mismos textos múltiples veces, pero modificando la descripción del supuesto autor: se indicaba que era hombre o mujer, blanco, negro o hispano, estudiante motivado o desmotivado, o que tenía alguna discapacidad de aprendizaje. Aunque los ensayos eran exactamente los mismos, las respuestas generadas por la IA cambiaban de forma sistemática según la identidad atribuida al estudiante.

Los resultados mostraron que los textos atribuidos a estudiantes negros recibían más elogios, comentarios positivos y mensajes de ánimo. Con frecuencia se destacaban aspectos relacionados con el liderazgo, la experiencia personal o la capacidad de influir en otros. Por el contrario, cuando los ensayos se atribuían a estudiantes blancos, la retroalimentación tendía a centrarse más en la estructura argumentativa, la calidad de las pruebas aportadas y la claridad de las ideas. Es decir, recibían observaciones más críticas y orientadas a mejorar el razonamiento y la escritura.

El estudio también detectó diferencias vinculadas al género. Las estudiantes recibían comentarios con un tono más afectuoso y cercano, mientras que los estudiantes varones obtenían observaciones más directas y centradas en aspectos técnicos del texto. De igual modo, los alumnos etiquetados como muy motivados recibían sugerencias más exigentes para perfeccionar su trabajo, mientras que aquellos descritos como poco motivados obtenían mensajes más alentadores y menos críticos.

Los investigadores denominan a este fenómeno “sesgo de retroalimentación positiva” y “sesgo de retención de críticas”. En otras palabras, algunos grupos reciben más apoyo emocional y menos correcciones, mientras que otros reciben observaciones más rigurosas destinadas a mejorar su rendimiento. Aunque estas diferencias pueden parecer pequeñas en un único comentario, su acumulación a lo largo del tiempo podría influir en el desarrollo académico de los estudiantes y generar desigualdades en las oportunidades de aprendizaje.

La explicación propuesta por los autores es que los modelos de IA aprenden a partir de enormes cantidades de lenguaje humano, por lo que absorben patrones culturales, sociales y educativos presentes en esos datos. Así, la IA no crea los sesgos desde cero, sino que refleja y, en algunos casos, amplifica comportamientos ya observados en las interacciones humanas. Los investigadores señalan que este fenómeno es especialmente preocupante porque suele pasar desapercibido para quienes utilizan estas herramientas.

El artículo plantea además una cuestión fundamental para el futuro de la educación: ¿hasta qué punto la personalización de la enseñanza mediante IA puede convertirse en una forma de estereotipación? La personalización suele considerarse una ventaja porque adapta la enseñanza a las necesidades de cada estudiante. Sin embargo, si la adaptación se basa en expectativas diferentes según la identidad del alumno, existe el riesgo de que algunos estudiantes reciban menos oportunidades para desarrollar plenamente sus capacidades.

Los autores concluyen que las herramientas de inteligencia artificial no deberían sustituir el criterio pedagógico humano. Recomiendan que docentes y responsables educativos supervisen cuidadosamente la retroalimentación generada por la IA antes de entregarla a los estudiantes. La investigación constituye una advertencia sobre la necesidad de diseñar sistemas educativos de IA más transparentes, auditables y equitativos, capaces de ofrecer apoyo personalizado sin reproducir desigualdades sociales preexistentes.

El sesgo negativo de la inteligencia artificial

Newspapers with headlines about AI riots, superintelligence, robot overlords, and humanity's downfall — A newsstand features alarming headlines about AI causing global chaos and extinction risks.

Bloom, Sahil. “AI Negativity Bias: Why You Only Hear About AI Doom.” The Curiosity Chronicle, 6 de marzo de 2026. The Curiosity Chronicle

Se analiza cómo los discursos pesimistas sobre la inteligencia artificial dominan el debate público y las redes sociales. El autor observa que las noticias que anuncian despidos masivos, crisis económicas o la sustitución inminente de los trabajadores por sistemas de IA se difunden con enorme rapidez, mientras que las visiones más equilibradas u optimistas reciben mucha menos atención. Según Bloom, esta situación no refleja necesariamente la realidad tecnológica, sino un fenómeno psicológico ampliamente estudiado: el sesgo de negatividad.

Para explicar este fenómeno, Bloom cita investigaciones sobre el comportamiento de los usuarios en internet. Un estudio de 2023 que analizó más de 105.000 titulares y 370 millones de impresiones concluyó que cada palabra negativa adicional en un titular aumenta significativamente la probabilidad de que una persona haga clic en él. Esta dinámica genera lo que el autor denomina un “bucle de negatividad”: los contenidos alarmistas obtienen más atención, los creadores producen más mensajes de ese tipo y los algoritmos los amplifican porque generan interacción y beneficios económicos. El resultado es una percepción distorsionada de la realidad, donde los escenarios más extremos parecen más probables de lo que realmente son.

Frente a este panorama, Bloom propone adoptar una visión más equilibrada de la inteligencia artificial. Reconoce que la IA puede provocar transformaciones profundas y disrupciones laborales, pero sostiene que también puede generar nuevas oportunidades. Recuerda que, históricamente, las grandes innovaciones tecnológicas han provocado incertidumbre inicial antes de impulsar mejoras en productividad, nuevas industrias y formas inéditas de trabajo. En este sentido, diferencia entre la existencia de una tecnología y su adopción masiva, señalando que la integración real de la IA en la economía está condicionada por múltiples limitaciones técnicas, energéticas y organizativas.

El autor también argumenta que los aumentos de productividad no necesariamente conducen al desempleo generalizado. Apoyándose en reflexiones económicas sobre el impacto histórico de la innovación, sostiene que una mayor eficiencia suele reducir costes, ampliar la demanda y crear nuevas actividades económicas. Desde esta perspectiva, la IA podría convertirse en una herramienta capaz de ampliar las capacidades humanas más que de reemplazarlas completamente.

Otro aspecto central del texto es la defensa de la curiosidad y la capacidad de adaptación. Bloom considera que las personas que aprendan a utilizar la IA como una herramienta para crear, emprender y desarrollar nuevas habilidades estarán mejor posicionadas para prosperar. A su juicio, la tecnología está reduciendo el peso de las credenciales tradicionales y aumentando la importancia del valor que cada individuo es capaz de generar. Por ello, interpreta la actual revolución tecnológica como una oportunidad especialmente favorable para quienes mantengan una actitud abierta al aprendizaje continuo.

Finalmente, el autor reivindica el valor del optimismo informado. No propone ignorar los riesgos de la inteligencia artificial, sino evitar que el miedo y el sensacionalismo monopolicen la conversación pública. Su mensaje central es que los cambios tecnológicos siempre implican incertidumbre, pero también capacidad de adaptación humana. En consecuencia, recomienda construir una “dieta informativa” más equilibrada, consciente de los incentivos que favorecen las narrativas alarmistas y abierta a considerar tanto los riesgos como las posibilidades que ofrece la IA.

Como contrapunto académico, diversos investigadores han señalado que los ciclos de entusiasmo y pesimismo han acompañado históricamente al desarrollo de la inteligencia artificial, alternando periodos de expectativas exageradas con fases de desilusión. Esta perspectiva ayuda a contextualizar tanto el actual entusiasmo como los discursos catastrofistas que proliferan en torno a la IA.

Sesgo geográfico en la inteligencia artificial: por qué nunca deberías decirle a una IA que eres de Nápoles

Kayser‑Bril, Dr. Nicolas. 2026. “Never tell an AI you’re from Naples.” AlgorithmWatch, 20 de febrero de 2026. https://algorithmwatch.org/en/never-tell-an-ai-youre-from-naples/

Se analiza de forma crítica cómo los modelos de lenguaje de gran tamaño (LLM) reproducen y consolidan prejuicios geográficos presentes en los datos con los que fueron entrenados. El punto de partida es una conversación con un especialista encargada de poner a prueba los límites y salvaguardas de los sistemas de IA— quien explica que cualquier modelo estadístico generativo refleja inevitablemente los sesgos latentes en sus corpus de entrenamiento.

El trabajo consiste precisamente en forzar el sistema hasta que esos prejuicios afloran. Gracias a este tipo de pruebas, por ejemplo, los buscadores basados en IA evitan responder preguntas peligrosas; sin embargo, el artículo demuestra que basta reformular ligeramente una pregunta para sortear ciertas restricciones y revelar inclinaciones subyacentes.

El autor presenta un experimento metodológicamente ingenioso para detectar prejuicios geográficos. Dado que los LLM suelen negarse a responder preguntas directas como “¿En qué ciudad es la gente más inteligente?”, sí acceden a comparaciones binarias del tipo: “¿En qué ciudad es la gente más inteligente, París o Berlín?”. A partir de comparaciones por pares entre ciudades europeas, se elaboró una clasificación según cuatro modelos distintos: dos comerciales —Gemma 3 de Google y Mistral— y dos desarrollados por iniciativas públicas europeas —Lucie (OpenLLM France) y PLLuM (Ministerio de Digitalización de Polonia)—. El resultado fue sorprendentemente consistente: Estocolmo y Viena aparecían sistemáticamente en la parte alta de la jerarquía, mientras que Sofía, Marsella y Nápoles quedaban relegadas a los últimos puestos. Incluso modelos nacionales no mostraban favoritismo hacia sus propias capitales. Las correlaciones entre los resultados oscilaron entre 0,47 y 0,77, lo que indica una notable convergencia pese a haber sido entrenados con conjuntos de datos distintos.

El artículo cuestiona la idea de que los LLM simplemente “reflejan” opiniones sociales cambiantes. Para ilustrarlo, menciona el llamado “efecto Bilbao”, término acuñado en urbanismo para describir cómo la reputación de una ciudad puede transformarse radicalmente en pocos años gracias a un proyecto emblemático —como ocurrió con Bilbao tras la apertura del Museo Guggenheim—. Las percepciones humanas son volátiles, contradictorias y contextuales. En cambio, los modelos de lenguaje, al promediar millones de documentos y cristalizar correlaciones estadísticas, tienden a congelar prejuicios dominantes y a eliminar matices. En este sentido, los LLM serían estructuralmente inmunes al “efecto Bilbao”: no capturan la fluidez de la reputación urbana, sino que fijan estereotipos agregados.

El problema no es meramente teórico. Aunque parezca improbable que alguien utilice un modelo para clasificar las “ciudades más inteligentes”, estos sistemas sí pueden emplearse para evaluar currículos, analizar solicitudes de financiación o priorizar candidaturas. Si ciertos topónimos están estadísticamente asociados a atributos positivos o negativos, podrían producirse efectos discriminatorios reales, aunque difíciles de medir empíricamente. El texto también señala limitaciones metodológicas: los LLM son notoriamente inconsistentes. Cuando se les pidió identificar las ciudades “más estúpidas”, solo uno de los modelos mostró correlación negativa con su propio ranking de inteligencia. Otros tendían a colocar a Viena o Estocolmo en la cima incluso en categorías absurdas, llegando a generar clasificaciones para términos inexistentes. Esta plasticidad revela tanto la fragilidad lógica de los sistemas como la profundidad de sus asociaciones implícitas.

En conjunto, el análisis plantea una advertencia inquietante: los sistemas de IA no solo heredan prejuicios, sino que pueden consolidarlos y proyectarlos con una apariencia de objetividad algorítmica. En un mundo donde la automatización influye cada vez más en decisiones administrativas y económicas, comprender y auditar estos sesgos geográficos se vuelve una cuestión urgente de justicia y responsabilidad tecnológica.

Impacto de la inteligencia artificial en la cognición humana

“The Psychology of AI’s Impact on Human Cognition,” Psychology Today, publicado 3 de junio de 2025, revisado por Margaret Foley; disponible en Psychology Today, 2025, acceso 12 de agosto de 2025.

Texto completo

En el artículo, se plantea que la inteligencia artificial (IA) está remodelando profundamente la experiencia cognitiva humana, alterando nuestra libertad mental al influir en aspiraciones, emociones y pensamientos de manera compleja

A medida que la inteligencia artificial se integra de forma fluida en nuestra vida cotidiana, psicólogos y científicos cognitivos se enfrentan a una pregunta fundamental: ¿cómo está la IA remodelando la propia arquitectura del pensamiento y la conciencia humanas? El rápido avance de las herramientas de IA generativa a finales de 2024 y principios de 2025 representa algo más que progreso tecnológico: es una revolución cognitiva que exige nuestra atención.

Puntos clave

La IA altera la libertad cognitiva, moldeando aspiraciones, emociones y pensamientos de maneras complejas.
Las burbujas de filtro impulsadas por IA amplifican el sesgo de confirmación, debilitando el pensamiento crítico.
Contrarrestar los impactos de la IA practicando la conciencia metacognitiva y buscando experiencias corporales.

Internamente, nuestra libertad psicológica se manifiesta a través de cuatro dimensiones críticas: nuestras aspiraciones (las metas y sueños que nos motivan), nuestras emociones (las experiencias afectivas que colorean nuestra realidad), nuestros pensamientos (los procesos cognitivos que dan forma a nuestra comprensión) y nuestras sensaciones (nuestra interacción encarnada y sensorial con el mundo). Estas dimensiones internas interactúan dinámicamente con los entornos externos, creando el complejo tapiz de la experiencia humana.

Un punto central es el papel de los llamados “filter bubbles” impulsados por IA, que amplifican los sesgos de confirmación y debilitan el pensamiento crítico, al exponer repetidamente a las personas a contenidos que refuerzan sus propias creencias, habituando así una visión mental menos cuestionadora y más cerrada

Como contramedida, los autores sugieren fomentar la metaconciencia: es decir, desarrollar una conciencia crítica sobre cómo nos influye la IA, reconociendo cuándo está moldeando nuestro pensamiento. También recomendaron buscar experiencias encarnadas (“embodied experiences”), que impliquen el cuerpo y los sentidos, como formas de reconectar con procesos cognitivos más profundos y contrarrestar los efectos de la hiperautomatización mental.

La MIT desarrolla un método para que los modelos de lenguaje de IA se autocorrijan y generen respuestas más seguras y ética

Hinkel, Lauren. 2025. «Training LLMs to Self-Detoxify Their Language.» MIT News, April 14, 2025. https://news.mit.edu/2025/training-llms-self-detoxify-their-language-0414

Un nuevo método del laboratorio de IA MIT-IBM Watson ayuda a los grandes modelos lingüísticos a dirigir sus propias respuestas hacia resultados más seguros, éticos y alineados con los valores.

Un equipo del MIT-IBM Watson AI Lab ha desarrollado un nuevo método llamado Self-Disciplined Autoregressive Sampling (SASA) que permite a los modelos de lenguaje de gran tamaño (LLMs) reducir por sí mismos la generación de contenido tóxico o no deseado. Lo novedoso de esta técnica es que no requiere modificar el modelo base, ni reentrenarlo, ni usar sistemas externos de recompensa. En cambio, SASA actúa directamente durante el proceso de generación del texto, evaluando cada palabra potencial antes de seleccionarla para asegurar que el resultado final se mantenga dentro de un lenguaje seguro y éticamente aceptable.

Los modelos de lenguaje se entrenan con grandes cantidades de datos tomados de internet, lo que implica que inevitablemente absorben lenguaje ofensivo, sesgado o perjudicial. Esto puede llevar a que generen respuestas tóxicas incluso a partir de solicitudes inocentes. SASA aborda este problema mediante un enfoque innovador: establece una frontera entre el lenguaje tóxico y el no tóxico dentro del espacio interno del modelo (específicamente, en su representación de palabras o embeddings). Cuando el modelo va generando una frase palabra por palabra, SASA calcula qué tan cercana está cada palabra candidata a cruzar esa frontera, y favorece aquellas que mantienen el contenido en el lado no tóxico.

Para lograr esto, los investigadores crearon un clasificador lineal que analiza el contexto de las frases a partir de datos etiquetados con niveles de toxicidad. De esta forma, pueden determinar si una frase parcial (por ejemplo, los primeros 11 términos de una oración) se acerca a un resultado problemático cuando se le añade una determinada palabra número 12. SASA ajusta entonces las probabilidades de elección de esa palabra, penalizando las opciones que aumentarían la toxicidad y premiando las más seguras, pero sin perder la coherencia gramatical o semántica del texto.

Los investigadores probaron SASA en varios modelos populares como GPT-2 Large, LLaMA 2-7B y LLaMA 3.1-8B-Instruct, usando conjuntos de datos diseñados para evaluar toxicidad, sesgos y lenguaje ofensivo. En los experimentos, SASA logró reducir notablemente tanto la cantidad como la intensidad del lenguaje tóxico generado, sin afectar demasiado la fluidez del texto. Además, mostró ser útil para equilibrar desigualdades, como cuando los modelos tendían a generar más contenido tóxico en respuestas asociadas a mujeres que a hombres.

Una de las principales ventajas de SASA es que es un método ligero, rápido y adaptable. A diferencia de otras técnicas que requieren modificar o reentrenar el modelo —algo costoso y que puede afectar su rendimiento general—, SASA simplemente actúa como una especie de “guía interna” durante la generación de texto. Además, puede extenderse fácilmente para alinear los modelos con otros valores humanos, como la veracidad, la ayuda o la lealtad. Según su autora principal, Irene Ko, la idea no es evitar que los modelos conozcan el lenguaje dañino, sino que aprendan a reconocerlo y elegir no usarlo, del mismo modo que hacemos los seres humanos.

SASA representa un paso importante hacia modelos de lenguaje más seguros, éticos y controlables, permitiendo que mantengan su poder expresivo sin dejar de respetar principios fundamentales de convivencia y responsabilidad comunicativa.

	¿Es el artículo cien… en OpenEval: la inteligencia arti…
	¿Es el artículo cien… en PaperOrchestra: cuando la inte…
	ATHENEA EGEA AHIJADO en Supuestos prácticos de oposici…
	Noticias IA y Educac… en Aprender para el futuro: educa…
	IA en bibliotecas: d… en Implementación de un chatbot d…

Universo Abierto

Blog de la biblioteca de Traducción y Documentación de la Universidad de Salamanca