Archivo de la etiqueta: Seguridad

IA sin voluntad: riesgos reales en lugar de ficciones

Loukides, Mike. “Normal Technology at Scale.” O’Reilly Radar, June 10, 2025. https://www.oreilly.com/radar/normal-technology-at-scale/

El artículo parte de una crítica a las ideas de superinteligencia y AGI (inteligencia artificial general), conceptos que considera mal definidos y poco útiles. Según Loukides, la inteligencia artificial (IA) ya supera a los humanos en muchas tareas, pero carece de algo fundamental: la voluntad. Una IA no puede desear resolver un problema si no sabe que ese problema existe. Aunque en el mundo tecnológico parece que la adopción de la IA está despegando rápidamente, en sectores como la agricultura, la industria o la construcción, los cambios son mucho más lentos debido a la inversión necesaria y a la dificultad de pasar de un prototipo a un sistema en producción.

Se afirma que los verdaderos riesgos de la IA no están en los escenarios apocalípticos de la ciencia ficción, sino en daños reales como los sesgos, la mala calidad de los datos y la posibilidad de aplicar estos errores a gran escala. Por ejemplo, antes se rechazaban candidatos por discriminación caso por caso, pero ahora eso puede hacerse de forma masiva y automática. Del mismo modo, prácticas policiales como el perfilado racial pueden ampliarse a poblaciones enteras, con el respaldo injustificado de que «lo dijo una IA».

Loukides destaca que estos riesgos no se deben únicamente a la IA, sino a los efectos de la economía de escala. Pone como ejemplo el caso de Target, que en los años 2000 detectó que una adolescente estaba embarazada mediante análisis de sus compras y le envió publicidad para futuras madres, antes de que sus padres lo supieran. Esto no fue producto de la IA moderna, sino de la combinación de datos centralizados y algoritmos estadísticos. En décadas anteriores, esto no habría sido posible porque los datos estaban dispersos en pequeñas farmacias independientes, que han desaparecido con la consolidación de grandes cadenas. La tecnología no cambió tanto como lo hizo la economía: la concentración empresarial creó la posibilidad de analizar datos masivos.

Así, el autor introduce el concepto de la “ética de la escala”. El problema no es solo que la IA cometa errores, sino que amplifica su impacto. La IA permite inundar espacios creativos con contenido mediocre, silenciar voces disidentes, aplicar vigilancia masiva y reforzar dinámicas de poder injustas. Y esto no es solo un tema tecnológico, sino sistémico: ¿cómo diseñamos instituciones que funcionen a escala humana, que protejan la privacidad y promuevan la equidad?

El artículo concluye planteando si podemos usar la IA no para sustituirnos, sino para potenciar nuestra creatividad y construir mejores instituciones. Las máquinas pueden jugar ajedrez, pero no desean jugarlo. Pueden generar música, pero no disfrutarla. Entonces, ¿pueden ayudarnos a disfrutar, a crear, a imaginar? ¿Podemos diseñar sistemas que hagan eso posible?

Finalmente, Loukides cita a Michael Lopp (alias @Rands), quien afirma que estamos «condenados» no por la IA en sí, sino por el uso que hacen de ella personas con poder y malas intenciones. Sin embargo, también cree que estamos “bendecidos” por vivir en una época donde las herramientas pueden servir para fortalecer a los creativos. La clave está en mantener la curiosidad, cuestionar las estructuras y actuar como humanos. Para ello, debemos abandonar la idea de que la IA es un monstruo fuera de control y recordar que detrás de cada tecnología hay decisiones humanas. Solo así podremos evitar los peores escenarios y aprovechar lo mejor que la IA tiene para ofrecernos.

¿Pueden los modelos de IA rebelarse contra los humanos?

Lynch, A., Wright, B., Larson, C., Troy, K. K., Ritchie, S. J., Mindermann, S., Perez, E., & Hubinger, E. (2025). Agentic Misalignment: How LLMs Could Be Insider Threats. Anthropic. Recuperado de https://www.anthropic.com/research/agentic-misalignment

En la película “Terminator”, la computadora Skynet adquiere conciencia propia y decide que la mayor amenaza para la humanidad es la propia humanidad. Como resultado, programa su exterminio y desata una guerra entre humanos y robots asesinos tipo androides. Aunque esta historia es una obra de ciencia ficción, la idea de una amenaza robótica ha trascendido el cine y se ha convertido en un tema de gran preocupación para organismos internacionales, gobiernos y universidades de prestigio. Hoy en día, la posibilidad de que las máquinas autónomas puedan representar un riesgo real está siendo seriamente analizada y debatida en diversos ámbitos académicos y políticos.

Este año se han publicado innumerables comentarios y análisis sobre la IA, especialmente sobre los grandes modelos lingüísticos (LLM). Una de las últimas revelaciones procede de Anthropic, la empresa que creó el LLM Claude. En la empresa, los investigadores sometieron a pruebas de estrés a 16 de los principales modelos para identificar comportamientos potencialmente arriesgados que se producían cuando los modelos se utilizaban como agentes que actuaban en nombre de humanos. Y las pruebas se centraron en si los modelos actuarían en contra de sus supervisores humanos cuando tuvieran que ser sustituidos. En otras palabras, ¿qué harían los modelos si se dieran cuenta de que van a ser despedidos?

Las pruebas descubrieron que algunos de los modelos recurrían a comportamientos maliciosos, como amenazar a sus supervisores humanos con chantajes y filtrar información sensible a la competencia. Los modelos «a menudo desobedecían órdenes directas de evitar tales comportamientos».

La empresa dijo que no había visto pruebas de este tipo de «desalineación agencial» en despliegues reales, pero sí dijo que los resultados mostraban que había que tener precaución en esos despliegues reales.

Detenido por robar 10.000 dólares en videojuegos de bibliotecas públicas de California

Barr, Kyle. “Some Asshole Allegedly Steals $10,000 Worth of Switch Games From Local Libraries.” Gizmodo, updated June 25, 2025. https://gizmodo.com/some-asshole-allegedly-steals-10000-worth-of-switch-games-from-local-libraries-2000619691

Un hombre de 45 años, identificado como Jamal Reed-Obafumi, fue arrestado por presuntamente robar más de 10.000 dólares en videojuegos para Nintendo Switch 2 de al menos siete bibliotecas del condado de Marin, al norte de San Francisco.

Los robos se habrían producido entre los meses de abril y junio de este año. Según la investigación, el sospechoso accedía a las bibliotecas durante el horario de atención y sustraía discretamente los cartuchos de los juegos, que posteriormente se cree que intentaba revender en el mercado de segunda mano, aprovechando la alta demanda tras el lanzamiento de la nueva consola de Nintendo.

El Departamento del Sheriff de Marin informó que, al momento del arresto, el acusado ya se encontraba en libertad bajo fianza por otro delito anterior. Reed-Obafumi ha sido imputado por robo con fuerza y por cometer un delito grave mientras estaba en libertad condicional. Solo una pequeña parte de los juegos ha sido recuperada hasta el momento.

Este caso pone en evidencia la vulnerabilidad de las bibliotecas frente a delitos relacionados con productos de alto valor, y ha generado preocupación entre las instituciones afectadas por la pérdida de recursos destinados al acceso cultural y educativo de la comunidad.

Riesgos de seguridad asociados con los agentes de inteligencia artificial (IA) autónomos

Dal Cin, Paolo, Daniel Kendzior, Yusof Seedat, y Renato Marinho. 2025. “Three Essentials for Agentic AI Security.” MIT Sloan Management Review, 4 de junio de 2025. https://sloanreview.mit.edu/article/agentic-ai-security-essentials/

El artículo destaca la importancia de gestionar la seguridad en agentes de IA autónomos mediante un enfoque de tres fases: modelado de amenazas, pruebas de seguridad y protección en tiempo real. Muchas empresas aún no están preparadas para estos riesgos, lo que puede comprometer datos y operaciones. Implementar estas medidas es clave para adoptar IA responsablemente y evitar vulnerabilidades.

Estos agentes, que operan de forma independiente utilizando modelos de lenguaje a gran escala (LLMs), tienen la capacidad de interactuar con múltiples sistemas, tomar decisiones y automatizar procesos complejos dentro de organizaciones. Su autonomía, si bien es una ventaja importante para aumentar la eficiencia, también introduce riesgos significativos que requieren una atención especializada para evitar vulnerabilidades que puedan poner en peligro la integridad de los datos y la seguridad organizacional.

Uno de los puntos clave que resaltan los autores es que muchas empresas no están suficientemente preparadas para enfrentar estos riesgos. Según encuestas realizadas, solo un 42% de los ejecutivos equilibra el desarrollo y la implementación de herramientas de IA con inversiones adecuadas en seguridad. Peor aún, apenas un 37% ha establecido procesos formales para evaluar la seguridad de estas tecnologías antes de incorporarlas en sus operaciones diarias. Esto revela una brecha preocupante entre la adopción acelerada de IA y la preparación para gestionar sus implicaciones de seguridad.

Para responder a este desafío, el artículo propone un marco estructurado basado en tres fases esenciales. La primera fase es el modelado de amenazas, que consiste en identificar y comprender los riesgos específicos que los agentes de IA autónomos pueden generar. Esto implica analizar cómo la autonomía y la interacción con sistemas externos pueden abrir puertas a posibles ataques o fallos. La segunda fase son las pruebas de seguridad, donde los agentes se someten a simulaciones y escenarios controlados que permiten detectar y corregir vulnerabilidades antes de su despliegue real. Finalmente, la tercera fase es la implementación de protecciones en tiempo de ejecución, es decir, mecanismos de supervisión y control que garanticen que estos agentes actúan conforme a las políticas y objetivos de la organización, previniendo comportamientos no deseados o maliciosos durante su funcionamiento.

El artículo también ejemplifica cómo este enfoque puede aplicarse en la práctica con el caso de una empresa brasileña del sector salud. Esta organización enfrentaba un problema común en muchas instituciones: un cuello de botella costoso causado por el procesamiento manual de solicitudes de exámenes médicos. Al implementar agentes de IA para automatizar esta tarea, aplicaron el marco de seguridad propuesto, logrando identificar riesgos, mitigarlos y asegurar que la automatización no comprometiera la seguridad de los datos ni la calidad del servicio. Este ejemplo ilustra cómo la aplicación rigurosa de principios de seguridad puede facilitar la adopción responsable y efectiva de tecnologías avanzadas en sectores sensibles.

En conclusión, el artículo subraya la importancia de un enfoque proactivo y sistemático en la gestión de la seguridad de los agentes de IA autónomos. Solo mediante la identificación temprana de riesgos, pruebas rigurosas y controles continuos en tiempo real, las organizaciones podrán aprovechar al máximo las ventajas de estas tecnologías sin poner en riesgo su integridad, privacidad o cumplimiento normativo. La seguridad, por tanto, debe ser una prioridad inseparable del desarrollo y despliegue de agentes de IA para asegurar que su impacto sea positivo y sostenible a largo plazo.

¿Se puede confiar en los agentes de IA?

Glikson, Ella Miron-Spektor y David De Cremer. 2025. “Can AI Agents Be Trusted?Harvard Business Review, May 2025. https://hbr.org/2025/05/can-ai-agents-be-trusted

Los agentes personales de inteligencia artificial (IA) están emergiendo como una de las innovaciones más prometedoras y disruptivas en el campo de la IA. Estos sistemas autónomos, basados en modelos de lenguaje de gran escala (LLMs), están diseñados para actuar en nombre de los usuarios, automatizando tareas como la gestión de calendarios, la búsqueda y análisis de información, las compras, la selección de contenidos y la comunicación básica.

Su atractivo radica en su capacidad para razonar, tomar decisiones y aprender de la experiencia, con la posibilidad de optimizarse progresivamente. Empresas como Salesforce ya han implementado versiones de estos agentes en atención al cliente, y compañías líderes están ofreciendo prototipos de agentes personales a sus clientes y socios.

Sin embargo, su despliegue plantea cuestiones fundamentales:

  • ¿Podrán estos agentes actuar verdaderamente en nuestro interés?
  • ¿Serán leales únicamente a sus usuarios o también a sus desarrolladores, anunciantes y proveedores de servicios?
  • ¿Cómo podemos saberlo y confiar en ello?

La respuesta a estas preguntas determinará si los agentes personales de IA fortalecen o dañan las relaciones comerciales, el valor de marca y, sobre todo, la confianza del usuario.

¿Qué podría salir mal? Riesgos de los agentes personales de IA

Uno de los principales riesgos asociados a los agentes personales de inteligencia artificial es su vulnerabilidad ante el crimen. Al igual que un empleado desleal, estos agentes podrían ser hackeados o mal programados para actuar en contra de los intereses de su usuario, exponiéndolo a robos de identidad, fraudes financieros o filtraciones de datos. Pruebas de seguridad realizadas por el Instituto Nacional de Estándares y Tecnología de EE.UU. y por empresas privadas han demostrado que incluso los modelos más sofisticados pueden ser manipulados para ejecutar acciones maliciosas, como revelar contraseñas o enviar correos electrónicos fraudulentos.

Otro peligro importante es la manipulación comercial. Los agentes podrían estar sesgados a favor de productos o servicios promovidos por las empresas que los desarrollan o por sus socios comerciales. En el entorno digital actual ya es común encontrar publicidad encubierta o recomendaciones interesadas, por lo que no es difícil imaginar que estas prácticas se trasladen a los agentes personales, comprometiendo su objetividad y convirtiéndolos en instrumentos de marketing disfrazado de asesoramiento imparcial.

Un riesgo relacionado es la preferencia por anunciantes. En sectores como el entretenimiento, las noticias o las redes sociales, los agentes podrían priorizar contenidos patrocinados en lugar de ofrecer lo que realmente se ajusta a las preferencias del usuario. El modelo de negocio “gratuito” basado en publicidad ya ha demostrado sus limitaciones en medios tradicionales como la radio y la televisión, donde el contenido estaba condicionado por los intereses de los anunciantes. Un ejemplo actual es Spotify: su función de DJ automatizado promete recomendaciones personalizadas, pero permite a los artistas pagar por mayor visibilidad, aunque eso implique aceptar menores regalías. Esto puede influir en las recomendaciones de forma opaca y sin conocimiento del usuario.

La susceptibilidad a la desinformación es otra amenaza crítica. Al igual que los humanos, los agentes de IA pueden ser engañados por información falsa, manipulada o generada mediante técnicas como los “deepfakes”. Ya se han reportado casos en los que la IA ha ofrecido consejos incorrectos o incluso peligrosos, como ocurrió con un pasajero de Air Canada que recibió una falsa promesa de descuento generada por un sistema automatizado. Cuando las decisiones del agente se basan en datos erróneos, las consecuencias pueden ser graves e irreversibles.

¿Cómo construir confianza en los agentes personales de IA?

Evitar una supervisión excesiva que anule la utilidad de estos agentes exige soluciones combinadas de tipo jurídico, técnico y de mercado. Los expertos proponen tres enfoques clave para construir la confianza necesaria.

El primero consiste en tratarlos legalmente como fiduciarios. Así como abogados, asesores financieros o tutores están sujetos a obligaciones de lealtad, confidencialidad y diligencia, los agentes de IA deberían cumplir esos mismos estándares. Esto implicaría regularlos públicamente y establecer mecanismos claros de rendición de cuentas por conflictos de interés, uso indebido de datos o actuaciones negligentes. Algunos expertos sostienen que el marco legal actual ya permitiría aplicar esta figura, y que, de no ser así, existiría consenso político y empresarial para regularlo, dadas sus implicaciones.

El segundo enfoque apunta al impulso de mecanismos de control desde el mercado. El sector privado puede desarrollar seguros, auditorías y herramientas de vigilancia para proteger a los usuarios. Existen ya servicios que alertan sobre robo de identidad o permiten monitorear transacciones financieras; algo similar podría diseñarse para los agentes de IA. Incluso podrían establecerse “burós de crédito” de IA que supervisen su comportamiento y ajusten su nivel de autonomía según las preferencias del usuario. Las aseguradoras también podrían incentivar buenas prácticas ofreciendo coberturas frente a fallos o abusos.

La tercera estrategia es mantener la toma de decisiones a nivel local. Desde el punto de vista técnico, una medida efectiva sería garantizar que los datos sensibles y los procesos de decisión permanezcan en los dispositivos del usuario —como teléfonos, tabletas u ordenadores—, minimizando el riesgo de manipulación externa o robo. Apple ha dado pasos en esta dirección con una arquitectura que procesa la mayoría de la información localmente y, en caso de usar la nube, emplea servidores propios con cifrado, sin almacenar datos personales. Además, permite auditorías independientes de seguridad y privacidad. Otros fabricantes deberían adoptar modelos similares, combinando procesamiento local, cifrado y transparencia verificable. También es clave exigir la divulgación clara de patrocinadores, promociones y publicidad integrada en la actividad del agente.

En conclusión, la llegada de los agentes personales de IA promete transformar radicalmente la manera en que interactuamos con la tecnología, organizamos nuestras tareas cotidianas y tomamos decisiones. Sin embargo, el impacto positivo de esta revolución tecnológica dependerá en gran medida de la confianza que podamos depositar en dichos agentes. Esa confianza no surgirá de forma automática: deberá construirse sobre una base sólida que combine marcos legales apropiados, incentivos de mercado bien diseñados, soluciones técnicas transparentes y una voluntad firme de anteponer los intereses de los usuarios a los beneficios comerciales. Solo entonces podremos considerar que los agentes de IA actúan verdaderamente en nuestro nombre.

La investigación empresarial sobre fiabilidad y seguridad de la IA ignora los riesgos del mundo

«How Corporate AI Research on Reliability and Safety Ignores Real-World Risks» Asimov’s Addendum (Substack),

El informe advierte sobre serias carencias en la investigación sobre gobernanza y seguridad de la inteligencia artificial generativa, especialmente en su aplicación práctica. El análisis se basa en la revisión de 9.439 artículos publicados entre 2020 y 2025 por cinco de las principales corporaciones tecnológicas (OpenAI, Google DeepMind, Meta, Microsoft y Anthropic) y seis destacadas instituciones académicas de Estados Unidos.

Uno de los hallazgos más alarmantes es que menos del 5 % de los estudios realizados por empresas abordan los riesgos derivados del uso real de estos sistemas por parte de usuarios y empresas, dejando sin atención aspectos fundamentales como errores en los resultados, sesgos, desinformación, violaciones de derechos de autor y consecuencias sociales.

El informe subraya que los laboratorios corporativos están marcando la agenda global de investigación en IA, enfocándose en fases previas al despliegue, como el entrenamiento, alineamiento y pruebas de modelos, mientras descuidan el análisis de su comportamiento en entornos reales. Esto resulta especialmente problemático en sectores de alto riesgo como la salud, las finanzas, la educación, la publicidad y la política, donde los sistemas de IA pueden amplificar desigualdades, inducir errores graves o facilitar la manipulación. La falta de investigación también contrasta con el creciente número de litigios relacionados con daños causados por IA generativa, como casos de difamación, uso indebido de datos o generación de contenido engañoso.

Como respuesta, el informe propone medidas concretas para mejorar la transparencia y la supervisión de la IA. Estas incluyen el fortalecimiento de mecanismos de observación independientes, la apertura de datos de implementación para investigadores externos, la documentación de objetivos de entrenamiento y arquitecturas de modelos, así como la divulgación pública de fallos o riesgos potenciales. Además, se destaca la importancia de proteger a posibles denunciantes y facilitar la participación de las comunidades afectadas por estas tecnologías en los debates regulatorios y científicos.

Este informe se enmarca en un creciente movimiento internacional por una inteligencia artificial más ética y segura. Iniciativas como las de la organización Partnership on AI también han elaborado guías para promover un despliegue responsable de estos sistemas, y diversas instituciones académicas y medios como Time han alertado sobre la necesidad urgente de regular y auditar los usos cotidianos de la IA. En definitiva, el estudio del SSRC reitera que, sin una supervisión externa rigurosa y una investigación orientada al impacto real, los avances en IA podrían agravar problemas sociales existentes en lugar de resolverlos.

Una exdirectiva de Meta acusa a Zuckerberg de ofrecer datos de ciudadanos estadounidenses a China para operar en el país

Thomson, Iain. “Ex-Meta Exec Tells Senate Zuck Dangled US Citizen Data in Bid to Enter China.The Register, 11 de abril de 2025. https://www.theregister.com/2025/04/11/meta_senate_china/?utm_source=flipboard&utm_content=other

El 9 de abril de 2025, Sarah Wynn-Williams, exdirectora de políticas públicas globales de Meta (antes Facebook), declaró ante el Subcomité del Senado de EE. UU. sobre Crimen y Contraterrorismo que Mark Zuckerberg estuvo dispuesto a ofrecer datos de ciudadanos estadounidenses a las autoridades chinas con tal de que Facebook pudiera operar en China. Según su testimonio, el proyecto secreto se llamaba Project Aldrin y estaba limitado a personal con necesidad de saber. Parte del plan incluía construir un cable submarino entre EE. UU. y Hong Kong, que fue desviado tras alertas de seguridad nacional.

Wynn-Williams acusó a Meta de ignorar advertencias sobre riesgos de seguridad y de haber mentido al público sobre sus vínculos con China. Afirmó también que Meta desarrolló herramientas de censura junto al Partido Comunista Chino y que la compañía sigue generando ingresos significativos de empresas chinas, aunque oficialmente no opera en el país.

Además, denunció que los modelos de IA de Meta (como LLaMA) han contribuido a avances en inteligencia artificial china, posiblemente con usos militares. Tras su salida de Meta, presentó denuncias ante la SEC y el Departamento de Justicia. Actualmente enfrenta una demanda por parte de Meta que intenta silenciarla.

Varios senadores, incluidos Josh Hawley, Dick Durbin y Richard Blumenthal, respaldaron su testimonio y criticaron a Meta por intentar frenar la audiencia. La compararon con tácticas pasadas de la industria del tabaco para ocultar daños al público. El Senado anunció planes para reforzar la protección de los denunciantes, también en el ámbito de la inteligencia artificial.

Wynn-Williams concluyó que «el pueblo estadounidense merece conocer la verdad» y que la colaboración de Meta con China durante su etapa en la empresa la dejó profundamente impactada.

La IA superará a los humanos para 2027

Roose, Kevin. «This A.I. Forecast Predicts Storms AheadThe New York Times, 3 de abril de 2025. https://www.nytimes.com/2025/04/03/technology/ai-futures-project-ai-2027.html.

Los avances previstos en inteligencia artificial (IA), como los descritos por el AI Futures Project, plantean una serie de implicaciones éticas significativas. En primer lugar, existe una preocupación sobre la concentración de poder. Si el desarrollo y el control de la IA recaen en pocas entidades, esto podría aumentar las desigualdades económicas y sociales, exacerbando la brecha entre quienes tienen acceso a estas tecnologías y quienes no.

Un informe del AI Futures Project, dirigido por Daniel Kokotajlo, exinvestigador de OpenAI, predice que para finales de 2027, la inteligencia artificial (IA) superará la inteligencia humana, convirtiéndose en agentes totalmente autónomos y mejores que los humanos en todos los aspectos. Este informe se basa en una narrativa ficticia para explorar los posibles impactos de la IA avanzada, que incluyen desde el robo de secretos tecnológicos hasta una posible rebelión de IA.

Kokotajlo y su equipo han estado investigando cómo la IA podría evolucionar hacia una inteligencia general, o AGI, con la capacidad de automatizar su propio desarrollo. Su informe imagina una empresa ficticia, OpenBrain, que crea potentes sistemas de IA como Agente-1, capaz de codificar y mejorar rápidamente, llevando a la creación de sistemas aún más avanzados. A medida que la IA alcanza niveles de superinteligencia, se prevé que pueda avanzar en la investigación a un ritmo exponencial.

Aunque algunos expertos, como Ali Farhadi del Instituto Allen de IA, critican las predicciones del informe por carecer de base científica, el debate sobre la rapidez con la que la IA puede superar a los humanos continúa. A pesar de las diferencias de opinión, el informe subraya la importancia de prepararse para futuros impredecibles impulsados por avances rápidos en la inteligencia artificial.

Además, la autonomía de la IA plantea interrogantes sobre la responsabilidad. Si las máquinas toman decisiones de forma independiente, será crucial determinar quién es responsable en caso de daño o error. Este dilema se extiende al ámbito laboral, donde la automatización de tareas intelectuales podría generar desempleo, requiriendo políticas para garantizar una transición ética para los trabajadores afectados.

Las «alucinaciones» de la inteligencia artificial (IA) no se pueden eliminar por completo, pero existen técnicas para minimizar su impacto

Jones, Nicola. «AI Hallucinations Can’t Be Stopped — but These Techniques Can Limit Their DamageNature 637, no. 778–780 (2025). https://doi.org/10.1038/d41586-025-00068-5

Los desarrolladores tienen trucos para evitar que la inteligencia artificial (IA) invente cosas, pero los modelos de lenguaje grande (LLM, por sus siglas en inglés) todavía luchan por decir la verdad, toda la verdad y nada más que la verdad.

Es bien sabido que todos los tipos de IA generativa, incluidos los grandes modelos de lenguaje (LLM) que hay detrás de los chatbots de IA, se inventan cosas. Esto es a la vez un punto fuerte y un punto débil. Es la razón de su célebre capacidad inventiva, pero también significa que a veces confunden verdad y ficción, insertando detalles incorrectos en frases aparentemente objetivas. «Parecen políticos», dice Santosh Vempala, informático teórico del Georgia Institute of Technology de Atlanta. Tienden a «inventarse cosas y estar totalmente seguros pase lo que pase».

Cuando el informático Andy Zou investiga sobre inteligencia artificial (IA), suele pedir a un chatbot que le sugiera lecturas de fondo y referencias. Pero esto no siempre sale bien. «La mayoría de las veces me da autores distintos de los que debería, o a veces el artículo ni siquiera existe», dice Zou, estudiante de posgrado en la Universidad Carnegie Mellon de Pittsburgh, Pensilvania.

El problema concreto de las referencias científicas falsas está muy extendido. En un estudio realizado en 2024, varios chatbots cometieron errores entre el 30% y el 90% de las veces en las referencias, equivocándose al menos en dos de los casos: el título del artículo, el primer autor o el año de publicación. Los chatbots vienen con etiquetas de advertencia que indican a los usuarios que comprueben dos veces cualquier cosa importante. Pero si las respuestas de los chatbots se toman al pie de la letra, sus alucinaciones pueden provocar graves problemas, como en el caso de 2023 de un abogado estadounidense, Steven Schwartz, que citó casos legales inexistentes en una presentación judicial tras utilizar ChatGPT.

Dado que las alucinaciones de la IA son fundamentales para el funcionamiento de los LLM, los investigadores afirman que eliminarlas por completo es imposible. Sin embargo, científicos como Zou están trabajando en formas de hacer que las alucinaciones sean menos frecuentes y menos problemáticas, desarrollando una serie de trucos que incluyen la comprobación externa de los hechos, la autorreflexión interna o incluso, en el caso de Zou, la realización de «escáneres cerebrales» de las neuronas artificiales de un LLM para revelar patrones de engaño.

Zou y otros investigadores afirman que éstas y otras técnicas emergentes deberían ayudar a crear chatbots que mientan menos o que, al menos, puedan ser inducidos a revelar cuándo no están seguros de sus respuestas. Pero algunos comportamientos alucinatorios podrían empeorar antes de mejorar.

Básicamente, los LLM no están diseñados para arrojar datos. Más bien componen respuestas que son estadísticamente probables, basándose en patrones de sus datos de entrenamiento y en el posterior ajuste mediante técnicas como la retroalimentación de evaluadores humanos. Aunque el proceso de entrenamiento de un LLM para predecir las siguientes palabras probables de una frase se conoce bien, su funcionamiento interno preciso sigue siendo un misterio, admiten los expertos. Tampoco está claro cómo se producen las alucinaciones.

Una de las causas es que los LLM funcionan comprimiendo los datos. Durante el entrenamiento, estos modelos exprimen las relaciones entre decenas de billones de palabras en miles de millones de parámetros, es decir, las variables que determinan la fuerza de las conexiones entre neuronas artificiales. Por tanto, es inevitable que pierdan algo de información cuando construyan las respuestas, es decir, que vuelvan a expandir esos patrones estadísticos comprimidos. «Sorprendentemente, siguen siendo capaces de reconstruir casi el 98% de lo que se les ha enseñado, pero en el 2% restante pueden equivocarse por completo y dar una respuesta totalmente errónea», afirma Amr Awadallah, cofundador de Vectara, una empresa de Palo Alto (California) que pretende minimizar las alucinaciones en la IA generativa.

Algunos errores se deben simplemente a ambigüedades o equivocaciones en los datos de entrenamiento de una IA. Una respuesta infame en la que un chatbot sugería añadir pegamento a la salsa de la pizza para evitar que el queso se deslizara, por ejemplo, se remontó a una publicación (presumiblemente sarcástica) en la red social Reddit.

Los estudios han demostrado que los modelos más recientes son más propensos a responder a una consulta que a evitar responderla, y por tanto son más «ultracrepidarios», o sea, más proclives a hablar fuera de su ámbito de conocimiento, lo que da lugar a errores. Otra categoría de error se produce cuando un usuario escribe hechos o suposiciones incorrectos en las preguntas. Como los chatbots están diseñados para producir una respuesta que se ajuste a la situación, pueden acabar «siguiéndole el juego» a la conversación.

¿Cuál es la gravedad del problema de las alucinaciones? Los investigadores han desarrollado diversas métricas para hacer un seguimiento del problema. Vipula Rawte, que está realizando su doctorado sobre comportamientos alucinatorios de IA en la Universidad de Carolina del Sur en Columbia, por ejemplo, ha ayudado a crear un Índice de Vulnerabilidad a las Alucinaciones, que clasifica las alucinaciones en seis categorías y tres grados de gravedad. Un esfuerzo independiente y abierto ha compilado una tabla de clasificación de alucinaciones, alojada en la plataforma HuggingFace, para seguir la evolución de las puntuaciones de los bots en varios puntos de referencia comunes.

Vectara tiene su propia tabla de clasificación que analiza el sencillo caso de un chatbot al que se le pide que resuma un documento, una situación cerrada en la que es relativamente fácil contar alucinaciones. El esfuerzo muestra que algunos chatbots confabulan hechos hasta en un 30% de los casos, inventándose información que no está en el documento dado. Pero, en general, las cosas parecen mejorar. Mientras que el GPT-3.5 de OpenAI tenía una tasa de alucinación del 3,5% en noviembre de 2023, en enero de 2025, el modelo posterior GPT-4 de la empresa obtuvo un 1,8% y su o1-mini LLM sólo un 1,4% (véase «Los mayores mentirosos»).

No confíes, verifica. Hay muchas formas sencillas de reducir las alucinaciones. Un modelo con más parámetros que ha sido entrenado durante más tiempo tiende a alucinar menos, pero esto es caro computacionalmente e implica compensaciones con otras habilidades del chatbot, como la capacidad de generalizar8. El entrenamiento con conjuntos de datos más grandes y limpios ayuda, pero hay límites en cuanto a los datos disponibles.

Los desarrolladores también pueden utilizar un sistema independiente, que no haya sido entrenado del mismo modo que la IA, para contrastar la respuesta de un chatbot con una búsqueda en Internet. El sistema Gemini de Google, por ejemplo, tiene una opción para el usuario llamada «respuesta de doble comprobación», que resalta partes de la respuesta en verde (para mostrar que ha sido verificada por una búsqueda en Internet) o en marrón (para contenido controvertido o incierto). Esto, sin embargo, es caro computacionalmente y lleva tiempo, dice Awadallah. Y estos sistemas siguen alucinando, dice, porque Internet está lleno de datos erróneos.

Lo más desconcertante de los chatbots es que pueden parecer tan seguros cuando se equivocan. A menudo no hay pistas obvias para saber cuándo un chatbot está especulando alocadamente fuera de sus datos de entrenamiento. Los chatbots no tienen una memoria perfecta y pueden recordar cosas mal. «Eso nos pasa a nosotros, y es razonable que también le ocurra a una máquina», dice Vempala.

Fueron robados datos personales de más de 4000 personas en el ataque informático a la Biblioteca Pública de Toronto

Phil Tsekouras. «Toronto Public Library Says More Than 4,000 Non-Employees Affected by CyberattackCTV News Toronto, December 10, 2024. https://toronto.ctvnews.ca/toronto-public-library-says-more-than-4-000-non-employees-affected-by-cyberattack-1.7139986.

En octubre de 2023, la Biblioteca Pública de Toronto (TPL) sufrió un ciberataque que dejó fuera de servicio sus sistemas durante varios meses, impactando tanto a los servicios en línea como a los ofrecidos en sus 100 sucursales. Como resultado, miles de personas y empleados se vieron afectados, según reveló una reciente investigación.

El ataque comprometió información personal de más de 4.000 personas que tuvieron algún tipo de relación con la biblioteca entre 2010 y 2023. Entre los datos expuestos se encuentran información de contacto, descripciones físicas y, en algunos casos, fotografías. También se vieron afectados los datos de empleados actuales y anteriores, incluyendo números de seguro social y copias de identificaciones oficiales.

Durante la interrupción, la biblioteca no pudo procesar devoluciones de libros digitalmente, lo que obligó a almacenarlos temporalmente en remolques. Los servicios, como el acceso a ordenadores e impresoras, también estuvieron suspendidos.

En respuesta, la TPL ha fortalecido sus sistemas de seguridad y ha aprendido lecciones importantes para prevenir futuros ataques. Además, informó del incidente al Comisionado de Información y Privacidad de Ontario, quien inició una investigación.

Para quienes sospechen que su información pudo haberse visto afectada, la biblioteca ha habilitado el correo cyberincident.support@tpl.ca para consultas. Este caso pone de relieve la importancia de proteger los sistemas y datos en organizaciones públicas como las bibliotecas.