«Mentiras» en textos generados por Inteligencia Artificial: alucinaciones y omisiones.

Kees van Deemter «“Lying” in Computer-Generated Texts: Hallucinations and Omissions». Library Journal. Accedido 13 de septiembre de 2023. https://www.libraryjournal.com/story/academiclibraries/lying-in-computer-generated-texts-hallucinations-and-omissions-lj230901.

Existe una gran interés en torno a ChatGPT y otros grandes modelos generativos de lenguaje que producen textos fluidos y parecidos a los escritos por humanos en inglés y otros idiomas. Pero estos modelos tienen una gran desventaja, que es que sus textos pueden ser incorrectos en términos de hechos (alucinaciones) y también omitir información clave (omisiones).

Las omisiones son inevitables porque un sistema informático no puede incluir toda la información posiblemente relevante en un texto lo suficientemente corto como para ser leído realmente. En el contexto de resumir información médica para médicos, por ejemplo, el sistema informático tiene acceso a una gran cantidad de datos de pacientes, pero no sabe (y podría argumentarse que no puede saber) qué será más relevante para los médicos.

Las alucinaciones son inevitables debido a fallos en los sistemas informáticos, independientemente del tipo de sistema. Los sistemas que están programados explícitamente sufrirán errores de software (como todos los sistemas de software). Los sistemas que se entrenan con datos, como ChatGPT y otros sistemas en la tradición del Aprendizaje Profundo, «alucinan» aún más. Esto ocurre por una variedad de razones. Quizás lo más obvio es que estos sistemas se retroalimentan con de datos defectuosos (por ejemplo, cualquier sistema que aprenda de Internet estará expuesto a mucha información falsa sobre vacunas, teorías de conspiración, etc.). Y aun si un sistema orientado a los datos pudiera ser entrenado únicamente con textos legítimos que no contengan falsedades, su dependencia de métodos probabilísticos hará que combinaciones de palabras que son muy comunes en Internet también puedan ser producidas en situaciones donde resulten en información falsa.

Supongamos, por ejemplo, que en Internet, la palabra «tos» a menudo va seguida de «… y estornudos». Entonces, un paciente podría ser descrito de manera falsa por un sistema orientado a los datos como «tos y estornudos» en situaciones en las que tose sin estornudar. Problemas de este tipo son un enfoque importante para los investigadores que trabajan en modelos generativos de lenguaje. A dónde nos llevará esta investigación aún es incierto; lo mejor que se puede decir es que podemos intentar reducir el impacto de estos problemas, pero no sabemos cómo eliminarlos por completo.

Lo expuesto anteriormente se centra en problemas no intencionales pero inevitables. También existen casos en los que un sistema informático podría argumentarse que debe alucinar u omitir información. Un ejemplo evidente es la generación de material de marketing, donde se espera omitir información negativa sobre un producto. Un ejemplo más sutil, que hemos visto en nuestro propio trabajo, es cuando la información puede ser perjudicial y es de interés de los usuarios ocultarla o distorsionarla. Por ejemplo, si un sistema informático está resumiendo información sobre bebés enfermos para amigos y familiares, probablemente no debería decirle a una abuela anciana con una afección cardíaca que el bebé puede morir, ya que esto podría desencadenar un ataque al corazón.

Ahora que la precisión factual del texto generado por computadora atrae tanta atención de la sociedad en su conjunto, la comunidad de investigación está comenzando a darse cuenta más claramente que antes de que solo tenemos una comprensión limitada de lo que significa decir la verdad. En particular, no sabemos cómo medir la extensión de la (in)veracidad en un texto dado.

Para comprender lo que se quiere decir, supongamos que dos modelos de lenguaje diferentes responden a la pregunta de un usuario de dos maneras diferentes, generando dos textos de respuesta diferentes. Para comparar el rendimiento de estos sistemas, necesitaríamos una «tarjeta de puntuación» que nos permitiera puntuar objetivamente los dos textos en cuanto a su corrección factual, utilizando una variedad de criterios. Dicha tarjeta de puntuación nos permitiría registrar con qué frecuencia ocurre cada tipo de error en un texto dado y agregar el resultado en una puntuación global de veracidad para ese texto. De particular importancia sería la ponderación de los errores: los errores grandes (por ejemplo, una lectura de temperatura que está muy lejos de la temperatura real) deberían pesar más que los pequeños, los hechos clave deberían pesar más que los asuntos secundarios, y los errores que son realmente engañosos deberían pesar más que las erratas que los lectores pueden corregir por sí mismos. Básicamente, la tarjeta de puntuación funcionaría como un profesor de escuela justo que califica los trabajos de los alumnos.

Se han desarrollado protocolos para que los evaluadores humanos encuentren errores factuales en los textos generados, al igual que otros investigadores, pero aún no es posible crear una tarjeta de puntuación como se describe anteriormente porque no se puede evaluar el impacto de errores individuales.

Lo que se necesita, creemos, es una nueva línea de investigación informada lingüísticamente, que identifique todos los diferentes parámetros de «mentir» de una manera que pueda informar a las tarjetas de puntuación mencionadas anteriormente y que algún día pueda implementarse en un protocolo o algoritmo de verificación de hechos confiable. Hasta ese momento, aquellos de nosotros que intentamos evaluar la veracidad de ChatGPT estaremos avanzando a ciegas.