Archivo de la categoría: Tecnologías de la información

La alfabetización digital será clave en un mundo transformado por la IA

Valérie Kindarji, Wendy H. Wong «Opinion: Digital Literacy Will Be Key in a World Transformed by AI». The Globe and Mail.11 de marzo de 2023. https://www.theglobeandmail.com/opinion/article-digital-literacy-will-be-key-in-a-world-transformed-by-ai/.

El reciente lanzamiento de chatbots impulsados ​​por IA, como ChatGPT, el nuevo Bing y Bard de Google, ha alimentado un torbellino de posibilidades y pánico. Estos grandes modelos de lenguaje (LLM) imitan y aumentan la interacción humana, ya sea respondiendo preguntas, completando formularios o resumiendo grandes cantidades de literatura. Microsoft y Google nos dicen que es la próxima frontera de la búsqueda, y muchos de nuestros colegas lo ven como una sentencia de muerte para el ensayo universitario.

La innovación disruptiva ya ha cambiado vidas humanas antes. La imprenta aumentó las tasas de alfabetización lingüística, trastocó estructuras políticas y sociales arraigadas y abrió un mundo de conocimiento a las masas. Hoy en día, la IA y la recopilación generalizada de datos están cambiando radicalmente nuestras vidas y creando la necesidad de un nuevo tipo de alfabetización: la alfabetización digital.

La alfabetización digital es un conjunto de habilidades y un marco conceptual que nos ayuda a funcionar de manera más significativa en nuestro mundo impulsado por la tecnología. La alfabetización digital nos brinda herramientas para buscar, evaluar y gestionar el volumen de información al que estamos expuestos. Nos ayuda a utilizar tecnologías algorítmicas y a comprender en general cómo producen respuestas. Nos ayuda a comprender la máquina y los datos detrás de la IA.

Es hora de que empecemos a tomar en serio la alfabetización digital y empecemos a pensar en cómo implementar estas habilidades en nuestras prácticas sociales y llevar estas ideas a la legislación. Hasta la fecha, la atención pública se ha centrado en las propias tecnologías de IA. Desafortunadamente, las tecnologías que se están desatando avanzan más rápido de lo que el gobierno puede responder con regulaciones punitivas. Muchas políticas gubernamentales, incluidas las regulaciones canadienses, se han centrado en controlar la tecnología, como imponer requisitos sobre el contenido o encontrar fallas en las prácticas corporativas. Los debates públicos recientes sobre el LLM señalan la precisión o los peligros.

Si bien es importante examinar los productos corporativos, también debemos invertir en ayudar a los ciudadanos a adaptarse a las nuevas realidades que trae la IA. Una forma de incorporar tecnologías disruptivas es brindar a los ciudadanos el conocimiento y las herramientas que necesitan para hacer frente a estas innovaciones en su vida diaria. Es por eso que deberíamos abogar por una inversión generalizada en programas de alfabetización digital. El hecho de que vivamos en un mundo tecnológicamente infundido no va a cambiar. La alfabetización digital puede ayudarnos a empezar a ver las tecnologías relacionadas con la IA tal como son: sistemas masivos de agrupación, clasificación y procesamiento de datos que son máquinas de predicción.

La alfabetización digital es particularmente importante en las democracias, sistemas políticos que dependen del conocimiento, la participación y las opciones de los ciudadanos para gobernar. Algunos países están por delante de la curva. Por ejemplo, la alfabetización digital forma parte del plan de estudios básico de las escuelas en Finlandia y Estonia. Los estudiantes aprenden a codificar desde una edad temprana y toman cursos sobre medios y desinformación. Sin embargo, la mayoría de los demás países, incluido Canadá, están rezagados. Los programas de alfabetización digital existentes son irregulares y es posible que la política educativa no corresponda a una sola jurisdicción. Además, actualmente la carga de impartir formación en alfabetización digital recae en las organizaciones que ofrecen educación complementaria, como bibliotecas públicas o programas comunitarios. La falta de financiación y de intercambio de conocimientos entre programas complica la impartición y el acceso a los cursos.

La importancia de la alfabetización digital va más allá del alcance de nuestras interacciones cotidianas con el entorno de información en línea. Los LLM representan un grave riesgo para la democracia porque interrumpen nuestra capacidad de acceder a información de alta calidad, un pilar fundamental de la participación democrática. Derechos básicos como la libertad de expresión y de reunión se ven obstaculizados cuando nuestra información está distorsionada. Necesitamos ser consumidores de información perspicaces para poder tomar decisiones lo mejor que podamos y participar políticamente.

La alfabetización digital es una inversión a largo plazo. Se trata de ayudar a los ciudadanos a navegar sus vidas. Las tecnologías impulsadas por la IA serán cada vez más precisas, menos detectables y más extendidas. Los observadores tienden a burlarse cuando la IA comete errores (y pueden ser divertidos), pero ésta no es la mejor manera de rechazar los algoritmos.

Necesitamos comprender cómo los LLM (y otras tecnologías de inteligencia artificial) generan sus respuestas para poder utilizar estas poderosas herramientas. Tendemos a ser víctimas del sesgo de la automatización, degradando la toma de decisiones humana en favor de la máquina. Pero tal vez eso se deba a que no solemos pensar en cómo funciona la máquina para producir respuestas. ¿Cómo recopila y me entrega información una herramienta como ChatGPT? ¿Cómo puedo utilizar el chatbot para despertar mi creatividad en lugar de hacer que hable por mí? ¿Cuáles son las limitaciones de esta herramienta? ¿Cómo influyen las elecciones algorítmicas en el resultado de estas herramientas?

Las percepciones distorsionadas de la realidad afectan nuestra confianza en nuestras instituciones y nuestra confianza mutua, especialmente en aquellos con quienes no estamos de acuerdo. Los algoritmos de las redes sociales ya nos están filtrando hacia campos opuestos que cada vez más no se hablan entre sí. Pero hay motivos para tener esperanzas. Recientemente, en el podcast Hard Fork, Sam Altman, director ejecutivo de OpenAI (que creó ChatGPT), dijo: «Y dado lo firmemente que creo que [la IA] va a cambiar muchos, tal vez la gran mayoría de los aspectos de la sociedad, la gente necesita ser incluido temprano”.

Señor. Altman tiene razón: necesitamos que nos incluyan. Sobre qué y de quién, con qué conocimientos previos y con qué desarrolladores de tecnología siguen siendo preguntas abiertas. La alfabetización digital es una parte importante de la respuesta y actualmente no tiene prioridad. Puede ser el arma sigilosa para combatir la desinformación y convertirnos en consumidores más activos y confiados de tecnologías de inteligencia artificial.

Algunos de los detectores de plagio por IA consideran que la Constitución de EE.UU. o el Génesis fueron escritos utilizando una herramienta de IA generativa

Harwood, Michelle. «AI Wrote the US Constitution, Says AI Content Detector». Medium (blog), 7 de septiembre de 2023. https://medium.com/@michellehwd/ai-wrote-the-us-constitution-says-ai-content-detector-f24681fdc75f.

Si se introdujeran algunos extractos de la Constitución de EE.UU. en las herramientas de detección de IA, éstas afirmarían que fue escrita por herramientas de IA como ChatGPT y Google Bard, etc. ZeroGPT parece estar seguro en un 94% de que la IA escribió la Constitución, mientras que originality.ai lo está en un 60%. La Constitución se redactó en el año 1787, es decir, hace más de 200 años. Entonces, ¿crees que es posible que ese viejo documento tenga orígenes de IA? Bueno, eso sólo puede ocurrir si los propios redactores eran robots o si utilizaron una máquina del tiempo para llegar a la era de la tecnología de IA.

La pregunta es, ¿por qué estas herramientas parecen estar tan seguras de etiquetar el documento de hace un año como generado por la IA? Cuando los detectores de IA reciben un texto para analizar, normalmente comprueban la estructura del texto, lo comparan con sus conocimientos y concluyen si ellos habrían escrito de la misma manera al recibir la misma consulta. En caso afirmativo, la herramienta simplemente clasifica el texto como escrito por la IA.

Al analizar la estructura del texto, las herramientas de detección de IA suelen utilizar dos variables diferentes: la perplejidad y la explosividad. Cuanto menor sea el porcentaje de estas dos variables detectadas en el texto, mayores serán las probabilidades de que el contenido esté generado por IA.

Los detectores de IA que etiquetan la Constitución de EE.UU. como generada por IA han suscitado dudas sobre su precisión. De hecho, este no es el único caso en que una herramienta de detección de contenidos de IA ha dado falsos positivos. Anteriormente, también se había descubierto que el Libro del Génesis había sido escrito por IA.

Varios expertos han cuestionado la fiabilidad de los detectores de IA y han expresado su preocupación por sus vulnerabilidades. «No existe ninguna herramienta que pueda detectar de forma fiable la escritura ChatGPT-4/Bing/Bard», tuiteó Mollick recientemente. «Las herramientas existentes están entrenadas en GPT-3.5, tienen altas tasas de falsos positivos (10%+), y son increíblemente fáciles de engañar». Además, ChatGPT por sí mismo no puede evaluar si el texto está escrito por IA o no, añadió, por lo que no se puede simplemente pegar un texto y preguntar si fue escrito por ChatGPT.

En el caso del detector de IA basado en marcas de agua, la robustez reveló que «un atacante puede utilizar un parafraseador para eliminar las firmas LLM de un texto generado por IA para evitar su detección» e incluso puede falsear el detector de marcas de agua para hacer que un texto humano auténtico se detecte como generado por IA.

En una conversación con Ars Technica, Tian de GPTZero pareció darse cuenta de lo que se avecinaba y dijo que planea redirigir su empresa lejos de la detección de IA convencional hacia algo más ambiguo. «En comparación con otros detectores, como Turn-it-in, estamos cambiando nuestra atención lejos de construir detectores para atrapar a los estudiantes, y en su lugar, la próxima versión de GPTZero no estará detectando IA, sino resaltando lo más humano y ayudando a profesores y estudiantes a navegar juntos el nivel de participación de la IA en la educación», dijo.

Sin embargo, a pesar de los problemas inherentes con la precisión, GPTZero sigue anunciándose como «construido para educadores», y su sitio muestra con orgullo una lista de universidades que supuestamente utilizan la tecnología. Existe una extraña tensión entre los objetivos declarados de Tian de no castigar a los estudiantes y su deseo de ganar dinero con su invento. Pero sean cuales sean los motivos, el uso de estos productos defectuosos puede tener efectos terribles en los estudiantes. Quizá el resultado más perjudicial del uso de estas herramientas inexactas e imperfectas sea el coste personal de las falsas acusaciones.

Un caso publicado por USA Today pone de relieve la cuestión de forma llamativa. Un estudiante fue acusado de hacer trampas basándose en herramientas de detección de texto de IA y tuvo que presentar su caso ante una junta de honor. Su defensa incluyó mostrar su historial de Google Docs para demostrar su proceso de investigación. A pesar de que el tribunal no encontró pruebas de que hubiera hecho trampas, el estrés de prepararse para defenderse llevó al estudiante a sufrir ataques de pánico. Situaciones similares se han producido docenas (si no cientos) de veces en los EE.UU. y se documentan comúnmente en hilos desesperados de Reddit.

Las sanciones habituales por deshonestidad académica suelen incluir suspensos, libertad condicional académica, suspensión o incluso expulsión, dependiendo de la gravedad y la frecuencia de la infracción. Es una acusación difícil de afrontar, y el uso de tecnología defectuosa para imponer esos cargos parece casi una caza de brujas académica moderna.

Así pues, finalmente, no existe una fórmula perfecta en la que podamos confiar para diferenciar entre texto escrito por humanos y texto generado por máquinas.

Editores, ¡no utilicen herramientas de detección de IA!

Staiman, Avi. «Publishers, Don’t Use AI Detection Tools!» The Scholarly Kitchen, 14 de septiembre de 2023. https://scholarlykitchen.sspnet.org/2023/09/14/publishers-dont-use-ai-detection-tools/.

La semana pasada recibí una llamada desesperada de un estudiante de máster de Austria que estaba inconsolable. Acababa de enviar su tesis a su universidad para que la revisaran y había sido marcada como escrita por IA. La universidad le había dado una oportunidad más para revisar y volver a presentar su trabajo. Si pasaba la herramienta de detección de IA, revisarían el trabajo y le darían una nota final. Si no superaba la comprobación automática, lo rechazarían automáticamente y lo expulsarían deshonrosamente de su programa, tirando por la borda dos años de estudio.

¿Herramientas de detección de IA para defender la integridad de la investigación?

El reciente auge en el desarrollo de tecnologías de IA en el ámbito de la escritura ha provocado el aumento y la proliferación de detectores de IA en el mundo académico. Estos detectores prometen ser los guardianes de la integridad académica combatiendo el plagio y los contenidos generados por IA. Aunque la ambición es noble, su aplicación práctica ha tenido su buena dosis de deficiencias críticas.

El supuesto fundamental que subyace a la creación de herramientas de detección de IA parece ser que la escritura con IA debería poder detectarse del mismo modo que se detecta el plagio. Sin embargo, hay una diferencia fundamental: el plagio simplemente busca coincidencias exactas con obras existentes, un criterio objetivo que puede identificarse, medirse y reproducirse. Por otro lado, la escritura de IA es original por derecho propio (aunque se extraiga de fuentes no originales) y no puede rastrearse fácilmente hasta su fuente.

Mi oposición a que las editoriales académicas recurran a herramientas de detección obedece a razones tanto pragmáticas como ideológicas. Empecemos por las cuestiones pragmáticas.

Problemas con los falsos positivos

Los grandes modelos lingüísticos aprenden de la escritura humana y se construyen para parecerse a ella en sus resultados. Ya con el lanzamiento de ChatGPT, quedó claro que la IA generativa podía producir una escritura que imitara con éxito la de los humanos. Cuantificar los respectivos componentes humanos y de IA en un documento concreto es todo un reto y, a menudo, los autores mezclan sus propias palabras con las sugeridas por la herramienta de IA.

Las imperfecciones de los detectores de IA son cada vez más evidentes, ya que a menudo identifican erróneamente contenidos genuinamente generados por humanos. Los estudios han mostrado tasas de error de hasta el 9% o más, una cifra demasiado alta para vivir con ella. Un caso notable fue el de una herramienta de IA que marcó la Constitución de EE.UU. como producida por IA. Este falso positivo no sólo pone de manifiesto la flagrante imperfección de estos detectores, sino que también subraya las posibles trampas que aguardan a los autores académicos que tratan estos informes como fidedignos. Un caso humorístico pero inquietante de este tipo de confusión surgió después de que un profesor de Texas A&M suspendiera toda su clase después de que ChatGPT respondiera afirmativamente cuando le preguntó si había escrito los trabajos entregados por los estudiantes.

En un vídeo reciente, Turnitin admitió con sorprendente franqueza que su software de detección de IA debe tomarse «con cautela». Además, dicen que los profesores tendrán que ser los que «hagan la interpretación final» de lo que crea la IA generativa.

¿No es esa precisamente la razón por la que los profesores recurren a estas herramientas?

Las universidades están empezando a comprender las implicaciones de estas admisiones y han empezado a tomar medidas aconsejando a su profesorado que no utilice estas herramientas. En un informe de orientación publicado por la Universidad de Vanderbilt, señalan que Turnitin, su proveedor de software contra el plagio, afirmó originalmente tener una tasa positiva del 1% en la detección de trabajos escritos con IA tras el lanzamiento de su herramienta de detección de IA, pero luego aumentó esa tasa al 4% tras un uso y unas pruebas más amplias. Aunque esas cifras mejoren, no sería difícil para los autores malintencionados pasar los resultados de la IA por un software de parafraseo para eliminar rastros del original. La propia OpenAI cerró un proyecto que intentaba detectar sus propios resultados. Muchas universidades ya han cambiado de rumbo y están buscando políticas alternativas.

Daños colaterales de las falsas acusaciones

La falacia de los detectores de IA tiene consecuencias en el mundo real. Timnit Gebru, fundadora y directora ejecutiva del Distributed AI Research Institute (DAIR), compartió recientemente un angustioso correo electrónico que recibió en el que se acusaba injustamente a un escritor de emplear IA. Este tipo de incidentes pueden causar una angustia emocional indebida y empañar potencialmente la reputación profesional de un investigador. El efecto dominó puede traducirse en desconfianza, escepticismo y descarrilamiento de la carrera académica, por no hablar de las prolongadas batallas legales.

Peor aún, es más probable que estos detectores marquen como generados por IA los trabajos de hablantes de inglés como lengua adicional (EAL) que los de sus homólogos nativos de habla inglesa. Lo último que querría cualquier editor es arriesgarse a introducir aún más prejuicios y discriminación contra los autores EAL.

¿Por qué corremos de nuevo a prohibir la escritura asistida por IA?

Las editoriales académicas deberían ser cautelosas a la hora de adoptar herramientas de detección de IA por razones que van más allá de la integridad de la investigación.

Si bien es probable que la mayoría de los editores no quieran publicar investigaciones que hayan sido obviamente realizadas por ChatGPT, adoptar políticas en las que los verificadores de IA sean estándar es también hacer una declaración educativa y de valores sobre cómo vemos el uso de la IA generativa en la expresión de hallazgos académicos. En lugar de rechazar las herramientas de IA en la escritura académica, ¿qué pasaría si las utilizáramos como herramientas educativas y como medio para igualar las condiciones de los académicos de la EAL?

Instituciones como la Universidad de Yale son pioneras en la utilización de la IA para mejorar el proceso de escritura. Ethan y Lilach Mollick, de la Wharton School, han creado un curso práctico en línea sobre IA para el aula que incluye la integración de la GPT en las tareas. Estos avances ponen de relieve un posible camino a seguir en el que la IA ayude a la escritura académica en lugar de entorpecerla.

Conclusión

Aunque la motivación para integrar los detectores de IA en la revisión académica es bienintencionada, los retos que introducen exigen un enfoque diferente. El sector de las publicaciones académicas debe estar alerta, sopesar los posibles escollos frente a las promesas y explorar formas de integrar armoniosamente la IA en la bibliografía académica.

Sobre la IA: ¿Qué debemos regular?

«Regulatory Framework Proposal on Artificial Intelligence | Shaping Europe’s Digital Future», 30 de junio de 2023. https://digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai.

La Comisión Europea propuesto el primer marco legal sobre inteligencia artificial (IA) que aborda los riesgos de la IA y coloca a Europa en una posición líder a nivel mundial.

La propuesta regulatoria tiene como objetivo proporcionar a los desarrolladores, implementadores y usuarios de IA requisitos y obligaciones claras con respecto a usos específicos de la IA. Al mismo tiempo, la propuesta busca reducir las cargas administrativas y financieras para las empresas, en particular las pequeñas y medianas empresas (PYMEs).

La propuesta forma parte de un paquete más amplio sobre IA, que también incluye el Plan Coordinado actualizado sobre IA. Juntos, el marco regulatorio y el Plan Coordinado garantizarán la seguridad y los derechos fundamentales de las personas y las empresas en lo que respecta a la IA. Además, fortalecerán la adopción, inversión e innovación en IA en toda la Unión Europea.

¿Por qué necesitamos normas sobre la inteligencia artificial (IA)?

La regulación propuesta sobre la IA garantiza que los europeos puedan confiar en lo que la IA tiene para ofrecer. Si bien la mayoría de los sistemas de IA presentan un riesgo limitado o nulo y pueden contribuir a resolver muchos desafíos sociales, ciertos sistemas de IA crean riesgos que debemos abordar para evitar resultados indeseables.

Por ejemplo, a menudo no es posible averiguar por qué un sistema de IA ha tomado una decisión o predicción y ha tomado una acción particular. Por lo tanto, puede resultar difícil evaluar si alguien ha sido perjudicado injustamente, como en una decisión de contratación o en una solicitud para un programa de beneficios públicos.

Aunque la legislación existente proporciona cierta protección, no es suficiente para abordar los desafíos específicos que pueden plantear los sistemas de IA.

Las normas propuestas:

  • Abordar los riesgos creados específicamente por las aplicaciones de IA.
  • Proponer una lista de aplicaciones de alto riesgo.
  • Establecer requisitos claros para los sistemas de IA en aplicaciones de alto riesgo.
  • Definir obligaciones específicas para los usuarios de IA y los proveedores de aplicaciones de alto riesgo.
  • Proponner una evaluación de conformidad antes de que el sistema de IA se ponga en servicio o se coloque en el mercado.
  • Proponer la aplicación después de que dicho sistema de IA se haya colocado en el mercado.
  • Proponer una estructura de gobernanza a nivel europeo y nacional.

El Marco Regulatorio define 4 niveles de riesgo en la inteligencia artificial (IA):

  1. Riesgo inaceptable
  2. Riesgo alto
  3. Riesgo limitado
  4. Riesgo mínimo o nulo

Riesgo inaceptable

Todos los sistemas de inteligencia artificial (IA) considerados una amenaza evidente para la seguridad, los medios de vida y los derechos de las personas serán prohibidos, desde la calificación social por parte de los gobiernos hasta los juguetes que utilizan asistentes de voz que fomentan un comportamiento peligroso.

Riesgo alto

Los sistemas de IA identificados como de alto riesgo incluyen la tecnología de IA utilizada en:

  • Infraestructuras críticas (por ejemplo, transporte), que podrían poner en riesgo la vida y la salud de los ciudadanos.
  • Educación o formación profesional, que pueden determinar el acceso a la educación y la carrera profesional de alguien (por ejemplo, calificación de exámenes).
  • Componentes de seguridad de productos (por ejemplo, aplicaciones de IA en cirugía asistida por robots).
  • Empleo, gestión de trabajadores y acceso al trabajo por cuenta propia (por ejemplo, software de clasificación de CV para procedimientos de contratación).
  • Servicios privados y públicos esenciales (por ejemplo, calificación crediticia que niega a los ciudadanos la oportunidad de obtener un préstamo).
  • Aplicación de la ley que puede interferir con los derechos fundamentales de las personas (por ejemplo, evaluación de la fiabilidad de la evidencia).
  • Gestión de migración, asilo y control fronterizo (por ejemplo, verificación de la autenticidad de documentos de viaje).
  • Administración de justicia y procesos democráticos (por ejemplo, aplicación de la ley a un conjunto concreto de hechos).

Los sistemas de IA de alto riesgo estarán sujetos a estrictas obligaciones antes de que puedan ser puestos en el mercado:

  • Sistemas adecuados de evaluación y mitigación de riesgos.
  • Alta calidad de los conjuntos de datos que alimentan el sistema para minimizar riesgos y resultados discriminatorios.
  • Registro de la actividad para garantizar la trazabilidad de los resultados.
  • Documentación detallada que proporcione toda la información necesaria sobre el sistema y su propósito para que las autoridades evalúen su cumplimiento.
  • Información clara y adecuada para el usuario.
  • Medidas apropiadas de supervisión humana para minimizar el riesgo.
  • Alto nivel de robustez, seguridad y precisión.

Todos los sistemas de identificación biométrica remota se consideran de alto riesgo y están sujetos a requisitos estrictos. El uso de la identificación biométrica remota en espacios de acceso público con fines de aplicación de la ley está, en principio, prohibido.

Se definen y regulan estrictamente excepciones limitadas, como cuando sea necesario buscar a un niño desaparecido, prevenir una amenaza terrorista específica e inminente o detectar, localizar, identificar o procesar a un autor o sospechoso de un delito grave.

Dicho uso está sujeto a autorización por parte de un órgano judicial u otro organismo independiente y a límites adecuados en cuanto a tiempo, alcance geográfico y bases de datos consultadas.

Riesgo limitado

El riesgo limitado se refiere a los sistemas de IA con obligaciones específicas de transparencia. Cuando se utilizan sistemas de IA como chatbots, los usuarios deben estar conscientes de que están interactuando con una máquina para que puedan tomar una decisión informada sobre si continúan o retroceden.

Riesgo mínimo o nulo

La propuesta permite el uso gratuito de la IA de riesgo mínimo. Esto incluye aplicaciones como videojuegos habilitados para la IA o filtros de correo no deseado. La gran mayoría de los sistemas de IA actualmente utilizados en la Unión Europea entran en esta categoría.

¿Quién está ganando la carrera de la IA generativa?

Feldstein, Michael. «Who Is Winning the Generative AI Race? Nobody (Yet).» e-Literate, 31 de agosto de 2023. Ver completo: https://eliterate.us/who-is-winning-the-generative-ai-race-nobody-yet/.

OpenAI y ChatGPT establecieron muchas suposiciones y expectativas sobre la inteligencia artificial generativa, comenzando con la idea de que estos modelos deben ser enormes y costosos. Lo que, a su vez, significa que solo unas pocas grandes empresas tecnológicas pueden permitirse jugar.

En este momento, hay cinco gigantes ampliamente conocidos. (Bueno, en realidad, seis, pero llegaremos al contendiente sorpresa en un momento). ChatGPT de OpenAI y Claude de Anthropic son creaciones de empresas emergentes. OpenAI inició la locura de la inteligencia artificial generativa mostrando al mundo cuánto puede lograr cualquiera que pueda escribir en inglés con ChatGPT. Anthropic ha apostado por la «IA ética» con más protecciones contra resultados dañinos y algunas características diferenciadoras que son importantes para ciertas aplicaciones, pero de las que no voy a hablar aquí.

Luego están los tres grandes gigantes de hospedaje de SaaS (Software como Servicio). Microsoft ha estado muy ligado a OpenAI, de la cual posee una participación del 49%. Google, que ha sido un líder pionero en tecnologías de inteligencia artificial pero ha tenido problemas con sus plataformas y productos (como de costumbre), hasta hace poco se centraba en promocionar varios de sus propios modelos. Amazon, que se ha quedado atrás, tiene su propio modelo de inteligencia artificial generativa llamado Titan que casi nadie ha visto aún. Pero Amazon parece estar entrando en la carrera con una estrategia que enfatiza el hospedaje de un ecosistema de plataformas, incluyendo Anthropic y otras.

Hablemos un poco más sobre ese tema del ecosistema. Hace un tiempo, se filtró un documento interno de Google titulado «No tenemos un foso, y OpenAI tampoco». Este argumentaba que la innovación estaba ocurriendo tan rápidamente en la inteligencia artificial generativa de código abierto que los tesoros y tecnologías patentadas de estas grandes empresas no les darían ventaja sobre la rápida innovación de una gran comunidad de código abierto.

En primer lugar, resulta que las grandes empresas con mucho dinero y poder informático decidieron depender de estrategias que requerían mucho dinero y poder informático. No dedicaron mucho tiempo a pensar en cómo hacer que sus modelos fueran más pequeños y eficientes. Los equipos de código abierto con presupuestos mucho más limitados demostraron rápidamente que podían lograr grandes avances en eficiencia algorítmica. La barrera de entrada para construir un mejor modelo de lenguaje generativo, el dinero, está disminuyendo rápidamente.

Como complemento de esta primera estrategia, algunos equipos de código abierto trabajaron especialmente duro para mejorar la calidad de los datos, lo que requiere más trabajo humano duro y menos fuerza bruta informática. Resulta que el viejo adagio es cierto: lo que entra, sale. Incluso sistemas más pequeños entrenados en datos más cuidadosamente curados tienen menos probabilidades de alucinar y más probabilidades de ofrecer respuestas de alta calidad.

Y en tercer lugar, resulta que no siempre necesitamos modelos gigantes de propósito general. Escribir código de software es un buen ejemplo de una tarea de inteligencia artificial generativa especializada que se puede realizar de manera efectiva con un modelo mucho más pequeño y económico utilizando las técnicas descritas anteriormente.

El memorando interno de Google concluyó argumentando que «OpenAI no importa», mientras que la cooperación con el código abierto es vital.

Implicaciones de las políticas de IA para las bibliotecas

Lo, L. S. AI policies across the globe: Implications and recommendations for libraries. IFLA Journal, 2023. https://doi.org/10.1177/03400352231196172


Este artículo examina las políticas propuestas de inteligencia artificial de los Estados Unidos, el Reino Unido, la Unión Europea, Canadá y China, y sus implicaciones para las bibliotecas. A medida que la inteligencia artificial revoluciona las operaciones bibliotecarias, presenta desafíos complejos, como dilemas éticos, preocupaciones sobre la privacidad de los datos y cuestiones de acceso equitativo. El artículo destaca temas clave en estas políticas, incluyendo ética, transparencia, el equilibrio entre innovación y regulación, y privacidad de los datos. También identifica áreas de mejora, como la necesidad de pautas específicas para mitigar sesgos en los sistemas de inteligencia artificial y abordar problemas de privacidad de datos. El artículo además ofrece recomendaciones prácticas para que las bibliotecas se involucren con estas políticas y desarrollen mejores prácticas para el uso de la inteligencia artificial. El estudio subraya la necesidad de que las bibliotecas no solo se adapten a estas políticas, sino que también participen activamente en ellas, contribuyendo al desarrollo de una gobernanza de inteligencia artificial más completa y efectiva.

Introducción

«Blueprint for an AI bill of rights» de los Estados Unidos (Oficina de Política de Ciencia y Tecnología, 2022), el «Enfoque proinnovación para la regulación de la IA» del Reino Unido (Secretario de Estado de Ciencia, Innovación y Tecnología, 2023), la Ley de IA de la Unión Europea (Comisión Europea, 2021), la Ley de Inteligencia Artificial y Datos de Canadá (Gobierno de Canadá, 2023) y las «Medidas para la gestión de servicios de inteligencia artificial generativa» de China (Webster, 2023) representan un paso significativo hacia la dirección de abordar las implicaciones éticas de la IA y garantizar un acceso equitativo a las oportunidades. Estas políticas destacan temas clave, como ética, transparencia, el equilibrio entre innovación y regulación, privacidad de datos y la naturaleza del panorama regulatorio. Sin embargo, también revelan áreas de crítica que deben ser abordadas, incluyendo la necesidad de pautas específicas para mitigar los sesgos en los sistemas de IA, abordar problemas de privacidad de datos y determinar el nivel de riesgo asociado con un sistema de IA particular.

Ética y transparencia

«Blueprint» de los Estados Unidos y la Ley de Inteligencia Artificial y Datos de Canadá destacan estos principios, alineándose con los valores fundamentales de las bibliotecas. Las bibliotecas, como guardianes de la información y defensoras de la libertad intelectual, tienen la responsabilidad de asegurarse de que las tecnologías de IA que utilizan sean éticas y transparentes. Sin embargo, la falta de pautas específicas sobre cómo poner en práctica estos principios podría dar lugar a inconsistencias en el uso y la regulación de la IA en diferentes bibliotecas.

De manera similar, la Ley de Inteligencia Artificial y Datos de Canadá pone un fuerte énfasis en la protección de la información personal y promueve la transparencia en el uso de la IA y los datos. Sin embargo, no proporciona una orientación específica sobre cómo las bibliotecas deben abordar los desafíos éticos asociados con el uso de la IA y los datos. Esto podría dar lugar a inconsistencias en cómo se utiliza y regula la IA en diferentes bibliotecas.

En contraste, el Reglamento de la Unión Europea sobre la IA y las «Medidas» de China adoptan un enfoque más integral para la regulación de la IA, que cubre una amplia gama de aplicaciones de la IA y enfatiza la participación de instituciones académicas e investigativas en el desarrollo y uso de la IA. Estas políticas podrían proporcionar un sólido marco regulatorio para que las bibliotecas lo sigan, pero la complejidad de estos actos también podría plantear desafíos para las bibliotecas, especialmente en la implementación de sus disposiciones sobre ética y transparencia.

Innovación frente a regulación

El equilibrio entre fomentar la innovación en la IA y garantizar una regulación adecuada es otro tema clave en las políticas de IA de los Estados Unidos, el Reino Unido, la Unión Europea, Canadá y China. La política del Reino Unido tiende a promover la innovación en la IA, reconociendo el potencial transformador de estas tecnologías. Esto podría ayudar a las bibliotecas a aprovechar la IA para mejorar sus servicios y operaciones. Sin embargo, un «enfoque proinnovación» podría potencialmente llevar a un entorno regulatorio laxo que no proteja adecuadamente a los usuarios de la biblioteca de los riesgos de la IA.

Por otro lado, el Reglamento de la Unión Europea sobre la IA y las «Medidas» de China adoptan un enfoque integral para la regulación de la IA, que abarca una amplia gama de aplicaciones de la IA. Esto podría proporcionar un sólido marco regulatorio para que las bibliotecas lo sigan, pero la complejidad de estos actos también podría plantear desafíos para las bibliotecas, especialmente en la implementación de su enfoque basado en el riesgo para la regulación de la IA.

«Blueprint» de los Estados Unidos y la Ley de Inteligencia Artificial y Datos de Canadá, aunque reconocen la importancia de la innovación en la IA, también enfatizan la necesidad de una regulación adecuada para garantizar el uso ético de la IA y proteger los derechos de los usuarios. Sin embargo, el panorama regulatorio fragmentado en los Estados Unidos y el enfoque estrecho en la privacidad de los datos en la Ley de Canadá podrían dar lugar a inconsistencias en cómo se utiliza y regula la IA en diferentes bibliotecas.

Privacidad de datos

La privacidad de los datos es un enfoque importante de la Ley de Inteligencia Artificial y Datos de Canadá y las «Medidas» de China, lo que refleja la creciente importancia de este tema en la era de la IA y los grandes datos. Este énfasis en la privacidad de los datos es crucial para las bibliotecas, que manejan una gran cantidad de datos sensibles de los usuarios. Sin embargo, la Ley de Inteligencia Artificial y Datos y las «Medidas» no proporcionan orientación específica sobre otros temas importantes relacionados con el uso de la IA en las bibliotecas, como garantizar la equidad y evitar sesgos en los sistemas de IA.

«Blueprint» de los Estados Unidos, aunque reconoce la importancia de la privacidad de los datos, no ofrece una guía clara sobre cómo las bibliotecas deben abordar los desafíos de privacidad de datos asociados con el uso de la IA.

El uso de servicios de terceros, como capas de descubrimiento mejoradas, plantea una preocupación para los bibliotecarios que buscan mantener los principios de la libertad intelectual. Estos sistemas a menudo recopilan datos, a veces identificables personalmente, de los usuarios. Esto a menudo se ve como una parte necesaria para mejorar continuamente un sistema, al proporcionar retroalimentación a través de datos sobre el comportamiento del usuario al navegar para mejorar aún más el sistema.

Regulación fragmentada frente a centralizada

El panorama regulatorio para la IA varía significativamente en los Estados Unidos, el Reino Unido, la Unión Europea, Canadá y China, con algunos países favoreciendo un enfoque más fragmentado y otros optando por una regulación centralizada. Esta distinción tiene importantes implicaciones para las bibliotecas, que deben navegar por estos diversos paisajes regulatorios en su uso de la IA.

Recomendaciones prácticas para las bibliotecas

A medida que las bibliotecas navegan por el complejo panorama de la IA, es crucial que no solo se adapten a las políticas existentes, sino que también participen activamente en ellas y desarrollen mejores prácticas para el uso de la IA. Aquí tienes algunas recomendaciones prácticas para las bibliotecas:

  1. Establecer un comité de ética de la IA: las bibliotecas podrían establecer un comité de ética de la IA que incluya bibliotecarios, personal de tecnología de la información y otros interesados relevantes. Este comité sería responsable de revisar el uso de la IA en la biblioteca, garantizar el cumplimiento de las políticas pertinentes y abordar cualquier problema ético que surja.
  2. Abogar por políticas inclusivas: las bibliotecas deben abogar por políticas de IA que aborden completamente sus necesidades y desafíos. Esto podría implicar participar en consultas públicas sobre políticas de IA, presentar documentos de posición o asociarse con asociaciones de bibliotecas para hacer lobby en favor de políticas inclusivas y equitativas.
  3. Desarrollar mejores prácticas para el uso de la IA: las bibliotecas deben desarrollar mejores prácticas para el uso de la IA que estén en línea con su misión y valores. Estas mejores prácticas podrían abordar una serie de problemas, desde la privacidad de datos y la transparencia hasta el consentimiento del usuario y la mitigación de sesgos en los sistemas de IA.
  4. Proporcionar educación y capacitación en alfabetización de la IA: las bibliotecas deben ofrecer educación y capacitación en ALFIN de la IA para su personal y usuarios. Esto podría incluir capacitación sobre el uso ético de la IA, la privacidad de datos y cómo cumplir con las políticas relevantes.

Conclusión

La evolución de la IA es un proceso continuo y, paralelamente, las políticas y prácticas de las bibliotecas también deben progresar. Al comprometerse críticamente con estas políticas y contribuir a la evolución de una gobernanza de IA más completa y efectiva, las bibliotecas pueden aprovechar plenamente el potencial de la IA, al tiempo que abordan los desafíos complejos que plantea. Este enfoque proactivo asegurará que las bibliotecas persistan como espacios de confianza, inclusivos para el aprendizaje, el descubrimiento y la participación comunitaria en la era de la IA.

Las recomendaciones prácticas presentadas en este artículo sirven como una guía inicial para que las bibliotecas se involucren con estas políticas y formulen sus propias mejores prácticas para el uso de la IA. Al establecer un comité de ética de la IA, abogar por políticas inclusivas, desarrollar mejores prácticas, proporcionar educación y capacitación en ALFIN de la IA y fomentar la participación en la comunidad bibliotecaria, las bibliotecas pueden navegar eficazmente por el complejo panorama de la IA y contribuir a un futuro de IA más equitativo e inclusivo.

ChatGPT y la inteligencia artificial aumentan la apuesta por la alfabetización mediática

Prothero, Arianna. «ChatGPT and AI Are Raising the Stakes for Media Literacy». Education Week, 18 de abril de 2023, sec. Teaching & Learning, Curriculum. https://www.edweek.org/teaching-learning/chatgpt-and-ai-are-raising-the-stakes-for-media-literacy/2023/04.

El lanzamiento de ChatGPT en noviembre suscitó una gran preocupación sobre cómo podrían utilizarlo los estudiantes para hacer trampa en todo tipo de tareas.

Pero esa preocupación, aunque lógica, ha eclipsado otras cuestiones importantes que los educadores deberían plantearse sobre la inteligencia artificial, como por ejemplo cómo afectará a sus trabajos y a sus alumnos, afirma Daniel Vargas Campos, director de programas curriculares de Common Sense Media, una organización de investigación sin ánimo de lucro que desarrolla programas curriculares y revisa medios digitales.

Una gran pregunta: ¿Cómo cambiará la inteligencia artificial la enseñanza de las habilidades de alfabetización mediática que ayudan a los estudiantes a determinar la intención y la exactitud de los medios que consumen?

¿De qué manera cree que la IA puede cambiar la alfabetización mediática?

Tiene varias facetas. Nos preocupa que, con el auge de la inteligencia artificial, la desinformación vaya a proliferar mucho más en los espacios en línea. Esa es una capa. Otro aspecto, del que se habla menos, es que incluso el auge de la inteligencia artificial ya está poniendo en tela de juicio nuestra concepción de la alfabetización mediática antes incluso de que veamos ejemplos de uso explícito de la inteligencia artificial con fines de desinformación.

Hubo un término que la Organización Mundial de la Salud inventó hace como dos años en medio de la pandemia, la «infodemia». Hay demasiada información ahí fuera, y eso hace difícil distinguir lo que es real de lo que es falso. Eso es lo que está ocurriendo ahora mismo con la inteligencia artificial. El verdadero reto es que, incluso hablando de los posibles efectos negativos que la inteligencia artificial puede tener en el campo de la desinformación, estamos creando un entorno en el que a la gente le resulta más difícil confiar en lo que ve en Internet.

Por poner un ejemplo: Hace unas semanas se hizo viral un vídeo de un espectáculo de travestis en el que aparecían bebés. Intentaba avivar las emociones, como «Oh, eso no debería estar permitido». Pero lo interesante es que la respuesta de la gente fue inmediatamente: «Oh, esto es una profunda falsificación». Resulta que el vídeo era real, era sólo un ejemplo del tipo más común de desinformación, que es información real sacada de contexto.

Ahora bien, el problema es que cuando lo etiquetamos automáticamente como «deep fake», no damos ese paso adicional de poner en práctica nuestras habilidades de alfabetización mediática. Nos saltamos el pensamiento crítico necesario para considerar realmente cuáles son las repercusiones. ¿Qué pretende esta información?

¿Cómo deben cambiar su enfoque los educadores?

Hace falta un cambio. Y este cambio no se debe necesariamente a la IA, sino a que el patrón de búsqueda de información de los jóvenes es diferente. En lo que respecta a la alfabetización mediática, tenemos que actualizar nuestro enfoque para adaptarlo a las experiencias reales de los alumnos antes incluso de sumergirnos en la IA. Tenemos que entender que la mayoría de los niños obtienen sus noticias de las redes sociales y que muchos de los comportamientos y hábitos de búsqueda de información que desarrollan forman parte de una comunidad en línea.

Ahora, cuando se trata de inteligencia artificial, una gran parte de esta conversación es hablar con los jóvenes sobre este tema, pero realmente desde la perspectiva de lo que les preocupa. Porque la IA ya está teniendo muchos impactos negativos en la vida de los niños.

Así que esta es una pregunta sobre cómo actualizar la alfabetización mediática para los próximos cinco, diez años. Y parte de ello es la integración o la adición de estas conversaciones en torno a la alfabetización AI en la forma en que hablamos de la alfabetización mediática.

¿Observa una desconexión entre adultos y niños en lo que respecta a sus mayores preocupaciones sobre la IA?

Especialmente en educación, pasamos directamente a: «Los niños van a usar esto para escribir redacciones, y va a ser plagio». Y nos adelantamos a este caso de uso único. Creo que hay una desconexión porque los niños están participando con este tipo de IA en todo tipo de ámbitos diferentes de su vida digital.

[Por ejemplo, el sitio de redes sociales Discord tiene una IA de resumen. Así que, si estás en un foro en línea, seguir la conversación puede ser muy difícil, especialmente si hay miles de personas comentando algo. Ahora hay una IA que se utiliza para resumir la conversación.

Se trata de cuestiones más profundas que no tienen tanto que ver con el plagio, sino más bien con tu vida social, tu comunidad, ¿cómo puedes identificar los prejuicios? ¿Cómo puedes saber si el texto que se utiliza para compartir información te ofrece una representación exacta de lo que está ocurriendo?

Un gran componente de esto, sólo un consejo general para los profesores, es ¿cómo podemos crear conexiones más significativas entre la alfabetización mediática y el aprendizaje socio-emocional? Es un ámbito que está poco desarrollado. El aprendizaje socioemocional tiene que ver con la autoconciencia, la conciencia social.

La Asociación de Bibliotecas de Investigación (ARL) emite una carta en contra de las peticiones de nuevas restricciones a los derechos de autor en respuesta a la reciente aparición de la inteligencia artificial generativa (IA).

Association of Research Libraries. «ARL, Coalition Partners to Congress: Do Not Restrict the Promise of Generative AI». Accedido 19 de septiembre de 2023. https://www.arl.org/news/arl-coalition-partners-to-congress-do-not-restrict-the-promise-of-generative-ai/.

La Asociación de Bibliotecas de Investigación (ARL) se ha unido hoy a bibliotecas, organizaciones de la sociedad civil y expertos jurídicos y académicos en una carta en la que expresan su preocupación al Congreso por las peticiones de nuevas restricciones a los derechos de autor en respuesta a la reciente aparición de la inteligencia artificial generativa (IA).

La IA generativa tiene el potencial de cumplir la promesa constitucional de la ley de derechos de autor, acelerando el progreso de la ciencia y las artes útiles. Al mismo tiempo, se pide que se modifique la Ley de Propiedad Intelectual de EE.UU. para exigir la autorización de los titulares de los derechos de acceso a los materiales para entrenar los modelos de IA. Este régimen basado en permisos ampliaría el alcance del monopolio tradicional de los derechos de autor; socavaría la competencia en el mercado de la IA al imponer cargas financieras y logísticas que las nuevas empresas o aplicaciones no podrían soportar; y restringiría el potencial de los creadores para utilizar la IA en el desarrollo de nuevas obras de ficción, videojuegos, software, etc.

En su estado actual, la legislación estadounidense sobre derechos de autor es lo suficientemente amplia y flexible como para dar cabida a las nuevas tecnologías y responder a las preocupaciones legítimas de los creadores. Los tribunales deben decidir si una aplicación de IA generativa es o no un uso justo, ya que es el foro adecuado para aplicar las doctrinas de derechos de autor a los patrones de hechos específicos que surgirán del uso de la IA en los próximos años.

Muchas de las cuestiones que plantea la IA generativa quedan fuera del ámbito de la legislación sobre derechos de autor. Por ejemplo, el problema muy real de utilizar la IA para crear deepfakes o desinformación política puede abordarse a través de la legislación existente sobre derecho de publicidad y marcas.

La American Library Association (ALA), Authors Alliance, Chamber of Progress, Creative Commons, Electronic Frontier Foundation, Internet Archive, Public Knowledge, R Street Institute, TechFreedom y Tech:NYC se unieron a la carta, junto con firmantes individuales.

¿Podrían los propietarios de un software de inteligencia artificial percibir derechos de autor?

Cynthia Murrell. «Can Smart Software Get Copyright? Wrong?», Beyond Search, 15 de septiembre de 2023. https://arnoldit.com/wordpress/2023/09/15/can-smart-software-get-copyright-wrong/.

Es oficial: Solamente las personas pueden beneficiarse de los derechos de autor, no las máquinas. JD Supra nos pone al día sobre la inteligencia artificial y las pautas oficiales de derechos de autor cunado dice  “Using AI to Create a Work – Copyright Protection and Infringement” El principio básico funciona en ambas direcciones. Los creadores no pueden obtener derechos de autor sobre material generado por IA a menos que lo hayan modificado lo suficiente como para convertirlo en una obra creativa. Por otro lado, es una violación de la ley publicar contenido generado por IA que se asemeje a una obra protegida por derechos de autor. En cuanto a alimentar algoritmos con medios creados por humanos, eso todavía no está oficialmente en contra de las reglas. Aún.

Así lo expresa:

«Para obtener protección de derechos de autor para una obra que contenga material generado por IA, la obra debe tener suficiente aporte humano, como una modificación suficiente de la aportación de la IA o la selección o disposición humana del contenido de la IA. Sin embargo, la protección de derechos de autor se limitaría a las obras ‘hechos por humanos’. Las solicitudes de derechos de autor pasadas, pendientes y futuras deben identificar explícitamente el elemento humano y renunciar al contenido creado por la IA si es más que menor. Para registros existentes, puede ser necesario un registro complementario. Las obras creadas con IA están sujetas al mismo análisis de infracción de derechos de autor aplicable a cualquier obra. El problema con el uso de IA para crear obras es que las fuentes de las obras originales pueden no estar identificadas, por lo que no se puede llevar a cabo un análisis de infracción hasta que se reciba la carta de cesación y desistimiento. Ningún tribunal ha adoptado aún la teoría de que simplemente el uso de una base de datos de IA significa que la obra resultante sea automáticamente una obra derivada infractora si no es sustancialmente similar a los elementos protegibles en la obra con derechos de autor».

El artículo cita Copyright Registration Guidance: Works Containing Material Generated by Artificial Intelligence, 88 Fed. Reg. 16,190 (March 16, 2023).. Señala que estas pautas se basaron en una decisión emitida en febrero, Zarya contra Dawn, que involucró un cómic con contenido generado por IA. La Oficina de Derechos de Autor analizó minuciosamente los elementos, especificando lo siguiente:

«… La selección y disposición de las imágenes y el texto fueron el resultado de la autoría humana y, por lo tanto, son protegibles por derechos de autor, pero las imágenes generadas por IA como resultado de las indicaciones humanas no lo son. Las indicaciones ‘influyeron’, pero no ‘dictaron’, la imagen resultante, por lo que el solicitante no fue el ‘cerebro’ y, por lo tanto, no es el autor de las imágenes. Además, las ediciones realizadas por el solicitante a las imágenes fueron demasiado menores para considerarse protegibles por derechos de autor».

En cuanto a las bases de datos de entrenamiento fundamentalmente basadas en contenido protegido, el artículo señala demandas pendientes de artistas contra empresas como Stability AI, MidJourney y Deviant Art. Se nos dice que esas demandas pueden ser desestimadas por motivos técnicos, pero se nos recomienda estar atentos a casos similares en el futuro.

Cynthia Murrell, 15 de septiembre de 2023.

«Mentiras» en textos generados por Inteligencia Artificial: alucinaciones y omisiones.

Kees van Deemter «“Lying” in Computer-Generated Texts: Hallucinations and Omissions». Library Journal. Accedido 13 de septiembre de 2023. https://www.libraryjournal.com/story/academiclibraries/lying-in-computer-generated-texts-hallucinations-and-omissions-lj230901.

Existe una gran interés en torno a ChatGPT y otros grandes modelos generativos de lenguaje que producen textos fluidos y parecidos a los escritos por humanos en inglés y otros idiomas. Pero estos modelos tienen una gran desventaja, que es que sus textos pueden ser incorrectos en términos de hechos (alucinaciones) y también omitir información clave (omisiones).

Las omisiones son inevitables porque un sistema informático no puede incluir toda la información posiblemente relevante en un texto lo suficientemente corto como para ser leído realmente. En el contexto de resumir información médica para médicos, por ejemplo, el sistema informático tiene acceso a una gran cantidad de datos de pacientes, pero no sabe (y podría argumentarse que no puede saber) qué será más relevante para los médicos.

Las alucinaciones son inevitables debido a fallos en los sistemas informáticos, independientemente del tipo de sistema. Los sistemas que están programados explícitamente sufrirán errores de software (como todos los sistemas de software). Los sistemas que se entrenan con datos, como ChatGPT y otros sistemas en la tradición del Aprendizaje Profundo, «alucinan» aún más. Esto ocurre por una variedad de razones. Quizás lo más obvio es que estos sistemas se retroalimentan con de datos defectuosos (por ejemplo, cualquier sistema que aprenda de Internet estará expuesto a mucha información falsa sobre vacunas, teorías de conspiración, etc.). Y aun si un sistema orientado a los datos pudiera ser entrenado únicamente con textos legítimos que no contengan falsedades, su dependencia de métodos probabilísticos hará que combinaciones de palabras que son muy comunes en Internet también puedan ser producidas en situaciones donde resulten en información falsa.

Supongamos, por ejemplo, que en Internet, la palabra «tos» a menudo va seguida de «… y estornudos». Entonces, un paciente podría ser descrito de manera falsa por un sistema orientado a los datos como «tos y estornudos» en situaciones en las que tose sin estornudar. Problemas de este tipo son un enfoque importante para los investigadores que trabajan en modelos generativos de lenguaje. A dónde nos llevará esta investigación aún es incierto; lo mejor que se puede decir es que podemos intentar reducir el impacto de estos problemas, pero no sabemos cómo eliminarlos por completo.

Lo expuesto anteriormente se centra en problemas no intencionales pero inevitables. También existen casos en los que un sistema informático podría argumentarse que debe alucinar u omitir información. Un ejemplo evidente es la generación de material de marketing, donde se espera omitir información negativa sobre un producto. Un ejemplo más sutil, que hemos visto en nuestro propio trabajo, es cuando la información puede ser perjudicial y es de interés de los usuarios ocultarla o distorsionarla. Por ejemplo, si un sistema informático está resumiendo información sobre bebés enfermos para amigos y familiares, probablemente no debería decirle a una abuela anciana con una afección cardíaca que el bebé puede morir, ya que esto podría desencadenar un ataque al corazón.

Ahora que la precisión factual del texto generado por computadora atrae tanta atención de la sociedad en su conjunto, la comunidad de investigación está comenzando a darse cuenta más claramente que antes de que solo tenemos una comprensión limitada de lo que significa decir la verdad. En particular, no sabemos cómo medir la extensión de la (in)veracidad en un texto dado.

Para comprender lo que se quiere decir, supongamos que dos modelos de lenguaje diferentes responden a la pregunta de un usuario de dos maneras diferentes, generando dos textos de respuesta diferentes. Para comparar el rendimiento de estos sistemas, necesitaríamos una «tarjeta de puntuación» que nos permitiera puntuar objetivamente los dos textos en cuanto a su corrección factual, utilizando una variedad de criterios. Dicha tarjeta de puntuación nos permitiría registrar con qué frecuencia ocurre cada tipo de error en un texto dado y agregar el resultado en una puntuación global de veracidad para ese texto. De particular importancia sería la ponderación de los errores: los errores grandes (por ejemplo, una lectura de temperatura que está muy lejos de la temperatura real) deberían pesar más que los pequeños, los hechos clave deberían pesar más que los asuntos secundarios, y los errores que son realmente engañosos deberían pesar más que las erratas que los lectores pueden corregir por sí mismos. Básicamente, la tarjeta de puntuación funcionaría como un profesor de escuela justo que califica los trabajos de los alumnos.

Se han desarrollado protocolos para que los evaluadores humanos encuentren errores factuales en los textos generados, al igual que otros investigadores, pero aún no es posible crear una tarjeta de puntuación como se describe anteriormente porque no se puede evaluar el impacto de errores individuales.

Lo que se necesita, creemos, es una nueva línea de investigación informada lingüísticamente, que identifique todos los diferentes parámetros de «mentir» de una manera que pueda informar a las tarjetas de puntuación mencionadas anteriormente y que algún día pueda implementarse en un protocolo o algoritmo de verificación de hechos confiable. Hasta ese momento, aquellos de nosotros que intentamos evaluar la veracidad de ChatGPT estaremos avanzando a ciegas.