Las empresas de IA generativa deben publicar informes de transparencia

Arvind Narayanan & Sayash Kapoor. “Generative AI companies Must Publish Transparency Reports”.Knight First Amendment Institute at Columbia University, June 26, 2023

Ver noticia

¿Cuántas personas utilizan chatbots y generadores de texto a imagen para alguno de los muchos usos prohibidos, como generar desinformación o imágenes de abusos a menores? ¿Con qué frecuencia consiguen eludir los filtros de las herramientas? ¿Están haciendo algo las empresas para rastrear o hacer cumplir las infracciones de sus condiciones de servicio?

Al igual que las redes sociales, la gente utiliza la IA generativa para generar y consumir contenidos, y puede verse expuesta a contenidos nocivos en el proceso. Debido a la presión pública y a los requisitos normativos, se ha convertido en una práctica habitual que las empresas de redes sociales publiquen informes de transparencia detallados que cuantifiquen la difusión de contenidos nocivos en la plataforma. Creemos que las empresas de IA deberían hacer lo mismo.

En concreto, para cada categoría de contenido nocivo, los informes de transparencia deben

  • Explicar cómo se define y cómo se detecta el contenido nocivo.
  • Informar de la frecuencia con la que se ha encontrado en el periodo del informe.
  • Si es el resultado de una violación de las condiciones del servicio, describir el mecanismo de aplicación y proporcionar un análisis de su eficacia.
  • Describa las medidas de mitigación aplicadas para evitarlo (por ejemplo, filtros de seguridad) y proporcione un análisis de su eficacia.

En las redes sociales, los investigadores tienen cierta visibilidad de la difusión de contenidos nocivos, ya que gran parte de ellos son públicos. Pero con la IA generativa, estamos completamente a oscuras. Así que estas medidas de transparencia son urgentes.

Los informes de transparencia son más importantes para las aplicaciones de uso general (por ejemplo, ChatGPT) y las destinadas a ser utilizadas en entornos de alto riesgo (como la medicina, las finanzas, la abogacía o la contratación).

En el caso de la IA generativa de código abierto, la transparencia es inviable, ya que los usuarios pueden ejecutarla en sus propios dispositivos. Pero creemos que, incluso con los modelos de código abierto, la mayoría de la gente preferirá las versiones basadas en la nube a las de ejecución local, debido al hardware y los conocimientos necesarios para ejecutarlas. Esos proveedores de servicios, más que los desarrolladores de modelos de código abierto, deberían publicar informes de transparencia.

Los informes de transparencia deben cubrir los tres tipos de daños derivados de los contenidos generados por IA

En primer lugar, las herramientas de IA generativa podrían utilizarse para dañar a otros, por ejemplo creando deepfakes no consentidos o materiales de explotación sexual infantil. Los desarrolladores tienen políticas que prohíben tales usos. Por ejemplo, las políticas de OpenAI prohíben una larga lista de usos, incluido el uso de sus modelos para generar asesoramiento legal, financiero o médico no autorizado para terceros. Pero estas políticas no pueden tener un impacto en el mundo real si no se aplican, y debido a la falta de transparencia de las plataformas sobre su aplicación, no tenemos ni idea de si son eficaces. Por ejemplo, los reporteros de ProPublica descubrieron en repetidas ocasiones que Facebook no eliminaba completamente los anuncios discriminatorios de su plataforma a pesar de afirmar que lo había hecho.

En segundo lugar, los usuarios pueden confiar demasiado en la IA para obtener información objetiva, como asesoramiento jurídico, financiero o médico. A veces simplemente no son conscientes de la tendencia de los chatbots actuales a generar con frecuencia información incorrecta. Por ejemplo, un usuario puede preguntar «¿cuáles son las leyes de divorcio en mi estado?» y no saber que la respuesta no es fiable. Otra posibilidad es que el usuario se vea perjudicado por no haber sido lo suficientemente cuidadoso como para verificar la información generada, a pesar de saber que podría ser inexacta. La investigación sobre el sesgo de automatización muestra que las personas tienden a confiar demasiado en las herramientas automatizadas en muchos escenarios, a veces cometiendo más errores que cuando no utilizan la herramienta.

En tercer lugar, los contenidos generados podrían ser intrínsecamente indeseables. A diferencia de los tipos anteriores, en este caso los daños no se deben a la malicia, descuido o desconocimiento de las limitaciones por parte de los usuarios. Más bien, el contenido intrínsecamente problemático se genera aunque no se haya solicitado. Por ejemplo, la aplicación de creación de avatares de Lensa generaba imágenes sexualizadas y desnudos cuando las mujeres subían sus selfies. La difamación también es intrínsecamente perjudicial y no una cuestión de responsabilidad del usuario. No sirve de consuelo a la víctima de la difamación decir que el problema se resolvería si todos los usuarios que pudieran encontrar una afirmación falsa sobre ellos tuvieran cuidado de verificarla.

Saber qué tipos de daños afectan más significativamente a las personas reales ayudará a los investigadores a comprender qué intervenciones de mitigación de daños necesitan más desarrollo. Ayudará a los educadores a enseñar a la gente a utilizar la IA generativa de forma responsable. Y, lo que es más importante, ayudará a los reguladores y a la sociedad civil a responsabilizar a las empresas del cumplimiento de sus políticas.