Hansen, Dave. «Books Are Big AI’s Achilles Heel». Authors Alliance (blog), 13 de mayo de 2024. https://www.authorsalliance.org/2024/05/13/books-are-big-ais-achilles-heel/.
El avance rápido de la inteligencia artificial está transformando cómo trabajamos y vivimos, una revolución que nos afectará a todos. Mientras que el impacto de la IA sigue expandiéndose, la operación y los beneficios de la tecnología están cada vez más concentrados en un pequeño número de gigantescas corporaciones, incluyendo a OpenAI, Google, Meta, Amazon y Microsoft.
Desafiar este emergente oligopolio de la IA parece intimidante. Los últimos modelos de IA ahora cuestan miles de millones de dólares, más allá de los presupuestos de startups e incluso de las universidades de investigación de élite, que a menudo han generado las nuevas ideas e innovaciones que avanzan el estado de la inteligencia artificial.
Pero las universidades tienen un arma secreta que podría nivelar el campo de juego de la IA: sus bibliotecas. La potencia informática puede ser una parte importante de la IA, pero el otro ingrediente clave es los datos de entrenamiento. La inmensa escala es esencial para estos datos, pero también lo es su calidad.
Dada su voraz apetencia por el texto para alimentar sus grandes modelos de lenguaje, las principales compañías de IA han tomado todas las palabras que pueden encontrar, incluyendo de foros en línea, subtítulos de YouTube y documentos de Google. Esto no es exactamente «lo mejor que se ha pensado y dicho», para usar la frase punzante de Matthew Arnold. En la búsqueda caótica de la cantidad por parte de la Gran IA, la calidad ha quedado en un segundo plano. La frecuencia de «alucinaciones», inexactitudes actualmente endémicas en las salidas de la IA, es motivo de una preocupación aún mayor.
La manera obvia de rectificar esta falta de calidad y la tenue relación con la verdad es mediante el entrenamiento de los modelos a través de libros. Desde el advenimiento de la imprenta, los autores han publicado más de 100 millones de libros. Estos volúmenes, conservados durante generaciones en los estantes de las bibliotecas, son quizás el reflejo más sofisticado del pensamiento humano desde el principio de la historia registrada, conteniendo dentro de ellos algunas de nuestras mejores (y peores) ideas. En promedio, tienen una calidad editorial excepcional en comparación con otros textos, capturan una amplitud y diversidad de contenido, una mezcla vívida de estilos y utilizan la narrativa de larga extensión para comunicar argumentos y conceptos matizados.
Los principales proveedores de IA han buscado aprovechar esta fuente de inteligencia humana para alimentar lo artificial, aunque a menudo mediante métodos cuestionables. Algunas compañías han recurrido a un infame conjunto de miles de libros, aparentemente recuperados de sitios web piratas sin permiso, llamados «Books3». También han buscado licencias directamente de los editores, utilizando sus enormes presupuestos para comprar lo que no pueden recoger. Meta incluso consideró comprar uno de los mayores editores del mundo, Simon & Schuster.
Como piedra angular de nuestra cultura compartida y como posible base para una mejor inteligencia artificial, los libros son demasiado importantes para fluir a través de estos canales comprometidos o costosos. ¿Qué pasaría si hubiera una colección gestionada por bibliotecas disponible para una amplia gama de investigadores de IA, incluidos los de universidades, instituciones de investigación sin fines de lucro y pequeñas empresas, así como las grandes?
Tales colecciones vastas de libros digitalizados existen en la actualidad. Google, al invertir millones de dólares en su proyecto de escaneo de libros, tiene acceso a más de 40 millones de libros, un activo valioso que sin duda les gustaría mantener en exclusiva. Afortunadamente, esos libros digitalizados también son mantenidos por las bibliotecas asociadas de Google. Las bibliotecas de investigación y otras organizaciones sin fines de lucro tienen reservas adicionales de libros digitalizados derivados de sus propias operaciones de escaneo, provenientes de libros en sus propias colecciones. Juntos, representan una formidable agregación de textos.
Un conjunto de datos de entrenamiento liderado por bibliotecas de libros diversificaría y fortalecería el desarrollo de la IA. Las bibliotecas de investigación digitalizadas son más que lo suficientemente grandes y de sustancialmente mayor calidad como para ofrecer una alternativa convincente a los conjuntos de datos existentes dispersos. Estas instituciones e iniciativas ya han trabajado en muchos de los problemas de derechos de autor más desafiantes, al menos en lo que respecta a cómo se aplica el uso justo a usos de investigación sin fines de lucro como el análisis computacional. Si el uso justo también se aplica a la IA comercial, o a modelos construidos a partir de fuentes dudosas como Books3, aún está por verse.
Los textos digitales mantenidos por las bibliotecas provienen de libros adquiridos de manera legal, una inversión de miles de millones de dólares, cabe señalar, al igual que esos grandes centros de datos, y las bibliotecas tienen inherentemente un respeto por los intereses de los autores y titulares de derechos al tener en cuenta preocupaciones sobre el consentimiento, el crédito y la compensación. Además, tienen una disposición de interés público que puede tener en cuenta los desafíos sociales y éticos particulares del desarrollo de la IA. Un consorcio de bibliotecas podría distinguir entre las diferentes necesidades y responsabilidades de los investigadores académicos, los nuevos participantes en el mercado y los grandes actores comerciales.
Si no recurrimos a las bibliotecas para guiar el entrenamiento de la IA sobre el contenido profundo de los libros, veremos un refuerzo de los mismos oligopolios que dominan el sector tecnológico actual. Solo las empresas más grandes y mejor financiadas adquirirán estos valiosos textos, lo que conducirá a una mayor concentración en la industria. Otros serán impedidos de crear nuevas formas imaginativas de IA basadas en lo mejor que se ha pensado y dicho. Como siempre lo han hecho, al democratizar el acceso, las bibliotecas pueden apoyar el aprendizaje y la investigación para todos, asegurando que la IA se convierta en el producto de muchos en lugar de unos pocos