Archivo de la etiqueta: Derechos de autor

Los generadores de imágenes de Inteligencia Artificial Midjourney y DeviantArt afirman que nunca han utilizado imágenes de artistas para entrenar sus modelos de IA


«AI Image Generators Say They Never Used Artists’ Images to Train AI Models». Accedido 10 de mayo de 2024. https://www.courthousenews.com/ai-image-generators-say-they-never-used-artists-images-to-train-ai-models/.

Empresas que ofrecen software de inteligencia artificial generativa de imágenes argumentaron para desestimar una demanda por infracción directa de derechos de autor de artistas que afirman que las empresas utilizaron su trabajo sin permiso para entrenar un modelo de IA de texto a imagen.

Según la demanda colectiva de los artistas, la empresa de software de IA Midjourney y la plataforma de arte en línea DeviantArt utilizaron sus obras para entrenar la herramienta de IA de texto a imagen Stable Diffusion sin pagar a los artistas ni obtener su consentimiento para utilizar sus obras como imágenes de entrenamiento, y las imágenes resultantes siguen compitiendo con las obras de los artistas humanos en el mercado.

Los artistas demandaron por primera vez a DeviantArt, Midjourney y Stability AI, creador de Stable Diffusion, el año pasado, pero el juez superior de distrito de EE.UU. William Orrick desestimó la mayoría de las demandas de los artistas en octubre de 2023, permitiendo que sólo sobreviviera una demanda directa de derechos de autor contra Stability AI.

El juez William Orrick permitió que una única demanda de infracción directa de derechos de autor sobreviviera contra Stability AI, pero desestimó la mayoría de las otras reclamaciones de los artistas.

Los abogados de DeviantArt argumentaron que la plataforma de arte debería ser excluida de la acción porque solo utilizó Stable Diffusion para producir imágenes para su herramienta DreamUp AI y nunca utilizó directamente las imágenes de los artistas para entrenar un modelo de IA o crear imágenes que se parecieran a las de los artistas.

Los abogados de Midjourney ofrecieron una defensa similar. El juez Orrick tomó el asunto bajo consideración.

Un grupo periódicos de EE.UU. demandan a OpenAI por infracción de derechos de autor en el entrenamiento de su IA

Brittain, Blake. «US newspapers sue OpenAI for copyright infringement over AI training.» Reuters, May 1, 2024, 1:55 AM GMT+2, Accessed May 1, 2024. https://www.reuters.com/legal/us-newspapers-sue-openai-copyright-infringement-over-ai-training-2024-04-30/

Un grupo de periódicos, incluyendo el New York Daily News y el Chicago Tribune, demandaron a Microsoft (MSFT.O) y OpenAI en un tribunal federal de Nueva York el martes, acusándolos de utilizar indebidamente el trabajo de los reporteros para entrenar sus sistemas de inteligencia artificial generativa.

Los ocho periódicos, propiedad del fondo de inversión Alden Global Capital’s MediaNews Group, afirmaron en la demanda que las empresas copiaron ilegalmente millones de sus artículos para entrenar productos de inteligencia artificial, incluyendo el Copilot de Microsoft y el ChatGPT de OpenAI.

La queja sigue a demandas similares en curso contra Microsoft y OpenAI, que ha recibido miles de millones de respaldo financiero de Microsoft, presentadas por el New York Times y los medios de comunicación The Intercept, Raw Story y AlterNet.

Un portavoz de OpenAI dijo el martes que la empresa cuida mucho sus productos y el proceso de diseño para apoyar a las organizaciones de noticias. Un portavoz de Microsoft declinó hacer comentarios sobre la demanda.

Los casos de los periódicos son parte de varias posibles demandas emblemáticas presentadas por propietarios de derechos de autor contra empresas tecnológicas por los datos utilizados para entrenar sus sistemas de inteligencia artificial generativa.

Un abogado de las publicaciones de MediaNews, Steven Lieberman, dijo a Reuters que OpenAI debe su éxito arrollador al trabajo de otros. Los demandados saben que tienen que pagar por computadoras, chips y salarios de empleados, pero «creen de alguna manera que pueden salirse con la suya tomando contenido» sin permiso o pago, dijo.

La demanda dijo que los sistemas de Microsoft y OpenAI reproducen el contenido con derechos de autor de los periódicos «verbatim» cuando se les solicita. Afirmó que ChatGPT también «alucina» artículos atribuidos a los periódicos que dañan sus reputaciones, incluyendo un artículo falso del Denver Post que promocionaba fumar como una cura para el asma y una recomendación falsa del Chicago Tribune para un reposa bebés que fue retirado del mercado después de ser vinculado con la muerte de niños.

Inteligencia Artificial: alfabetización mediática e informacional, derechos humanos y libertad de expresión

Igor Shnurenko, Tatiana Murovana, Ibrahim Kushchu. Artificial Intelligence: Media and Information Literacy, Human Rights and Freedom of Expression. Unesco, 2021

Texto completo

La relación entre la alfabetización mediática e informacional (AMI) y los derechos humanos (DH), especialmente el derecho al acceso a la información, la educación y la libertad de expresión (LE), es innegablemente sólida. La AMI, respaldada por el derecho a la educación, es un requisito esencial para que los ciudadanos puedan acceder, comprender, analizar, crear y expresar contenido mediático, así como para poder mejorar la realización de sus derechos humanos relevantes. Por lo tanto, la AMI estaría incompleta sin la perspectiva de los derechos humanos.

Las herramientas y plataformas digitales han llevado a la AMI más allá de ser unidimensional para convertirse en interactiva y dinámica. Varios medios (digitales), ciudadanos, productores de contenido, reguladores (es decir, gobiernos) y otros actores ahora operan en un ecosistema dinámico de AMI, que está en constante cambio y evolución. Sin lugar a dudas, en los últimos años, la inteligencia artificial (IA) con sus tecnologías de apoyo, como la nube, el big data, Internet de las cosas (IoT) y la conectividad (móvil), están teniendo una influencia disruptiva en este ecosistema. El éxito de los esfuerzos de AMI depende principalmente del éxito en comprender la IA y su adopción.

El libro, para cumplir con este propósito, presenta una exploración de las relaciones dinámicas entre la IA y las tecnologías emergentes relevantes, la AMI, los derechos humanos y la libertad de expresión.

La primera parte del libro establece la base técnica para la IA y las tecnologías emergentes relevantes en relación con la AMI y los derechos humanos. Primero, se presenta la fortaleza de la IA derivada de nuevas tecnologías como el big data, el IoT y todas las formas de conectividad. De esta manera, se establece el poder y los límites de dicho poder en relación con las tres áreas mencionadas de la AMI. Aunque la mayoría de las técnicas de IA no han avanzado drásticamente desde su nacimiento, los desarrollos significativos en tecnologías emergentes relevantes están revolucionando los sistemas de IA. Sin embargo, esta revolución está limitada a la IA estrecha, donde se resuelven problemas específicos de dominio delimitado de manera competente. Aún así, la IA desempeña un papel disruptivo en la ampliación y el aumento de las capacidades de los ciudadanos y otros actores del ecosistema de AMI. Independientemente de quién sea el actor o el interesado, la AMI pasiva, activa e influyente se mejoran mediante el uso de IA en diversas plataformas y entornos digitales y mediáticos.

La segunda parte del libro es una discusión que explora cómo la IA puede contribuir o dificultar el desarrollo de competencias de AMI. Esta parte comienza presentando una breve descripción de las opiniones, esfuerzos y posición de la UNESCO sobre la AMI.

El proyecto de ley No AI FRAUD: sin Fraudes, Sin Falsificaciones… ¿Sin Uso Justo?

No Frauds, No Fakes…No Fair Use? Katherine Klosek, March 1, 2024. Accessed March 2, 2024. https://www.arl.org/blog/nofraudsnofakes/.

Katherine Klosek discute el potencial de la inteligencia artificial en instituciones de memoria, señalando su utilidad en la síntesis de descripciones de libros y la corrección de errores en las atribuciones de contribuciones. Sin embargo, destaca la preocupación del Congreso por los deepfakes y la legislación propuesta para prevenir su uso fraudulento, argumentando que cualquier legislación debe equilibrar la protección contra el fraude con la preservación de la libertad de expresión, utilizando las excepciones en la Ley de Derechos de Autor como modelo

La inteligencia artificial tiene el potencial de servir como una poderosa herramienta para bibliotecas y otras instituciones de memoria. Durante una reciente audiencia del Comité de Reglas del Senado de los Estados Unidos, la Bibliotecaria del Congreso Carla Hayden describió cómo la Biblioteca del Congreso está experimentando con modelos de aprendizaje automático para sintetizar descripciones de libros para comunidades ciegas, con discapacidad visual y con dificultades de lectura. Meroe Park, secretaria adjunta y directora de operaciones del Instituto Smithsonian, habló sobre el trabajo del Laboratorio de Ciencia de Datos del Smithsonian para desarrollar un nuevo modelo de IA que pueda descubrir y corregir instancias en sus colecciones en las que las contribuciones de las mujeres fueron erróneamente atribuidas a hombres. Las bibliotecas universitarias también apoyan metodologías de investigación no generativas como la minería de texto y datos para analizar mejor las obras creativas de mujeres, minorías de género y artistas de color para explorar preguntas importantes sobre la cultura y la sociedad. Esta tecnología ofrece oportunidades innumerables para avanzar en la investigación y preservar el patrimonio cultural.

Aunque la promesa de la IA es evidente, el Congreso se centra en sus posibles perjuicios, presentando legislación para prevenir el uso fraudulento del nombre, imagen o semejanza de una persona para crear deepfakes. Desafortunadamente, algunas propuestas legislativas actuales podrían limitar la libertad de expresión en el proceso. Este artículo discute por qué cualquier legislación dirigida a los deepfakes debe incluir disposiciones que permitan la libre expresión. Las excepciones contenidas en la Ley de Derechos de Autor ofrecen un modelo útil para tales disposiciones.

El uso justo es una salvaguardia de la Primera Enmienda.

El uso justo es una acomodación de la Primera Enmienda que está integrada en la ley de derechos de autor, permitiendo al público usar obras expresivas sin permiso del titular de los derechos de autor. Sin el uso justo, los derechos exclusivos de reproducir, realizar, transmitir, distribuir, exhibir y crear obras derivadas consolidarían un monopolio de derechos de autor en el que los titulares de derechos de autor son los únicos que pueden usar obras expresivas a menos que otorguen permiso para hacerlo. Como escribió Public Knowledge después de una audiencia reciente sobre IA y derecho a la publicidad:

Los regímenes de propiedad intelectual son ellos mismos una forma de regulación de la expresión. Al otorgar un monopolio sobre un tipo específico de expresión, en este caso, la expresión que utiliza la semejanza audiovisual de un individuo, un derecho de publicidad prohíbe a todas las demás personas participar en ese subconjunto particular de expresión. Esto significa, para bien o para mal, que cualquier régimen de PI debe contener excepciones y limitaciones significativas para acomodar la Primera Enmienda. El derecho de autor es constitucionalmente sólido solo debido a una doctrina de uso justo robusta y flexible; cualquier derecho de publicidad federal tendría que permitir de manera similar una amplia gama de expresión.

Las recientes propuestas para regular el uso de una semejanza generada por IA crearían un nuevo régimen de PI amplio, pero sin las acomodaciones necesarias para la libertad de expresión como las excepciones y limitaciones robustas, explícitas y flexibles en la Ley de Derechos de Autor de EE. UU.

Se necesitan excepciones sólidas en la legislación sobre derechos de publicidad.

La Ley de Replicas y Duplicaciones No Autorizadas de Inteligencia Artificial Falsa, o la Ley No AI FRAUD (H.R. 6943), crearía un derecho de propiedad intelectual federal que sobreviviría al individuo cuya semejanza digital y voz estén protegidas. Cualquier persona que publique, realice, distribuya, transmita o de cualquier otra manera ponga a disposición del público una réplica de voz digital, una representación digital o un servicio de clonación personalizado, con el conocimiento de que no fue autorizado por el titular de los derechos, estaría infringiendo la ley. El proyecto de ley efectivamente permite a los titulares de derechos controlar una amplia cantidad de contenido digital sin ninguna válvula de seguridad que permita el ejercicio de la libre expresión, como una excepción para fines de investigación o académicos.

El proyecto de ley No AI FRAUD intenta sortear su problema de libre expresión con una cláusula que establece que la Primera Enmienda sirve como defensa. Pero el proyecto de ley limita inmediatamente la defensa de la Primera Enmienda al requerir que los tribunales equilibren «el interés público en el acceso al uso» contra «el interés de propiedad intelectual en la voz o semejanza». Como señala Jennifer Rothman, esta prueba es probablemente inconstitucionalmente vaga.

La Ley Nurture Originals, Foster Art, and Keep Entertainment Safe Act of 2023, or the NO FAKES Act of 2023, en el Senado, crea de manera similar responsabilidad para los usuarios de réplicas digitales. NO FAKES excluye explícitamente las réplicas digitales que se utilizan en documentales o docudramas, o con fines de comentario, crítica, investigación, sátira o parodia, de violar la ley. Este enfoque prescriptivo ofrece certeza sobre los usos enumerados, pero sin la flexibilidad que requiere un análisis de uso justo.

La flexibilidad y especificidad del uso justo apoyan el progreso del conocimiento.

Las excepciones en la Ley de Derechos de Autor proporcionan a los usuarios tanto certeza como flexibilidad. Por un lado, las excepciones establecidas en las Secciones 108-121A describen una variedad de circunstancias específicas en las que una obra puede ser utilizada sin autorización del titular de los derechos de autor. Al mismo tiempo, el uso justo en la Sección 107 permite usos de acuerdo con una evaluación dinámica de factores, incluido si un nuevo uso agrega algo al propósito o carácter de una obra. Décadas de litigios sobre uso justo han aclarado usos adicionales; por ejemplo, aunque la parodia no está mencionada en la Ley de Derechos de Autor, los tribunales establecieron que la parodia puede calificar como uso justo en el caso Campbell v. Acuff Rose Music. La naturaleza flexible

OpenAI no se entrenará con datos del New York Times tras la demanda interpuesta por el periódico a ChatGPT

News, B. (2024, enero 16). OpenAI Doesn’t Want to Train on New York Times Data After Lawsuit, Altman Says—BNN Bloomberg. BNN. https://www.bnnbloomberg.ca/openai-doesn-t-want-to-train-on-new-york-times-data-after-lawsuit-altman-says-1.2022691

Sam Altman, CEO de OpenAI, ha declarado que la inteligencia artificial no necesita grandes cantidades de datos de entrenamiento de editoriales como The New York Times, en respuesta a las acusaciones de que su startup está utilizando material con derechos de autor. Altman señaló que la creencia de que se requieren todos los datos de entrenamiento y que estos son muy valiosos no es generalmente cierta, y afirmó que no desean entrenar con los datos del New York Times.

OpenAI está en medio de una importante iniciativa para asegurar acceso a contenidos de noticias después de ser demandada por el Times y Microsoft, su mayor inversor, por supuestamente causar miles de millones de dólares en daños por violación de derechos de autor. Las asociaciones con editoriales son cruciales para el futuro de OpenAI, ya que equilibra la necesidad de datos precisos y oportunos con la atención pública sobre la procedencia de esos datos.

La compañía está en conversaciones con varios editores, incluyendo CNN, Fox Corp. y Time, para obtener licencias de contenido noticioso. Altman destacó que su objetivo es proporcionar información de diferentes fuentes cuando los usuarios lo soliciten y mencionó que algunos editores desean asociarse con ellos, mientras que otros no.

Antes de la demanda, OpenAI y el Times estuvieron en contacto desde abril para negociar una licencia, pero no lograron llegar a un acuerdo. La empresa también enfrenta demandas colectivas de escritores, como Sarah Silverman, George R.R. Martin y Michael Chabon.

A pesar de las tensiones con algunos editores, OpenAI ha alcanzado acuerdos con la Associated Press para acceder a sus archivos y firmó un acuerdo de tres años en diciembre con Axel Springer SE para utilizar el contenido de la compañía mediática alemana por una suma no revelada.

Altman concluyó que gran parte de la investigación de OpenAI se centra en aprender más a partir de cantidades más pequeñas de datos de alta calidad.

El New York Times demanda a OpenAI y Microsoft por infracción de derechos de autor

Grynbaum, M. M., & Mac, R. (2023, diciembre 27). The Times Sues OpenAI and Microsoft Over A.I. Use of Copyrighted Work. The New York Times. https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html

La demanda es la última de una serie de demandas que buscan limitar el uso del presunto «scraping» de amplios fragmentos de contenido de internet, sin compensación, para entrenar a los llamados modelos grandes de inteligencia artificial de lenguaje. Actores, escritores, periodistas y otros creadores que publican sus trabajos en internet temen que la IA aprenda de su material y proporcione chatbots competitivos y otras fuentes de información sin una compensación adecuada.


El periódico The New York Times ha presentado una demanda contra OpenAI y Microsoft, acusándolos de infringir derechos de autor. La queja sostiene que las compañías utilizaron millones de artículos del Times sin permiso para entrenar modelos de inteligencia artificial de lenguaje, como ChatGPT, creando así una competencia directa para el Times. Esta demanda se suma a una serie de acciones legales que buscan limitar el uso del supuesto «scraping» de contenido de internet sin compensación para entrenar modelos de inteligencia artificial de lenguaje. Aunque las negociaciones para una compensación justa estuvieron en marcha desde abril, el Times afirma que no se ha llegado a una resolución con las compañías. La demanda busca daños por miles de millones de dólares y una orden permanente contra la presunta infracción, lo que podría sentar un precedente para la industria. Otras empresas de medios, como Disney, CNN y el propio Times, han bloqueado el acceso a ChatGPT. Este conflicto destaca los desafíos continuos en torno al uso de material con derechos de autor para entrenar modelos de inteligencia artificial.

Sin embargo, la demanda del Times es la primera entre los principales editores de noticias que se enfrenta a OpenAI y Microsoft, las marcas de IA más reconocidas. Microsoft (MSFT) tiene un asiento en la junta directiva de OpenAI y una inversión multimillonaria en la compañía.

En una queja presentada el miércoles, el Times dijo que tiene el deber de informar a sus suscriptores, pero el «uso ilegal del trabajo del Times por parte de Microsoft y OpenAI para crear productos de inteligencia artificial que compiten con él amenaza la capacidad del Times para proporcionar ese servicio». El periódico señaló que OpenAI y Microsoft utilizaron otras fuentes en su «copia a gran escala», pero «dieron énfasis particular al contenido del Times» buscando «montarse en la inversión masiva del Times en su periodismo al utilizarlo para construir productos sustitutivos sin permiso ni pago».

En su queja, el Times dijo que objetó cuando descubrió meses atrás que su trabajo se había utilizado para entrenar los modelos de lenguaje grandes de las compañías. A partir de abril, el Times dijo que comenzó a negociar con OpenAI y Microsoft para recibir una compensación justa y establecer los términos de un acuerdo.

Escritores demandan a OpenAI y Microsoft por supuesto uso no autorizado de libros en inteligencia artificial

Brittain, Blake, y Blake Brittain. 2023. «Pulitzer-Winning Authors Join OpenAI, Microsoft Copyright Lawsuit». Reuters, 21 de diciembre de 2023, sec. Legal. https://www.reuters.com/legal/pulitzer-winning-authors-join-openai-microsoft-copyright-lawsuit-2023-12-20/.

Un grupo de 11 autores de no ficción se ha unido a una demanda en la corte federal de Manhattan que acusa a OpenAI y Microsoft de utilizar indebidamente libros escritos por los autores para entrenar los modelos detrás del popular chatbot ChatGPT de OpenAI y otros programas basados en inteligencia artificial.

Los escritores, incluyendo a los ganadores del Premio Pulitzer Taylor Branch, Stacy Schiff y Kai Bird, argumentan que las compañías infringieron sus derechos de autor al usar sus obras para entrenar los modelos de lenguaje GPT de OpenAI.

Representantes de OpenAI y Microsoft no respondieron de inmediato a las solicitudes de comentarios el miércoles.

El abogado de los escritores, Rohit Nath, afirmó que «los acusados están obteniendo miles de millones de dólares de su uso no autorizado de libros de no ficción, y los autores de estos libros merecen una compensación justa y un trato adecuado por ello».

La demanda, presentada por el escritor y editor de Hollywood Reporter, Julian Sancton, alega que OpenAI «raspó» los trabajos de los autores junto con gran cantidad de otro material con derechos de autor de Internet sin permiso para enseñar a sus modelos GPT a responder a instrucciones de texto humano.

La demanda también afirma que Microsoft ha estado «profundamente involucrado» en el entrenamiento y desarrollo de los modelos y es responsable de la infracción de derechos de autor. Los autores piden daños monetarios no especificados y una orden para que las compañías dejen de infringir sus derechos de autor.

OpenAI y Axel Springer firman un acuerdo que permite que ChatGPT se entrene con datos de la editorial

Knibbs, Kate. s. f. «Journalists Had “No Idea” About OpenAI’s Deal to Use Their Stories». Wired. Accedido 22 de diciembre de 2023. https://www.wired.com/story/openai-axel-springer-news-licensing-deal-whats-in-it-for-writers/.

OpenAI y el conglomerado mediático alemán Axel Springer firmaron la semana pasada un acuerdo de licencia a largo plazo que permite a OpenAI incorporar artículos de los medios de Axel Springer, como Business Insider y Politico, en sus productos, incluido ChatGPT. Aunque el acuerdo se centra en el uso de trabajos periodísticos, los periodistas cuyas historias se compartirán como parte del acuerdo no fueron consultados previamente.

Empleados de Business Insider revelaron que se enteraron del acuerdo de inteligencia artificial al mismo tiempo que se anunció públicamente. PEN Guild, el sindicato estadounidense que representa a alrededor de 280 trabajadores de Politico y E&E News, otra publicación de Axel Springer, afirmó que «no fue consultado ni informado sobre la decisión de que los robots resumieran nuestro trabajo».

Este acuerdo destaca la tendencia emergente de empresas de inteligencia artificial que buscan acuerdos con empresas de medios en lugar de recopilar datos de entrenamiento mediante el rastreo no autorizado de contenido con derechos de autor en Internet. Mientras algunas asociaciones de escritores ven estos acuerdos como una alternativa positiva al rastreo de datos, hay dudas sobre si realmente beneficiarán a los periodistas.

El editor de Techdirt, Mike Masnick, cuestiona la efectividad de estos acuerdos y sugiere que podrían ser estrategias para evitar demandas de las editoras a cambio de cierto acceso a la tecnología. Además, se desconoce cómo afectará financieramente a los periodistas individuales el acuerdo entre OpenAI y Axel Springer.

El acuerdo, que implica que OpenAI pagará a Axel Springer millones de euros, según Bloomberg, plantea preguntas sobre si los periodistas recibirán alguna compensación. Aunque Axel Springer considera que el acuerdo beneficia a los periodistas y a la industria del periodismo, algunos críticos dudan de que el acceso indirecto a la tecnología realmente mejore las condiciones laborales de los periodistas.

En el contexto de la creciente automatización en la industria de los medios, sindicatos y líderes laborales están vigilando de cerca estos acuerdos para proteger los derechos e integridad del trabajo de los periodistas. La cuestión de si estos acuerdos serán beneficiosos a largo plazo y cómo afectarán a la industria de los medios sigue siendo objeto de debate.

Urge solucionar la falta de transparencia en torno a los datos utilizados para entrenar modelos de Inteligencia Artificial

Hardinges, Jack, Elena Simperl, y Nigel Shadbolt. 2023. «We Must Fix the Lack of Transparency Around the Data Used to Train Foundation Models». Harvard Data Science Review, diciembre. https://doi.org/10.1162/99608f92.a50ec6e6.

En el ámbito de la IA, los modelos, ya sean de aprendizaje supervisado, no supervisado o de otro tipo, necesitan ser alimentados con grandes cantidades de datos para aprender patrones y realizar tareas específicas. Abordar esta falta de transparencia es crucial para garantizar que la IA se desarrolle y utilice de manera ética y responsable. La transparencia en este proceso implica proporcionar información clara y completa sobre la naturaleza y la fuente de los datos utilizados en el entrenamiento de estos modelos. Sin embargo, en la mayoría de los casos, las empresas o desarrolladores no muestran de dónde compilan esta información, lo que puede tener consecuencias significativas en términos de ética, sesgo y confianza pública.


El estudio aborda la importancia del acceso a información sobre los datos utilizados en la formación de modelos de inteligencia artificial (IA). Aunque algunos sectores de la comunidad de IA han progresado, persiste una falta general de transparencia sobre el contenido y las fuentes de los conjuntos de datos de entrenamiento, ya sea por iniciativa voluntaria de las empresas o por intervención regulatoria, y esto debe cambiar.

Los modelos fundamentales se entrenan con grandes colecciones de datos, muchos de los cuales se recopilan de toda la web. La investigación del Instituto Allen de IA y The Washington Post sobre el popular conjunto de datos de entrenamiento C4 reveló que su contenido provenía de 15 millones de dominios web diferentes.

Conocer el contenido de los conjuntos de datos utilizados para entrenar modelos y cómo se han compilado es de vital importancia. Sin esta información, el trabajo de desarrolladores, investigadores y éticos para abordar sesgos o eliminar contenido perjudicial de los datos se ve obstaculizado. La información sobre los datos de entrenamiento también es crucial para que los legisladores evalúen si los modelos fundamentales han absorbido datos personales o material con derechos de autor. Además, los operadores previstos de los sistemas de IA y aquellos afectados por su uso son mucho más propensos a confiar en ellos si comprenden cómo se han desarrollado.

Sin embargo, algunas empresas no documentan el contenido de sus datos de entrenamiento, incluso internamente, por temor a encontrar información personal sobre individuos identificables, material con derechos de autor y otros datos obtenidos sin consentimiento.

En público, las empresas han utilizado diferentes argumentos para justificar la falta de transparencia en torno a sus datos de entrenamiento. OpenAI, en el lanzamiento de su modelo GPT-4, declaró que no compartiría información detallada sobre la «construcción del conjunto de datos» y otros aspectos del desarrollo del modelo debido al «panorama competitivo y las implicaciones de seguridad de los modelos a gran escala». Aunque algunas empresas han publicado los datos de ajuste fino, tienden a omitir los conjuntos de datos de entrenamiento más grandes y complejos que son más propensos a contener contenido perjudicial o material con derechos de autor.

Partes de la comunidad de IA han avanzado en la transparencia de los datos de entrenamiento. La plataforma Hugging Face, inspirada en los pioneros de la seguridad de la IA Emily Bender, Batya Friedman y Timnit Gebru, promueve el uso de Model Cards y Dataset Cards entre su comunidad de desarrolladores. Las Dataset Cards documentan cómo se creó un conjunto de datos, su contenido y posibles problemas legales o éticos asociados.

En julio de 2023, la Casa Blanca anunció que siete grandes empresas de IA se comprometieron a «desarrollar medidas técnicas sólidas para garantizar que los usuarios sepan cuándo el contenido es generado por IA, como el marcado de agua». Dado que los modelos fundamentales de IA han comenzado a entrenarse con datos generados por IA, estas herramientas desempeñarán un papel importante en documentar la procedencia de los datos de entrenamiento y la integridad de las salidas resultantes de la IA.

Las decisiones sobre qué documentar sobre los datos de entrenamiento podrían eventualmente salir de las manos de los desarrolladores. La Comisión Federal de Comercio de EE. UU. ha ordenado recientemente a OpenAI que documente todas las fuentes de datos utilizadas para entrenar sus grandes modelos de lenguaje. Un grupo de grandes medios de comunicación ha publicado una carta abierta instando a los legisladores de todo el mundo a introducir nuevas regulaciones que exijan transparencia en los conjuntos de datos de entrenamiento.

Se prevé que la demanda de información sobre los datos de entrenamiento sea la última ola en un esfuerzo continuo por la transparencia empresarial. En el Reino Unido, las leyes sobre el registro obligatorio y la publicación de información por parte de las empresas se remontan al siglo XIX, y a lo largo del tiempo, los reguladores han desarrollado enfoques estandarizados para evitar que cada empresa elija su propia forma de informar sobre sus finanzas y otras actividades. Quizás necesitemos lo mismo para las divulgaciones sobre los datos en los que se han entrenado los modelos fundamentales de IA.

Ya sea que las empresas den un paso adelante o que intervengan los gobiernos, deben asegurarnos de que los datos utilizados para entrenar sistemas de IA no estén envueltos en secreto. La confianza pública, nuestra capacidad para mitigar sus posibles daños y la eficacia de nuestro régimen regulatorio dependen de ello.

El uso legítimo: mitos y conceptos erróneos sobre los derechos de autor

Carrie Russell «Figuring Out Fair Use». 2023. American Libraries Magazine. 1 de noviembre de 2023. https://americanlibrariesmagazine.org/?p=140589.

Libreros y maestros, profesionales bibliotecarios especializados en alfabetización informacional, acceso equitativo a la información y avance del aprendizaje, a menudo enfrentan ansiedades y conceptos erróneos sobre el copyright. El miedo infundado a litigios de copyright y la falta de educación sobre el tema contribuyen a esta situación.

El desconocimiento sobre el copyright se agrava en entornos educativos saturados de trabajo, donde el personal, ya sobrecargado, carece de tiempo para abordar cuestiones legales como el copyright. La complejidad añadida de los formatos digitales y las licencias privadas complica aún más la gestión efectiva del copyright en las escuelas.

La Constitución de EE.UU. dice que la ley de derechos de autor se crea «para promover el progreso de la ciencia y de las artes útiles». Su intención es, ante todo, fomentar la creación y difusión de obras originales y creativas que beneficien al público. Estas políticas también están diseñadas para avanzar en el bienestar público poniendo a disposición obras que promuevan el aprendizaje, inspiren la creación de nuevas obras, produzcan ciudadanos bien informados y fomenten la búsqueda de la felicidad.

La noción de que la ley de derechos de autor sirve al interés público puede sonar pintoresca cuando gran parte de la discusión pública, y ciertamente gran parte del debate político, gira en torno al valor monetario de los derechos de autor. Aunque los derechos de autor tienen un importante valor económico en la economía global de la información, el propósito fundamental de estas leyes es el bienestar público. Por lo tanto, los valores que subyacen a la ley de derechos de autor son totalmente coherentes con los valores profesionales de profesores y bibliotecarios.

A menudo se confunde a la gente o se le hace creer que la ley de derechos de autor es lo mismo que la ley de propiedad. Esta confusión se ve agravada por términos como propiedad intelectual, que es un término equivocado. En cambio, la ley de derechos de autor se asemeja a la regulación gubernamental en que el Congreso crea la ley para intervenir en el mercado mediante la concesión a los titulares de derechos de un monopolio -a través de los derechos exclusivos de autor- para lograr un propósito público.

A muchos bibliotecarios y profesores les molesta que no existan normas claras. A menudo, la respuesta a una pregunta concreta sobre derechos de autor exige analizar la situación para determinar si se trata de un uso legítimo. Puede que sea molesto, pero nos conviene que la ley sea ambigua. Fijar las normas de derechos de autor en piedra sería congelar la ley. La ley debe ser maleable para servir a nuestra sociedad ahora y en el futuro, un futuro sobre el que sólo podemos especular. El uso legítimo nos servirá porque está abierto a las nuevas tecnologías.

Cinco conceptos erróneos comunes sobre el copyright se destacan en el artículo:

  1. Erróneamente se cree que el propósito principal del copyright es compensar monetariamente a los autores y creadores, cuando en realidad busca fomentar el progreso de la ciencia y las artes útiles en beneficio del público.
  2. Existe el temor de que los titulares de derechos demanden a bibliotecarios, maestros y escuelas con frecuencia, cuando los casos reales en los tribunales son raros. Además, existen limitaciones legales y protecciones para instituciones educativas y bibliotecas.
  3. La confusión entre la ley de copyright y la propiedad intelectual lleva a la creencia errónea de que las obras protegidas son propiedad exclusiva de los creadores. En realidad, el copyright otorga derechos exclusivos para comercializar la obra, no para poseerla.
  4. Muchos esperan reglas legales definitivas para cuestiones de copyright, pero la ley es flexible y la determinación de uso justo a menudo requiere análisis caso por caso.
  5. Se percibe que el uso justo es difícil de entender y aplicar, cuando, en realidad, comprender y aplicar los cuatro factores del uso justo puede ser más natural con la práctica.

En conclusión, a pesar de las dificultades y malentendidos, es crucial para los profesionales de bibliotecas y educación comprender el copyright y aplicar el uso justo para equilibrar los derechos de los usuarios con los intereses de los titulares de derechos.