Archivo de la etiqueta: Derechos de autor

El proyecto de ley No AI FRAUD: sin Fraudes, Sin Falsificaciones… ¿Sin Uso Justo?

No Frauds, No Fakes…No Fair Use? Katherine Klosek, March 1, 2024. Accessed March 2, 2024. https://www.arl.org/blog/nofraudsnofakes/.

Katherine Klosek discute el potencial de la inteligencia artificial en instituciones de memoria, señalando su utilidad en la síntesis de descripciones de libros y la corrección de errores en las atribuciones de contribuciones. Sin embargo, destaca la preocupación del Congreso por los deepfakes y la legislación propuesta para prevenir su uso fraudulento, argumentando que cualquier legislación debe equilibrar la protección contra el fraude con la preservación de la libertad de expresión, utilizando las excepciones en la Ley de Derechos de Autor como modelo

La inteligencia artificial tiene el potencial de servir como una poderosa herramienta para bibliotecas y otras instituciones de memoria. Durante una reciente audiencia del Comité de Reglas del Senado de los Estados Unidos, la Bibliotecaria del Congreso Carla Hayden describió cómo la Biblioteca del Congreso está experimentando con modelos de aprendizaje automático para sintetizar descripciones de libros para comunidades ciegas, con discapacidad visual y con dificultades de lectura. Meroe Park, secretaria adjunta y directora de operaciones del Instituto Smithsonian, habló sobre el trabajo del Laboratorio de Ciencia de Datos del Smithsonian para desarrollar un nuevo modelo de IA que pueda descubrir y corregir instancias en sus colecciones en las que las contribuciones de las mujeres fueron erróneamente atribuidas a hombres. Las bibliotecas universitarias también apoyan metodologías de investigación no generativas como la minería de texto y datos para analizar mejor las obras creativas de mujeres, minorías de género y artistas de color para explorar preguntas importantes sobre la cultura y la sociedad. Esta tecnología ofrece oportunidades innumerables para avanzar en la investigación y preservar el patrimonio cultural.

Aunque la promesa de la IA es evidente, el Congreso se centra en sus posibles perjuicios, presentando legislación para prevenir el uso fraudulento del nombre, imagen o semejanza de una persona para crear deepfakes. Desafortunadamente, algunas propuestas legislativas actuales podrían limitar la libertad de expresión en el proceso. Este artículo discute por qué cualquier legislación dirigida a los deepfakes debe incluir disposiciones que permitan la libre expresión. Las excepciones contenidas en la Ley de Derechos de Autor ofrecen un modelo útil para tales disposiciones.

El uso justo es una salvaguardia de la Primera Enmienda.

El uso justo es una acomodación de la Primera Enmienda que está integrada en la ley de derechos de autor, permitiendo al público usar obras expresivas sin permiso del titular de los derechos de autor. Sin el uso justo, los derechos exclusivos de reproducir, realizar, transmitir, distribuir, exhibir y crear obras derivadas consolidarían un monopolio de derechos de autor en el que los titulares de derechos de autor son los únicos que pueden usar obras expresivas a menos que otorguen permiso para hacerlo. Como escribió Public Knowledge después de una audiencia reciente sobre IA y derecho a la publicidad:

Los regímenes de propiedad intelectual son ellos mismos una forma de regulación de la expresión. Al otorgar un monopolio sobre un tipo específico de expresión, en este caso, la expresión que utiliza la semejanza audiovisual de un individuo, un derecho de publicidad prohíbe a todas las demás personas participar en ese subconjunto particular de expresión. Esto significa, para bien o para mal, que cualquier régimen de PI debe contener excepciones y limitaciones significativas para acomodar la Primera Enmienda. El derecho de autor es constitucionalmente sólido solo debido a una doctrina de uso justo robusta y flexible; cualquier derecho de publicidad federal tendría que permitir de manera similar una amplia gama de expresión.

Las recientes propuestas para regular el uso de una semejanza generada por IA crearían un nuevo régimen de PI amplio, pero sin las acomodaciones necesarias para la libertad de expresión como las excepciones y limitaciones robustas, explícitas y flexibles en la Ley de Derechos de Autor de EE. UU.

Se necesitan excepciones sólidas en la legislación sobre derechos de publicidad.

La Ley de Replicas y Duplicaciones No Autorizadas de Inteligencia Artificial Falsa, o la Ley No AI FRAUD (H.R. 6943), crearía un derecho de propiedad intelectual federal que sobreviviría al individuo cuya semejanza digital y voz estén protegidas. Cualquier persona que publique, realice, distribuya, transmita o de cualquier otra manera ponga a disposición del público una réplica de voz digital, una representación digital o un servicio de clonación personalizado, con el conocimiento de que no fue autorizado por el titular de los derechos, estaría infringiendo la ley. El proyecto de ley efectivamente permite a los titulares de derechos controlar una amplia cantidad de contenido digital sin ninguna válvula de seguridad que permita el ejercicio de la libre expresión, como una excepción para fines de investigación o académicos.

El proyecto de ley No AI FRAUD intenta sortear su problema de libre expresión con una cláusula que establece que la Primera Enmienda sirve como defensa. Pero el proyecto de ley limita inmediatamente la defensa de la Primera Enmienda al requerir que los tribunales equilibren «el interés público en el acceso al uso» contra «el interés de propiedad intelectual en la voz o semejanza». Como señala Jennifer Rothman, esta prueba es probablemente inconstitucionalmente vaga.

La Ley Nurture Originals, Foster Art, and Keep Entertainment Safe Act of 2023, or the NO FAKES Act of 2023, en el Senado, crea de manera similar responsabilidad para los usuarios de réplicas digitales. NO FAKES excluye explícitamente las réplicas digitales que se utilizan en documentales o docudramas, o con fines de comentario, crítica, investigación, sátira o parodia, de violar la ley. Este enfoque prescriptivo ofrece certeza sobre los usos enumerados, pero sin la flexibilidad que requiere un análisis de uso justo.

La flexibilidad y especificidad del uso justo apoyan el progreso del conocimiento.

Las excepciones en la Ley de Derechos de Autor proporcionan a los usuarios tanto certeza como flexibilidad. Por un lado, las excepciones establecidas en las Secciones 108-121A describen una variedad de circunstancias específicas en las que una obra puede ser utilizada sin autorización del titular de los derechos de autor. Al mismo tiempo, el uso justo en la Sección 107 permite usos de acuerdo con una evaluación dinámica de factores, incluido si un nuevo uso agrega algo al propósito o carácter de una obra. Décadas de litigios sobre uso justo han aclarado usos adicionales; por ejemplo, aunque la parodia no está mencionada en la Ley de Derechos de Autor, los tribunales establecieron que la parodia puede calificar como uso justo en el caso Campbell v. Acuff Rose Music. La naturaleza flexible

OpenAI no se entrenará con datos del New York Times tras la demanda interpuesta por el periódico a ChatGPT

News, B. (2024, enero 16). OpenAI Doesn’t Want to Train on New York Times Data After Lawsuit, Altman Says—BNN Bloomberg. BNN. https://www.bnnbloomberg.ca/openai-doesn-t-want-to-train-on-new-york-times-data-after-lawsuit-altman-says-1.2022691

Sam Altman, CEO de OpenAI, ha declarado que la inteligencia artificial no necesita grandes cantidades de datos de entrenamiento de editoriales como The New York Times, en respuesta a las acusaciones de que su startup está utilizando material con derechos de autor. Altman señaló que la creencia de que se requieren todos los datos de entrenamiento y que estos son muy valiosos no es generalmente cierta, y afirmó que no desean entrenar con los datos del New York Times.

OpenAI está en medio de una importante iniciativa para asegurar acceso a contenidos de noticias después de ser demandada por el Times y Microsoft, su mayor inversor, por supuestamente causar miles de millones de dólares en daños por violación de derechos de autor. Las asociaciones con editoriales son cruciales para el futuro de OpenAI, ya que equilibra la necesidad de datos precisos y oportunos con la atención pública sobre la procedencia de esos datos.

La compañía está en conversaciones con varios editores, incluyendo CNN, Fox Corp. y Time, para obtener licencias de contenido noticioso. Altman destacó que su objetivo es proporcionar información de diferentes fuentes cuando los usuarios lo soliciten y mencionó que algunos editores desean asociarse con ellos, mientras que otros no.

Antes de la demanda, OpenAI y el Times estuvieron en contacto desde abril para negociar una licencia, pero no lograron llegar a un acuerdo. La empresa también enfrenta demandas colectivas de escritores, como Sarah Silverman, George R.R. Martin y Michael Chabon.

A pesar de las tensiones con algunos editores, OpenAI ha alcanzado acuerdos con la Associated Press para acceder a sus archivos y firmó un acuerdo de tres años en diciembre con Axel Springer SE para utilizar el contenido de la compañía mediática alemana por una suma no revelada.

Altman concluyó que gran parte de la investigación de OpenAI se centra en aprender más a partir de cantidades más pequeñas de datos de alta calidad.

El New York Times demanda a OpenAI y Microsoft por infracción de derechos de autor

Grynbaum, M. M., & Mac, R. (2023, diciembre 27). The Times Sues OpenAI and Microsoft Over A.I. Use of Copyrighted Work. The New York Times. https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html

La demanda es la última de una serie de demandas que buscan limitar el uso del presunto «scraping» de amplios fragmentos de contenido de internet, sin compensación, para entrenar a los llamados modelos grandes de inteligencia artificial de lenguaje. Actores, escritores, periodistas y otros creadores que publican sus trabajos en internet temen que la IA aprenda de su material y proporcione chatbots competitivos y otras fuentes de información sin una compensación adecuada.


El periódico The New York Times ha presentado una demanda contra OpenAI y Microsoft, acusándolos de infringir derechos de autor. La queja sostiene que las compañías utilizaron millones de artículos del Times sin permiso para entrenar modelos de inteligencia artificial de lenguaje, como ChatGPT, creando así una competencia directa para el Times. Esta demanda se suma a una serie de acciones legales que buscan limitar el uso del supuesto «scraping» de contenido de internet sin compensación para entrenar modelos de inteligencia artificial de lenguaje. Aunque las negociaciones para una compensación justa estuvieron en marcha desde abril, el Times afirma que no se ha llegado a una resolución con las compañías. La demanda busca daños por miles de millones de dólares y una orden permanente contra la presunta infracción, lo que podría sentar un precedente para la industria. Otras empresas de medios, como Disney, CNN y el propio Times, han bloqueado el acceso a ChatGPT. Este conflicto destaca los desafíos continuos en torno al uso de material con derechos de autor para entrenar modelos de inteligencia artificial.

Sin embargo, la demanda del Times es la primera entre los principales editores de noticias que se enfrenta a OpenAI y Microsoft, las marcas de IA más reconocidas. Microsoft (MSFT) tiene un asiento en la junta directiva de OpenAI y una inversión multimillonaria en la compañía.

En una queja presentada el miércoles, el Times dijo que tiene el deber de informar a sus suscriptores, pero el «uso ilegal del trabajo del Times por parte de Microsoft y OpenAI para crear productos de inteligencia artificial que compiten con él amenaza la capacidad del Times para proporcionar ese servicio». El periódico señaló que OpenAI y Microsoft utilizaron otras fuentes en su «copia a gran escala», pero «dieron énfasis particular al contenido del Times» buscando «montarse en la inversión masiva del Times en su periodismo al utilizarlo para construir productos sustitutivos sin permiso ni pago».

En su queja, el Times dijo que objetó cuando descubrió meses atrás que su trabajo se había utilizado para entrenar los modelos de lenguaje grandes de las compañías. A partir de abril, el Times dijo que comenzó a negociar con OpenAI y Microsoft para recibir una compensación justa y establecer los términos de un acuerdo.

Escritores demandan a OpenAI y Microsoft por supuesto uso no autorizado de libros en inteligencia artificial

Brittain, Blake, y Blake Brittain. 2023. «Pulitzer-Winning Authors Join OpenAI, Microsoft Copyright Lawsuit». Reuters, 21 de diciembre de 2023, sec. Legal. https://www.reuters.com/legal/pulitzer-winning-authors-join-openai-microsoft-copyright-lawsuit-2023-12-20/.

Un grupo de 11 autores de no ficción se ha unido a una demanda en la corte federal de Manhattan que acusa a OpenAI y Microsoft de utilizar indebidamente libros escritos por los autores para entrenar los modelos detrás del popular chatbot ChatGPT de OpenAI y otros programas basados en inteligencia artificial.

Los escritores, incluyendo a los ganadores del Premio Pulitzer Taylor Branch, Stacy Schiff y Kai Bird, argumentan que las compañías infringieron sus derechos de autor al usar sus obras para entrenar los modelos de lenguaje GPT de OpenAI.

Representantes de OpenAI y Microsoft no respondieron de inmediato a las solicitudes de comentarios el miércoles.

El abogado de los escritores, Rohit Nath, afirmó que «los acusados están obteniendo miles de millones de dólares de su uso no autorizado de libros de no ficción, y los autores de estos libros merecen una compensación justa y un trato adecuado por ello».

La demanda, presentada por el escritor y editor de Hollywood Reporter, Julian Sancton, alega que OpenAI «raspó» los trabajos de los autores junto con gran cantidad de otro material con derechos de autor de Internet sin permiso para enseñar a sus modelos GPT a responder a instrucciones de texto humano.

La demanda también afirma que Microsoft ha estado «profundamente involucrado» en el entrenamiento y desarrollo de los modelos y es responsable de la infracción de derechos de autor. Los autores piden daños monetarios no especificados y una orden para que las compañías dejen de infringir sus derechos de autor.

OpenAI y Axel Springer firman un acuerdo que permite que ChatGPT se entrene con datos de la editorial

Knibbs, Kate. s. f. «Journalists Had “No Idea” About OpenAI’s Deal to Use Their Stories». Wired. Accedido 22 de diciembre de 2023. https://www.wired.com/story/openai-axel-springer-news-licensing-deal-whats-in-it-for-writers/.

OpenAI y el conglomerado mediático alemán Axel Springer firmaron la semana pasada un acuerdo de licencia a largo plazo que permite a OpenAI incorporar artículos de los medios de Axel Springer, como Business Insider y Politico, en sus productos, incluido ChatGPT. Aunque el acuerdo se centra en el uso de trabajos periodísticos, los periodistas cuyas historias se compartirán como parte del acuerdo no fueron consultados previamente.

Empleados de Business Insider revelaron que se enteraron del acuerdo de inteligencia artificial al mismo tiempo que se anunció públicamente. PEN Guild, el sindicato estadounidense que representa a alrededor de 280 trabajadores de Politico y E&E News, otra publicación de Axel Springer, afirmó que «no fue consultado ni informado sobre la decisión de que los robots resumieran nuestro trabajo».

Este acuerdo destaca la tendencia emergente de empresas de inteligencia artificial que buscan acuerdos con empresas de medios en lugar de recopilar datos de entrenamiento mediante el rastreo no autorizado de contenido con derechos de autor en Internet. Mientras algunas asociaciones de escritores ven estos acuerdos como una alternativa positiva al rastreo de datos, hay dudas sobre si realmente beneficiarán a los periodistas.

El editor de Techdirt, Mike Masnick, cuestiona la efectividad de estos acuerdos y sugiere que podrían ser estrategias para evitar demandas de las editoras a cambio de cierto acceso a la tecnología. Además, se desconoce cómo afectará financieramente a los periodistas individuales el acuerdo entre OpenAI y Axel Springer.

El acuerdo, que implica que OpenAI pagará a Axel Springer millones de euros, según Bloomberg, plantea preguntas sobre si los periodistas recibirán alguna compensación. Aunque Axel Springer considera que el acuerdo beneficia a los periodistas y a la industria del periodismo, algunos críticos dudan de que el acceso indirecto a la tecnología realmente mejore las condiciones laborales de los periodistas.

En el contexto de la creciente automatización en la industria de los medios, sindicatos y líderes laborales están vigilando de cerca estos acuerdos para proteger los derechos e integridad del trabajo de los periodistas. La cuestión de si estos acuerdos serán beneficiosos a largo plazo y cómo afectarán a la industria de los medios sigue siendo objeto de debate.

Urge solucionar la falta de transparencia en torno a los datos utilizados para entrenar modelos de Inteligencia Artificial

Hardinges, Jack, Elena Simperl, y Nigel Shadbolt. 2023. «We Must Fix the Lack of Transparency Around the Data Used to Train Foundation Models». Harvard Data Science Review, diciembre. https://doi.org/10.1162/99608f92.a50ec6e6.

En el ámbito de la IA, los modelos, ya sean de aprendizaje supervisado, no supervisado o de otro tipo, necesitan ser alimentados con grandes cantidades de datos para aprender patrones y realizar tareas específicas. Abordar esta falta de transparencia es crucial para garantizar que la IA se desarrolle y utilice de manera ética y responsable. La transparencia en este proceso implica proporcionar información clara y completa sobre la naturaleza y la fuente de los datos utilizados en el entrenamiento de estos modelos. Sin embargo, en la mayoría de los casos, las empresas o desarrolladores no muestran de dónde compilan esta información, lo que puede tener consecuencias significativas en términos de ética, sesgo y confianza pública.


El estudio aborda la importancia del acceso a información sobre los datos utilizados en la formación de modelos de inteligencia artificial (IA). Aunque algunos sectores de la comunidad de IA han progresado, persiste una falta general de transparencia sobre el contenido y las fuentes de los conjuntos de datos de entrenamiento, ya sea por iniciativa voluntaria de las empresas o por intervención regulatoria, y esto debe cambiar.

Los modelos fundamentales se entrenan con grandes colecciones de datos, muchos de los cuales se recopilan de toda la web. La investigación del Instituto Allen de IA y The Washington Post sobre el popular conjunto de datos de entrenamiento C4 reveló que su contenido provenía de 15 millones de dominios web diferentes.

Conocer el contenido de los conjuntos de datos utilizados para entrenar modelos y cómo se han compilado es de vital importancia. Sin esta información, el trabajo de desarrolladores, investigadores y éticos para abordar sesgos o eliminar contenido perjudicial de los datos se ve obstaculizado. La información sobre los datos de entrenamiento también es crucial para que los legisladores evalúen si los modelos fundamentales han absorbido datos personales o material con derechos de autor. Además, los operadores previstos de los sistemas de IA y aquellos afectados por su uso son mucho más propensos a confiar en ellos si comprenden cómo se han desarrollado.

Sin embargo, algunas empresas no documentan el contenido de sus datos de entrenamiento, incluso internamente, por temor a encontrar información personal sobre individuos identificables, material con derechos de autor y otros datos obtenidos sin consentimiento.

En público, las empresas han utilizado diferentes argumentos para justificar la falta de transparencia en torno a sus datos de entrenamiento. OpenAI, en el lanzamiento de su modelo GPT-4, declaró que no compartiría información detallada sobre la «construcción del conjunto de datos» y otros aspectos del desarrollo del modelo debido al «panorama competitivo y las implicaciones de seguridad de los modelos a gran escala». Aunque algunas empresas han publicado los datos de ajuste fino, tienden a omitir los conjuntos de datos de entrenamiento más grandes y complejos que son más propensos a contener contenido perjudicial o material con derechos de autor.

Partes de la comunidad de IA han avanzado en la transparencia de los datos de entrenamiento. La plataforma Hugging Face, inspirada en los pioneros de la seguridad de la IA Emily Bender, Batya Friedman y Timnit Gebru, promueve el uso de Model Cards y Dataset Cards entre su comunidad de desarrolladores. Las Dataset Cards documentan cómo se creó un conjunto de datos, su contenido y posibles problemas legales o éticos asociados.

En julio de 2023, la Casa Blanca anunció que siete grandes empresas de IA se comprometieron a «desarrollar medidas técnicas sólidas para garantizar que los usuarios sepan cuándo el contenido es generado por IA, como el marcado de agua». Dado que los modelos fundamentales de IA han comenzado a entrenarse con datos generados por IA, estas herramientas desempeñarán un papel importante en documentar la procedencia de los datos de entrenamiento y la integridad de las salidas resultantes de la IA.

Las decisiones sobre qué documentar sobre los datos de entrenamiento podrían eventualmente salir de las manos de los desarrolladores. La Comisión Federal de Comercio de EE. UU. ha ordenado recientemente a OpenAI que documente todas las fuentes de datos utilizadas para entrenar sus grandes modelos de lenguaje. Un grupo de grandes medios de comunicación ha publicado una carta abierta instando a los legisladores de todo el mundo a introducir nuevas regulaciones que exijan transparencia en los conjuntos de datos de entrenamiento.

Se prevé que la demanda de información sobre los datos de entrenamiento sea la última ola en un esfuerzo continuo por la transparencia empresarial. En el Reino Unido, las leyes sobre el registro obligatorio y la publicación de información por parte de las empresas se remontan al siglo XIX, y a lo largo del tiempo, los reguladores han desarrollado enfoques estandarizados para evitar que cada empresa elija su propia forma de informar sobre sus finanzas y otras actividades. Quizás necesitemos lo mismo para las divulgaciones sobre los datos en los que se han entrenado los modelos fundamentales de IA.

Ya sea que las empresas den un paso adelante o que intervengan los gobiernos, deben asegurarnos de que los datos utilizados para entrenar sistemas de IA no estén envueltos en secreto. La confianza pública, nuestra capacidad para mitigar sus posibles daños y la eficacia de nuestro régimen regulatorio dependen de ello.

El uso legítimo: mitos y conceptos erróneos sobre los derechos de autor

Carrie Russell «Figuring Out Fair Use». 2023. American Libraries Magazine. 1 de noviembre de 2023. https://americanlibrariesmagazine.org/?p=140589.

Libreros y maestros, profesionales bibliotecarios especializados en alfabetización informacional, acceso equitativo a la información y avance del aprendizaje, a menudo enfrentan ansiedades y conceptos erróneos sobre el copyright. El miedo infundado a litigios de copyright y la falta de educación sobre el tema contribuyen a esta situación.

El desconocimiento sobre el copyright se agrava en entornos educativos saturados de trabajo, donde el personal, ya sobrecargado, carece de tiempo para abordar cuestiones legales como el copyright. La complejidad añadida de los formatos digitales y las licencias privadas complica aún más la gestión efectiva del copyright en las escuelas.

La Constitución de EE.UU. dice que la ley de derechos de autor se crea «para promover el progreso de la ciencia y de las artes útiles». Su intención es, ante todo, fomentar la creación y difusión de obras originales y creativas que beneficien al público. Estas políticas también están diseñadas para avanzar en el bienestar público poniendo a disposición obras que promuevan el aprendizaje, inspiren la creación de nuevas obras, produzcan ciudadanos bien informados y fomenten la búsqueda de la felicidad.

La noción de que la ley de derechos de autor sirve al interés público puede sonar pintoresca cuando gran parte de la discusión pública, y ciertamente gran parte del debate político, gira en torno al valor monetario de los derechos de autor. Aunque los derechos de autor tienen un importante valor económico en la economía global de la información, el propósito fundamental de estas leyes es el bienestar público. Por lo tanto, los valores que subyacen a la ley de derechos de autor son totalmente coherentes con los valores profesionales de profesores y bibliotecarios.

A menudo se confunde a la gente o se le hace creer que la ley de derechos de autor es lo mismo que la ley de propiedad. Esta confusión se ve agravada por términos como propiedad intelectual, que es un término equivocado. En cambio, la ley de derechos de autor se asemeja a la regulación gubernamental en que el Congreso crea la ley para intervenir en el mercado mediante la concesión a los titulares de derechos de un monopolio -a través de los derechos exclusivos de autor- para lograr un propósito público.

A muchos bibliotecarios y profesores les molesta que no existan normas claras. A menudo, la respuesta a una pregunta concreta sobre derechos de autor exige analizar la situación para determinar si se trata de un uso legítimo. Puede que sea molesto, pero nos conviene que la ley sea ambigua. Fijar las normas de derechos de autor en piedra sería congelar la ley. La ley debe ser maleable para servir a nuestra sociedad ahora y en el futuro, un futuro sobre el que sólo podemos especular. El uso legítimo nos servirá porque está abierto a las nuevas tecnologías.

Cinco conceptos erróneos comunes sobre el copyright se destacan en el artículo:

  1. Erróneamente se cree que el propósito principal del copyright es compensar monetariamente a los autores y creadores, cuando en realidad busca fomentar el progreso de la ciencia y las artes útiles en beneficio del público.
  2. Existe el temor de que los titulares de derechos demanden a bibliotecarios, maestros y escuelas con frecuencia, cuando los casos reales en los tribunales son raros. Además, existen limitaciones legales y protecciones para instituciones educativas y bibliotecas.
  3. La confusión entre la ley de copyright y la propiedad intelectual lleva a la creencia errónea de que las obras protegidas son propiedad exclusiva de los creadores. En realidad, el copyright otorga derechos exclusivos para comercializar la obra, no para poseerla.
  4. Muchos esperan reglas legales definitivas para cuestiones de copyright, pero la ley es flexible y la determinación de uso justo a menudo requiere análisis caso por caso.
  5. Se percibe que el uso justo es difícil de entender y aplicar, cuando, en realidad, comprender y aplicar los cuatro factores del uso justo puede ser más natural con la práctica.

En conclusión, a pesar de las dificultades y malentendidos, es crucial para los profesionales de bibliotecas y educación comprender el copyright y aplicar el uso justo para equilibrar los derechos de los usuarios con los intereses de los titulares de derechos.

Meta utilizó libros protegidos por derechos de autor para entrenar inteligencia artificial pese a las advertencias de sus propios abogados, según los autores

Paul, Katie. 2023. «Meta Used Copyrighted Books for AI Training despite Its Own Lawyers’ Warnings, Authors Allege». Reuters, 12 de diciembre de 2023, sec. Technology. https://www.reuters.com/technology/meta-used-copyrighted-books-ai-training-despite-its-own-lawyers-warnings-authors-2023-12-12/.

Los abogados habían advertido a Meta sobre los peligros legales de utilizar miles de libros pirateados para entrenar sus modelos de inteligencia artificial, pero la compañía lo hizo de todos modos, según un nuevo documento presentado en una demanda por infracción de derechos de autor iniciada este verano.

La nueva presentación, realizada el lunes por la noche, consolida dos demandas presentadas contra el propietario de Facebook e Instagram por la comediante Sarah Silverman, el ganador del Premio Pulitzer Michael Chabon y otros autores destacados. Estos alegan que Meta ha utilizado sus obras sin permiso para entrenar su modelo de lenguaje de inteligencia artificial, llamado Llama.

Un juez de California desestimó el mes pasado parte de la demanda de Silverman e indicó que daría a los autores el permiso para modificar sus reclamaciones.

Meta no respondió de inmediato a una solicitud de comentarios sobre las acusaciones.

La nueva demanda, presentada el lunes, incluye registros de chat de un investigador afiliado a Meta discutiendo la obtención del conjunto de datos en un servidor de Discord, una pieza de evidencia potencialmente significativa que indica que Meta sabía que el uso de los libros podría no estar protegido por la ley de derechos de autor de EE. UU.

En los registros de chat citados en la demanda, el investigador Tim Dettmers describe su intercambio con el departamento legal de Meta sobre si el uso de los archivos de libros como datos de entrenamiento sería «legalmente aceptable».

«En Facebook, hay muchas personas interesadas en trabajar con (The Pile), incluyéndome a mí, pero en su forma actual, no podemos usarlo por razones legales», escribió Dettmers en 2021, refiriéndose a un conjunto de datos que Meta ha admitido haber utilizado para entrenar su primera versión de Llama, según la demanda.

Un mes antes, Dettmers escribió que los abogados de Meta le habían dicho que «los datos no se pueden usar ni los modelos se pueden publicar si están entrenados con esos datos», según la demanda.

Aunque Dettmers no describe las preocupaciones de los abogados, sus colegas en el chat identifican a «los libros con derechos de autor activos» como la mayor fuente probable de preocupación. Afirman que el entrenamiento con esos datos debería «encajar dentro del uso legítimo», una doctrina legal en EE. UU. que protege ciertos usos no autorizados de obras con derechos de autor.

Dettmers, estudiante de doctorado en la Universidad de Washington, dijo a Reuters que no podía comentar de inmediato sobre las afirmaciones.

Las empresas tecnológicas han enfrentado una serie de demandas este año de creadores de contenido que los acusan de copiar obras protegidas por derechos de autor para construir modelos de inteligencia artificial generativos que han causado sensación a nivel mundial y han generado una frenética inversión.

Si estas demandas tienen éxito, podrían disminuir la fiebre de la inteligencia artificial generativa, ya que podrían aumentar el costo de construir modelos hambrientos de datos al obligar a las empresas de inteligencia artificial a compensar a artistas, autores y otros creadores de contenido por el uso de sus obras.

Al mismo tiempo, las nuevas normas provisionales en Europa que regulan la inteligencia artificial podrían obligar a las empresas a revelar los datos que utilizan para entrenar sus modelos, exponiéndolas a un mayor riesgo legal.

Meta lanzó la primera versión de su modelo de lenguaje grande Llama en febrero y publicó una lista de conjuntos de datos utilizados para el entrenamiento, incluyendo «la sección de libros Books3 de ThePile». Según la demanda, la persona que ensambló ese conjunto de datos ha dicho en otro lugar que contiene 196,640 libros.

La compañía no reveló datos de entrenamiento para su última versión del modelo, Llama 2, que puso a disposición para uso comercial este verano.

Llama 2 es gratuito para empresas con menos de 700 millones de usuarios activos al mes. Su lanzamiento se percibió en el sector tecnológico como un posible cambio de juego en el mercado de software de inteligencia artificial generativa, amenazando con trastocar la dominación de jugadores como OpenAI y Google, que cobran por el uso de sus modelos.

Libro Blanco: Inteligencia Artificial Generativa en Comunicación científica

Generative AI in Scholarly Communications: Ethical and Practical Guidelines for the Use of Generative AI in the Publication Process. STM, 2023

Texto completo

STM ha publicado un nuevo libro blanco: Generative AI in Scholarly Communications: Directrices éticas y prácticas para el uso de la IA generativa en el proceso de publicación. Como continuación de AI Ethics in Scholarly Communication, que STM publicó en abril de 2021, esta nueva publicación es un recurso para las partes interesadas en la publicación académica y aborda el papel cada vez más importante de las tecnologías de IA Generativa (GenAI).

El documento examina los aspectos éticos, jurídicos y prácticos de GenAI, destacando su potencial para transformar las comunicaciones académicas, y abarca una serie de temas que van desde los derechos de propiedad intelectual hasta los desafíos de mantener la integridad en la era digital. El documento ofrece principios de buenas prácticas y recomendaciones para autores, equipos editoriales, revisores y proveedores, garantizando un enfoque responsable y ético en el uso de las herramientas GenAI.

Ética de la investigación e inteligencia generativa. La responsabilidad de difundir resultados

Ética de la investigación e inteligencia generativa por Julio Alonso Arévalo. CURSO: Competencias digitales y alfabetización académica, nov. 2023

VER VIDEO

En el contexto de la IA, especialmente en la creación de obras generadas automáticamente, surge la cuestión de la atribución y la autoría. La ética de la investigación en este ámbito implica considerar quién debe recibir crédito por las creaciones generadas por algoritmos, si es el desarrollador del algoritmo, el usuario que lo emplea, o el propio algoritmo. Por un lado, los derechos de autor tradicionales están diseñados para proteger la creatividad humana, pero en el caso de obras generadas por IA, la autoría puede ser difusa. Algunos argumentan que los desarrolladores de algoritmos deberían ser reconocidos, mientras que otros abogan por formas innovadoras de atribución. En resumen, la ética de la investigación en inteligencia artificial y derechos de autor implica repensar y adaptar los marcos existentes para abordar de manera justa la creación de obras generadas por IA, garantizando la atribución adecuada y considerando los posibles sesgos en el proceso de desarrollo y entrenamiento de estos sistemas.