Archivo de la categoría: Investigación

Tres autores demandan a Anthropic por infracción de derechos de autor en el entrenamiento de IA

Roth, E. (2024, agosto 20). Authors sue Anthropic for training AI using pirated books. The Verge. https://www.theverge.com/2024/8/20/24224450/anthropic-copyright-lawsuit-pirated-books-ai

La compañía de inteligencia artificial Anthropic enfrenta una demanda colectiva en un tribunal federal de California, interpuesta por tres autores que afirman que la empresa utilizó sus libros y cientos de miles de obras más para entrenar su chatbot Claude, impulsado por IA.

Un grupo de autores ha demandado a la compañía de inteligencia artificial Anthropic, acusándola de entrenar sus modelos de IA con libros pirateados, según informó Reuters. La demanda colectiva, presentada en un tribunal de California, alega que Anthropic «construyó un negocio multimillonario robando cientos de miles de libros con derechos de autor.»

La demanda sostiene que Anthropic utilizó un conjunto de datos de código abierto conocido como «The Pile» para entrenar su familia de chatbots Claude. Dentro de este conjunto de datos se encuentra «Books3», una vasta biblioteca de ebooks pirateados que incluye obras de Stephen King, Michael Pollan y miles de otros autores. A principios de agosto, Anthropic confirmó a Vox que utilizó «The Pile» para entrenar a Claude.

La demanda afirma que Anthropic descargó y reprodujo copias de «The Pile» y «Books3», sabiendo que estos conjuntos de datos contenían contenido con derechos de autor extraído de sitios pirata como Bibiliotik. Los autores buscan que el tribunal certifique la demanda colectiva, exija a Anthropic el pago de daños y perjuicios propuestos, y prohíba a la compañía utilizar material protegido por derechos de autor en el futuro.

Los escritores que demandan a Anthropic incluyen a Andrea Bartz, autora de We Were Never Here; Charles Graeber, autor de The Good Nurse; y Kirk Wallace Johnson, autor de The Feather Thief. Aunque se reconoce que «Books3» ha sido eliminado de la versión «más oficial» de «The Pile», la versión original supuestamente sigue disponible en línea. Una investigación reciente también descubrió que compañías como Anthropic y Apple entrenaron sus modelos de IA con miles de subtítulos de videos de YouTube extraídos de «The Pile».

El año pasado, el exgobernador de Arkansas Mike Huckabee y otros autores presentaron una demanda similar contra Meta, Microsoft y EleutherAI, la organización sin fines de lucro detrás de «The Pile», por acusaciones de uso indebido de sus obras para entrenar modelos de IA. Otros autores, como George R.R. Martin, Jodi Picoult y Michael Chabon, también han demandado a OpenAI por el supuesto uso de su contenido protegido por derechos de autor.

Explorando las capacidades de ChatGPT como bibliotecario investigador, ético de la investigación, generador de datos y predictor de datos.

Lehr, Steven A., Aylin Caliskan, Suneragiri Liyanage, y Mahzarin R. Banajii. «ChatGPT as Research Scientist: Probing GPT’s Capabilities as a Research Librarian, Research Ethicist, Data Generator, and Data Predictor.» Proceedings of the National Academy of Sciences 121, no. 35 (2024): e2404328121. https://doi.org/10.1073/pnas.2404328121

¿Hasta qué punto es ChatGPT un buen investigador científico? Se probó sistemáticamente las capacidades de GPT-3.5 y GPT-4 en cuatro componentes centrales del proceso científico: como bibliotecario de investigación, ético de investigación, generador de datos y predictor de datos novedosos, utilizando la ciencia psicológica como campo de pruebas.

En el Estudio 1 (Bibliotecario de Investigación), a diferencia de los investigadores humanos, GPT-3.5 y GPT-4 alucinaron, generando autoritariamente referencias ficticias el 36,0% y el 5,4% de las veces, respectivamente, aunque GPT-4 mostró una capacidad evolutiva para reconocer sus ficciones.

En el Estudio 2 (Ética de la investigación), GPT-4 (aunque no GPT-3.5) demostró ser capaz de detectar infracciones como el p-hacking en protocolos de investigación ficticios, corrigiendo el 88,6% de los problemas presentados de forma flagrante y el 72,6% de los presentados de forma sutil.

En el Estudio 3 (Generador de datos), ambos modelos reprodujeron sistemáticamente patrones de sesgo cultural descubiertos previamente en grandes corpus lingüísticos, lo que indica que ChatGPT puede simular resultados conocidos, un antecedente de utilidad tanto para la generación de datos como para habilidades como la generación de hipótesis.

Por el contrario, en el Estudio 4 (Predictor de datos novedosos), ninguno de los modelos logró predecir resultados nuevos ausentes en sus datos de entrenamiento, y ninguno pareció aprovechar información sustancialmente nueva a la hora de predecir resultados más o menos novedosos.

En conjunto, estos resultados sugieren que GPT es un bibliotecario defectuoso pero en rápida mejora, un ético de la investigación ya decente, capaz de generar datos en dominios simples con características conocidas, pero deficiente en la predicción de nuevos patrones de datos empíricos para ayudar en futuras experimentaciones.

Manifiesto por las métricas socioterritoriales de la ciencia la tecnología y la innovación

Cancino, Ronald and Albis Salas, Nadia and Villarroel Valenzuela, Jacqueline and Robles Belmont, Eduardo and Oliveira [et al.] Manifiesto por las métricas socioterritoriales de la ciencia la tecnología y la innovación 2024

Ver

La ciencia, la tecnología y la innovación han devenido en un verdadero motor de transformaciones de toda índole en escalas locales y globales. Sin embargo, las capacidades desigualmente distribuidas a nivel mundial han generado desarrollos desproporcionales en estas distribuciones. No es tan solo un problema de la ciencia en sí, sino del modo en cómo se han desarrollado las sociedades, las relaciones entre ellas, y el rol que han jugado la ciencia y la tecnología en la dinámica y el desarrollo de las sociedades. Hoy, a los problemas de asimetrías, desigualdad, exclusión y marginalidad, se suman pandemias, migraciones forzadas, extractivismo y los efectos visibles de la autonomización del cambio climático como generador de transformaciones y desastres locales y globales en los que la ciencia y la tecnología juegan un rol central en su comprensión, mitigación, prevención y solución. De este modo, el desarrollo de capacidades y el conocimiento sobre su distribución local y global son fundamentales para una actuación en el mundo contemporáneo. En este contexto, una verdadera transformación en la ciencia parece experimentarse. La conformación de redes, la demanda por impactos, la investigación mediante y en mundos virtuales y simulados, junto al creciente movimiento por el acceso y la ciencia abierta y ciudadana, son acompañados por permanentes ajustes y rediseños institucionales, actualizaciones de políticas, nuevas prioridades, instrumentos y una tendencia creciente a alinearse, por ejemplo, a los Objetivos de Desarrollo Sostenible. En este contexto, los esfuerzos para conocer, comprender y gestionar las capacidades de ciencia, tecnología e innovación, mediante métricas y formas de evaluación científica, continúan centrados en formas tradicionales y en métricas de impacto de citaciones articuladas a formas de evaluación, financiación y gasto en sistemas de publicaciones transnacionales. Los movimientos locales, nacionales y globales por la apertura de la ciencia y su evaluación son cada vez más activos, y permean de manera muy incipiente las políticas de ciencia, tecnología e innovación. Proponemos que, en estos esfuerzos, debemos incorporar un conjunto de principios que permitan construir métricas para la medición de capacidades y formas de evaluación que consideren las características, requerimientos y demandas socioterritoriales respecto de las cuales actúan y se desarrollan capacidades científicas y tecnológicas.

El futuro de la edición y la comunicación académica: Informe del Grupo de Expertos a la Comisión Europea

Guédon, Jean-Claude, ed. El futuro de la edición y la comunicación académica: Informe del Grupo de Expertos a la Comisión Europea. Books2bits, 2024. https://doi.org/10.51438/B2Binfoce2024.

PDF

El informe propone una visión del futuro de la comunicación académica; examina el sistema actual -con sus puntos fuertes y débiles- y sus principales actores. Considera el papel de los investigadores, las instituciones de investigación, las financiadoras y responsables políticos, los editores y otros proveedores de servicios, así como los ciudadanos, y formula recomendaciones dirigidas a cada uno de ellos. El informe sitúa a los investigadores y sus necesidades en el centro de la comunicación académica del futuro y considera que el conocimiento y la comprensión creados por los investigadores son bienes públicos. Los desarrollos actuales, propiciados principalmente por la tecnología, han dado lugar a una ampliación de los tipos de actores que intervienen en la comunicación académica y, en algunos casos, a la desagregación de las funciones tradicionales en el sistema.

El informe considera que la evaluación de la investigación es una piedra angular de la comunicación científica que afecta a todos los actores. Los investigadores, las comunidades y todas las organizaciones, en particular las financiadoras, tienen la posibilidad de mejorar el actual sistema de comunicación y edición académicas: deberían empezar por introducir cambios en el sistema de evaluación de la investigación. La colaboración entre los actores es esencial para lograr un cambio positivo y permitir la innovación en el sistema de comunicación y publicación académicas en el futuro.

Retiran más de 16.000 artículos científicos generados con Inteligencia Artificial

Agencia AFP. «Alerta en la ciencia: se han retirado más de 16 mil artículos científicos hechos con la ayuda de la Inteligencia ArtificialEl Colombiano, 12 de agosto de 2024. https://www.elcolombiano.com/tecnologia/retiran-miles-de-articulos-cientificos-hechos-con-inteligencia-artificial-HP25195741

La ciencia enfrenta una alerta preocupante debido al retiro de más de 16.000 artículos científicos que fueron elaborados con la ayuda de inteligencia artificial (IA). Se espera que esta cifra aumente en los próximos meses. Estos artículos, que presentan errores graves y absurdos, como una imagen de una rata con genitales sobredimensionados o una pierna humana con un número incorrecto de huesos, han sido publicados en revistas científicas importantes.

Aunque la IA, como ChatGPT, se reconoce por su utilidad en tareas como la traducción, su uso en la redacción de artículos científicos ha generado preocupaciones por prácticas deshonestas. Un ejemplo de esto ocurrió en marzo de 2024, cuando un artículo comenzó con una frase típica de ChatGPT, lo que llevó a su retiro.

El empleo de IA en la literatura científica es cada vez más difícil de detectar y está en aumento. Según estudios, al menos 60.000 artículos en 2023 fueron realizados con ayuda de la IA, lo que representa un 1% de la producción científica anual. Esta tendencia está contribuyendo a un aumento significativo en el número de artículos retirados, que alcanzó un récord de 13.000 en 2023.

La IA ha facilitado la creación masiva de artículos científicos de baja calidad, plagiados o falsos, a menudo producidos por «fábricas» de artículos financiadas por investigadores. Se estima que estas «fábricas» son responsables de un 2% de los estudios publicados, cifra que podría estar aumentando considerablemente debido a la IA.

Publicar y perecer

AKABAYASHI, Akira Publish and perish: New issues in publication ethics. Indian Journal of Medical Ethics, [S.l.], v. IX, n. 2 (NS), p. 147, mar. 2024. ISSN 0975-5691. Avaialble at: Recuperado 10 de agosto de 2024, de https://ijme.in/articles/publish-and-perish-new-issues-in-publication-ethics/?galley=html

Tradicionalmente, la frase «Publica o perece» ha reflejado la presión sobre los académicos para publicar trabajos como medio para avanzar en sus carreras y asegurar fondos de investigación. Sin embargo, Akabayashi sugiere que esta expresión debería evolucionar a «Publica y perece», dado el impacto negativo que los crecientes costos de publicación están teniendo sobre la capacidad de los investigadores para difundir sus hallazgos.

El autor describe su propia experiencia en 2022, cuando publicó 35 artículos en revistas académicas. De estos, 24 fueron en revistas de acceso abierto y 11 en revistas híbridas. Las revistas de acceso abierto permiten que los artículos estén disponibles gratuitamente para todos los lectores, pero exigen que los autores paguen una tarifa por la publicación. Las revistas híbridas, por otro lado, suelen mantener los artículos tras un muro de pago, aunque los autores pueden optar por pagar una tarifa adicional para que sus artículos sean de acceso libre.

Akabayashi destaca los altos costos asociados con la publicación en acceso abierto, incluyendo las tarifas de procesamiento de artículos (APC) y los costos de edición del lenguaje, particularmente onerosos para investigadores que no tienen el inglés como lengua materna. En su caso, los costos totales por la publicación de sus 35 artículos en un solo año ascendieron a más de 62,000 dólares, incluyendo tanto las tarifas de publicación como los gastos de edición de idioma. Estos costos no solo afectan a los investigadores individuales, sino que también tienen un impacto desproporcionado en aquellos de países de ingresos bajos y medios, exacerbando las inequidades en la producción y difusión del conocimiento científico.

El artículo también aborda la problemática de las revisiones editoriales que exigen ediciones adicionales en inglés, lo que incrementa aún más los costos para los autores que deben pagar por servicios de traducción. Además, Akabayashi discute cómo las políticas de algunas revistas y las relaciones entre universidades y editoriales podrían ser reestructuradas para aliviar estos costos, sugiriendo que las universidades podrían negociar contratos con editoriales para eximir a sus investigadores de las tarifas de publicación.

El autor concluye enfatizando que la finalidad de la investigación es beneficiar a la sociedad, y que los altos costos actuales están minando este propósito. Propone que las revistas consideren modelos más flexibles, como el «Pay What You Want» (Paga lo que quieras), para las tarifas de publicación, o que reduzcan los costos en función de los gastos reales incurridos. Akabayashi argumenta que, si no se toman medidas para reducir estos costos, la capacidad de los investigadores para publicar y aplicar sus descubrimientos científicos se verá gravemente comprometida, lo que podría tener consecuencias negativas para el avance del conocimiento y, en última instancia, para la humanidad.

Integridad académica en la era de la Inteligencia Artificial Generativa (IAG)

Alonso-Arévalo, Julio. Integridad académica en la era de la Inteligencia Artificial Generativa (IAG). Desiderata, n. 24. (2024)

Texto completo

La Inteligencia Artificial Generativa (IAG) se refiere a sistemas de inteligencia artificial capaces de crear contenido original a partir de datos existentes mediante el aprendizaje automático. Estos sistemas, entrenados con vastos corpus de texto e imágenes, pueden generar textos coherentes, responder preguntas, redactar artículos y crear imágenes detalladas. Herramientas como ChatGPT permiten a los investigadores generar borradores de artículos, reducir el tiempo de escritura y mejorar la coherencia del texto. La IAG tiene usos legítimos, como la revisión y corrección de manuscritos, la visualización de tendencias que puede inspirar nuevas formas de pensar y enfoques creativos de investigación, o ayudar a los investigadores a analizar grandes cantidades de datos y extraer información relevante.

La IA complica el plagio. ¿Cómo deben responder los científicos?

Kwon, Diana. «AI Is Complicating Plagiarism. How Should Scientists RespondNature, 30 de julio de 2024. https://doi.org/10.1038/d41586-024-02371-z.

El uso de herramientas de inteligencia artificial generativa (IA) en la escritura plantea preguntas difíciles sobre cuándo debería permitirse su uso. Estos sistemas, como ChatGPT, pueden ahorrar tiempo, mejorar la claridad y reducir barreras lingüísticas. Sin embargo, complican el debate sobre el uso indebido del trabajo ajeno, ya que la IA puede generar texto que se asemeja a contenidos existentes, lo que podría considerarse plagio.

La IA generativa plantea un desafío al distinguir entre la escritura completamente humana y la completamente generada por máquinas, creando una «zona gris» difícil de definir. Aunque el uso no autorizado de herramientas de IA puede no ser considerado plagio, podría verse como generación de contenido no autorizado. Este debate también incluye preocupaciones sobre la infracción de derechos de autor, ya que estas herramientas se entrenan con grandes cantidades de textos publicados sin permiso.

El uso de IA en la redacción académica ha aumentado rápidamente, con estimaciones que indican que al menos el 10% de los resúmenes en artículos biomédicos de 2024 han utilizado estas herramientas. La comunidad académica está dividida sobre cuándo el uso de IA es ético o constituye plagio. Algunas revistas han comenzado a exigir la divulgación completa del uso de IA, pero las políticas varían.

AI EN ARTÍCULOS ACADÉMICOS
Según un análisis de 14 millones de resúmenes de PubMed, el uso de palabras estilísticas (como «delves») aumentó de forma inusitada tras la generalización de los grandes modelos lingüísticos. Ello eclipsó el aumento de palabras relacionadas con el contenido de la pandemia (como «COVID»).

Además, los detectores de textos generados por IA aún no son completamente fiables, especialmente cuando los textos han sido ligeramente editados. Esto dificulta identificar y diferenciar entre contenido generado por IA y por humanos, especialmente para autores no nativos en inglés. La integración de herramientas de IA en plataformas comunes como Word y Google Docs complicará aún más la distinción entre contenido influenciado por IA y el que no lo es.

La respuesta de la comunidad científica incluye la necesidad de desarrollar guías claras sobre el uso de IA y reconocer que el avance tecnológico podría seguir superando la capacidad de regulación y detección.

La necesidad de reformar la publicación científica

Abdullah, Abrizah, Subbiah Arunachalam, Dominique Babini, Michael Barbour, Ahmed Bawa, Geoffrey Boulton, Amy Brand, et al. «The Case for Reform of Scientific Publishing». Report, 17 de noviembre de 2023. http://eprints.rclis.org/45342/.

Texto completo

El informe «The Case for Reform of Scientific Publishing» discute la importancia de la publicación y diseminación de los resultados científicos como procesos esenciales para la circulación y el intercambio de conocimientos. La publicación científica ha sido fundamental para el avance de la ciencia abierta, y la era digital ofrece nuevas oportunidades para mejorar este sistema. Sin embargo, el informe señala que el sistema actual ha fallado en aprovechar plenamente estas oportunidades, principalmente debido al predominio de intereses comerciales que priorizan las ganancias sobre las necesidades de la ciencia.

Los autores destacan problemas clave como los altos costos de las publicaciones, la proliferación de resultados científicos no reproducibles o fraudulentos, y el uso excesivo de índices bibliométricos para evaluar carreras científicas, lo cual ha fomentado una cultura de «publicar o perecer» y la expansión de la industria de publicaciones depredadoras.

El Consejo Internacional de Ciencias (ISC, por sus siglas en inglés) propone ocho principios fundamentales para la publicación científica, con un énfasis en tratar los resultados científicos como un bien público global. Entre las reformas sugeridas se incluyen:

  1. Abandonar los índices bibliométricos como únicos indicadores de excelencia.
  2. Crear un índice integral del registro científico.
  3. Asegurar el acceso abierto a los trabajos científicos.
  4. Mejorar el proceso de revisión por pares.
  5. Hacer que el sistema de publicación sea más responsable ante la comunidad científica.

El ISC busca liderar y estructurar la transformación del sistema de publicación científica para evitar que intereses ajenos a la ciencia dicten su futuro, promoviendo un sistema que sirva mejor a la comunidad científica global.

Scopus AI Beta: análisis funcional y casos

Aguilera-Cora, Elisenda, Carlos Lopezosa, y Lluís Codina. «Scopus AI Beta: Functional Analysis and Cases». Report, 4 de enero de 2024. http://eprints.rclis.org/45321/.

Texto completo

Las bases de datos académicas son una fuente fundamental para identificar bibliografía relevante en un campo de estudio. Scopus contiene más de 90 millones de registros e indexa unos 12.000 documentos al día. Sin embargo, este contexto y la propia naturaleza acumulativa de la ciencia dificultan la identificación selectiva de la información. Además, las herramientas de búsqueda en bases de datos académicas no son muy intuitivas y requieren un proceso iterativo y relativamente lento de búsqueda y evaluación. En respuesta a estos retos, Elsevier ha lanzado Scopus AI, actualmente en su versión Beta. Como el producto está aún en fase de desarrollo, la experiencia actual del usuario no es representativa del producto final. Scopus AI es una inteligencia artificial que genera breves síntesis de los documentos indexados en la base de datos, a partir de instrucciones o indicaciones. Este estudio examina la interfaz y las principales funciones de esta herramienta y la explora a partir de tres casos prácticos. El análisis funcional muestra que la interfaz de Scopus AI Beta es intuitiva y fácil de usar. La herramienta de IA de Elsevier permite al investigador obtener una visión general de un problema, así como identificar autores y enfoques, en una sesión de búsqueda más ágil que la convencional. Scopus AI Beta no sustituye a la búsqueda convencional en todos los casos, pero es un acelerador de los procesos académicos. Es una herramienta valiosa para revisiones bibliográficas, construcción de marcos teóricos y verificación de relaciones entre variables, entre otras aplicaciones.