
Stanford HAI. «Researchers Use GPT-4 To Generate Feedback on Scientific Manuscripts». Accedido 31 de octubre de 2023. https://hai.stanford.edu/news/researchers-use-gpt-4-generate-feedback-scientific-manuscripts.
Combinando un amplio modelo lingüístico (LLM) y artículos científicos revisados por pares de código abierto, investigadores de Stanford han creado una herramienta basada en inteligencia Artificial que esperan pueda ayudar a otros investigadores a pulir y mejorar sus borradores.
La investigación científica tiene un problema con poder disponer de pares que analicen la validez de los artículos. No hay suficientes revisores cualificados para evaluar todos los estudios. Este problema afecta sobre todo a los investigadores jóvenes y a los de instituciones menos conocidas, que a menudo no tienen acceso a mentores experimentados que puedan dar su opinión a tiempo. Además, muchos estudios científicos son rechazados sumariamente sin revisión por pares.
Intuyendo una crisis creciente en una época de aumento de los estudios científicos, investigadores de IA de la Universidad de Stanford han utilizado el gran modelo lingüístico GPT-4 y un conjunto de datos de miles de artículos publicados anteriormente -repletos de los comentarios de sus revisores- para crear una herramienta que pueda «revisar previamente» los borradores de manuscritos.
«Esperamos que los investigadores puedan utilizar esta herramienta para mejorar sus borradores antes de presentarlos oficialmente a congresos y revistas», afirma James Zou, profesor adjunto de Ciencia de Datos Biomédicos en Stanford y miembro del Instituto de IA Centrada en el Ser Humano (HAI) de Stanford. Zou es el autor principal del estudio, publicado recientemente en arXiv.
Los investigadores empezaron comparando los comentarios realizados por un gran modelo lingüístico con los de revisores humanos. Afortunadamente, una de las revistas científicas más importantes, Nature, y sus quince subrevistas (Nature Medicine, etc.), no sólo publica cientos de estudios al año, sino que incluye los comentarios de los revisores de algunos de esos trabajos. Y Nature no es la única. La International Conference on Learning Representations (ICLR) hace lo mismo con todos los trabajos -tanto los aceptados como los rechazados- de su conferencia anual sobre aprendizaje automático.
«Entre los dos, curamos casi 5.000 estudios y comentarios revisados por pares para compararlos con los comentarios generados por GPT-4», dice Zou. «El modelo lo hizo sorprendentemente bien».
Las cifras se asemejan a un diagrama de Venn de comentarios superpuestos. Entre los cerca de 3.000 artículos de la familia Nature incluidos en el estudio, había una intersección entre GPT-4 y los comentarios humanos de casi el 31 por ciento. En el caso de ICLR, las cifras eran aún mayores: casi el 40% de los comentarios de GPT-4 y humanos coincidían. Es más, si se consideran únicamente los artículos rechazados del ICLR (es decir, los artículos menos maduros), el solapamiento de comentarios entre GPT-4 y humanos aumentó hasta casi el 44%: casi la mitad de todos los comentarios de GPT-4 y humanos coincidían.
La importancia de estas cifras se hace más patente si se tiene en cuenta que, incluso entre los humanos, existe una variación considerable entre los comentarios de los distintos revisores de un mismo artículo. El solapamiento entre humanos fue del 28% en las revistas Nature y del 35% en ICLR. Según estos parámetros, el rendimiento de GPT-4 es comparable al de los humanos.
Pero aunque las comparaciones entre ordenadores y humanos son instructivas, la verdadera prueba es si los autores de los artículos revisados valoran los comentarios aportados por uno u otro método de revisión. El equipo de Zou llevó a cabo un estudio de usuarios en el que investigadores de más de 100 instituciones enviaron sus artículos, incluidos muchos preprints, y recibieron los comentarios de GPT-4. La mitad de los investigadores participantes consideraron que GPT-4 era el método más eficaz. Más de la mitad de los investigadores participantes consideraron que los comentarios de GPT-4 eran «útiles/muy útiles» y el 82 por ciento los consideraron «más beneficiosos» que ciertos comentarios de algunos revisores humanos.
En el artículo, Zou se apresura a señalar que el método tiene sus limitaciones. En particular, los comentarios de GPT-4 pueden ser a veces más «genéricos» y no detectar los problemas técnicos más profundos del artículo. El GPT-4 también tiende a centrarse sólo en aspectos limitados de los comentarios científicos (por ejemplo, «añadir experimentos con más conjuntos de datos») y se queda corto a la hora de profundizar en los métodos de los autores.
Zou insistió en que el equipo no está sugiriendo que la GPT-4 elimine al «experto humano (par)» de la revisión por pares y sustituya a la revisión humana. La revisión por expertos humanos «es y debe seguir siendo» la base de la ciencia rigurosa, afirma.
«Pero creemos que la retroalimentación de la IA puede beneficiar a los investigadores en las primeras etapas de la redacción de sus artículos, sobre todo si se tienen en cuenta las crecientes dificultades para obtener a tiempo la opinión de los expertos sobre los borradores», concluye Zou. «Desde ese punto de vista, creemos que GPT-4 y la retroalimentación humana se complementan bastante bien».