
Li, Ning, Jingran Zhang, y Justin Cui. 2025. «ArXivBench: When You Should Avoid Using ChatGPT for Academic Writing.» arXiv, abril 22. https://arxiv.org/abs/2504.10496v2.
Los autores advierten que, aunque los LLM muestran gran capacidad de razonamiento y respuesta, presentan un problema crítico: con frecuencia producen enlaces de arXiv incorrectos o referencias a artículos inexistentes. Esto no solo afecta la precisión, sino que compromete la atribución correcta de los trabajos a sus verdaderos autores, lo que supone un riesgo importante en entornos académicos.
Para evaluar este fenómeno, desarrollan ArXivBench, un banco de pruebas que mide el rendimiento de modelos (tanto propietarios como de código abierto) en la generación de artículos relevantes con enlaces correctos a arXiv. La evaluación abarca ocho grandes áreas temáticas y cinco subcampos de informática, siendo la inteligencia artificial el más popular.
arXivBench, el primer banco de pruebas para evaluar la precisión de los modelos de lenguaje grande (LLM) en la generación de artículos de investigación relevantes con enlaces precisos a arXiv. La evaluación de 15 modelos revela una variabilidad significativa en el rendimiento según las materias, destacando Claude-3.5 Sonnet por sus sólidos resultados en diversos dominios. Identificamos limitaciones críticas para el uso académico: la generación de artículos inexistentes y enlaces incorrectos a arXiv que impiden la atribución adecuada de las contribuciones de investigación a los autores reales.
En conclusión, el estudio pone en evidencia que, pese a los avances significativos, los modelos de lenguaje como ChatGPT no son todavía totalmente confiables para la generación automática de contenidos académicos, especialmente cuando se requiere una alta precisión en citas y referencias. La implementación de arXivBench representa un paso importante para medir y mejorar esta precisión, y los autores animan a la comunidad científica a seguir desarrollando y utilizando estas herramientas de evaluación. De esta manera, se podrá asegurar que el uso de LLMs en el ámbito académico no comprometa la integridad y calidad de la investigación.