
Si, Chenglei, Tatsunori Hashimoto y Diyi Yang. The Ideation-Execution Gap: Execution Outcomes of LLM-Generated versus Human Research Ideas. arXiv, 25 de junio de 2025. https://arxiv.org/abs/2506.20803
Los resultados mostraron que las ideas generadas por LLM recibieron puntuaciones significativamente más bajas que las ideas humanas en todos los criterios evaluados: novedad, entusiasmo, efectividad y puntuación general. Este fenómeno, denominado «brecha ideación-ejecución», sugiere que, aunque los LLM pueden generar ideas originales, su capacidad para traducir esas ideas en resultados de investigación efectivos es limitada.
El estudio investiga la diferencia entre la generación de ideas de investigación por modelos de lenguaje grande (LLM, Large Language Models) y la capacidad real de esas ideas para traducirse en resultados concretos y efectivos cuando se llevan a la práctica. Aunque investigaciones anteriores han señalado que los LLM pueden producir ideas originales e innovadoras, el presente estudio se enfoca en la llamada “brecha ideación-ejecución” para determinar si estas ideas realmente tienen éxito cuando se implementan en proyectos de investigación reales.
Para evaluar esta cuestión, los autores diseñaron un experimento riguroso en el que 43 investigadores expertos en procesamiento de lenguaje natural recibieron ideas de investigación generadas tanto por humanos como por LLM. Cada investigador trabajó durante más de 100 horas en la ejecución de una de estas ideas, desarrollando proyectos completos documentados en informes detallados de cuatro páginas. Estos informes fueron luego evaluados de manera anónima por otros expertos para medir la calidad y el impacto de los resultados obtenidos.
Los resultados revelaron que, en múltiples dimensiones evaluadas —incluyendo la novedad de la idea, el entusiasmo generado, la efectividad del proyecto y la valoración general—, los proyectos derivados de ideas humanas superaron claramente a los derivados de ideas generadas por LLM. En otras palabras, aunque los LLM son capaces de ofrecer propuestas creativas y novedosas, su capacidad para traducir esas ideas en investigaciones exitosas y aplicables es significativamente menor.
Este hallazgo tiene implicaciones importantes para el uso de la inteligencia artificial en la investigación científica. Sugiere que, aunque la IA puede ser una herramienta valiosa para inspirar ideas o asistir en la fase inicial de generación conceptual, la supervisión humana y la experiencia siguen siendo cruciales para asegurar que las ideas puedan concretarse en resultados tangibles y de calidad. El estudio enfatiza la necesidad de evaluar no solo la creatividad o novedad de las ideas producidas por IA, sino también su factibilidad y capacidad de ejecución.
Finalmente, los autores invitan a reflexionar sobre cómo integrar de manera efectiva las capacidades de los modelos de lenguaje en el proceso de investigación, proponiendo un enfoque colaborativo entre humanos e IA que maximice las fortalezas de cada uno, minimizando las limitaciones observadas.







