
OpenEval Project. “OpenEval Project: Transparent LLM-Enabled Peer Review Assessment”. Plataforma de investigación abierta sobre evaluación científica asistida por inteligencia artificial, 2026. Disponible en: OpenEval Project
OpenEval propone una revolución en la evaluación científica al sustituir la revisión global del artículo por un análisis automatizado de cada afirmación individual contenida en el paper, demostrando que la inteligencia artificial puede participar activamente en la validación del conocimiento científico y cuestionando el modelo tradicional de peer review que ha dominado la ciencia durante siglos
El proyecto OpenEval representa una de las iniciativas más ambiciosas actualmente en desarrollo para replantear uno de los pilares centrales de la ciencia moderna: el sistema de peer review o revisión por pares. Durante más de tres siglos, la validación de artículos científicos ha dependido casi exclusivamente del juicio humano de especialistas encargados de evaluar la calidad metodológica, la consistencia argumentativa y la solidez empírica de un trabajo antes de su publicación. Sin embargo, el crecimiento exponencial de la producción científica mundial —acentuado todavía más por el uso creciente de herramientas de inteligencia artificial generativa— está comenzando a desbordar la capacidad del sistema tradicional. OpenEval surge precisamente como respuesta a este problema estructural: desarrollar un sistema transparente, sistemático y automatizado capaz de analizar artículos científicos mediante modelos de lenguaje avanzados y comparar sus evaluaciones con revisiones realizadas por expertos humanos.
La innovación central del proyecto consiste en cambiar radicalmente la unidad básica de evaluación científica. Tradicionalmente, un artículo se revisa como un documento global donde los revisores formulan observaciones generales sobre hipótesis, metodología, resultados o conclusiones. OpenEval propone descomponer cada paper en unidades mínimas verificables: afirmaciones concretas o claims individuales. Cada afirmación es extraída automáticamente del texto mediante procesamiento lingüístico avanzado y posteriormente clasificada según el tipo de evidencia que la respalda. El sistema distingue, por ejemplo, afirmaciones sustentadas en datos experimentales directos, referencias bibliográficas previas, inferencias estadísticas o interpretaciones especulativas. Esta descomposición granular permite que la inteligencia artificial no evalúe un artículo como un bloque narrativo indivisible, sino como una red estructurada de afirmaciones susceptibles de verificación independiente. La idea responde a una intuición fundamental: la ciencia debería ser legible no solo para seres humanos, sino también para máquinas capaces de interpretar formalmente la arquitectura lógica del conocimiento científico.
Para poner a prueba esta metodología, los desarrolladores construyeron uno de los mayores corpus experimentales de revisión científica automatizada disponibles actualmente. El sistema procesó 16.089 artículos científicos procedentes de la revista de acceso abierto eLife, identificando 1.964.856 afirmaciones individuales distribuidas en casi 300.000 unidades evaluables. Paralelamente se recopilaron más de 29.000 revisiones generadas por OpenEval y cerca de 29.205 revisiones realizadas previamente por revisores humanos, permitiendo comparar ambos sistemas de evaluación. Uno de los hallazgos más significativos fue comprobar que la inteligencia artificial identificaba un mayor número de afirmaciones relevantes dentro de cada artículo que los revisores humanos. Mientras los expertos humanos tendían a concentrarse en un conjunto relativamente limitado de resultados principales, OpenEval lograba cubrir un espectro mucho más amplio del contenido científico, detectando matices argumentativos que frecuentemente pasan desapercibidos durante el proceso convencional de peer review.
El proyecto revela además una cuestión especialmente relevante: los sistemas automatizados no solo son capaces de reproducir evaluaciones humanas, sino que en ciertos aspectos pueden mostrar comportamientos analíticos diferentes e incluso más rigurosos. Los datos comparativos muestran que OpenEval tiende a ser más conservador frente a afirmaciones basadas en especulación o inferencias indirectas, mientras que otorga mayor confianza a resultados respaldados por datos experimentales o citas verificables. En varios casos, la inteligencia artificial clasificó determinadas afirmaciones como inciertas o insuficientemente sustentadas allí donde revisores humanos habían emitido valoraciones más favorables. Esto sugiere que la automatización no necesariamente implica replicar sesgos humanos existentes, sino introducir nuevas formas de escrutinio científico potencialmente más sistemáticas y consistentes. La revisión científica comienza así a transformarse desde una práctica artesanal basada en juicio experto hacia un proceso parcialmente algorítmico basado en análisis estructurado del conocimiento.
Otro elemento decisivo del proyecto es su apuesta por la transparencia. A diferencia del sistema tradicional de revisión académica, donde los informes de los evaluadores suelen permanecer ocultos o limitados al editor y a los autores, OpenEval permite explorar públicamente los resultados a través de una interfaz interactiva. Los usuarios pueden examinar manuscritos concretos, visualizar cada afirmación extraída automáticamente y comparar directamente las evaluaciones emitidas por inteligencia artificial frente a revisores humanos. Esta apertura convierte el proceso de evaluación científica en un objeto de investigación en sí mismo, permitiendo estudiar empíricamente cómo se toman decisiones editoriales, qué tipo de afirmaciones generan mayor controversia y en qué áreas coinciden o divergen humanos y algoritmos. La revisión por pares deja de ser una práctica opaca para convertirse en un sistema observable y cuantificable.
Desde una perspectiva más amplia, OpenEval se inscribe en un cambio profundo dentro del ecosistema de comunicación científica contemporánea. Durante siglos, el artículo académico fue simultáneamente unidad de conocimiento, unidad narrativa y unidad de evaluación. Proyectos como OpenEval cuestionan esa estructura histórica al sugerir que el verdadero objeto de validación científica no debería ser el artículo como documento cerrado, sino cada afirmación verificable que lo compone. Esta lógica conecta directamente con propuestas emergentes que defienden una ciencia machine-readable, es decir, una producción científica estructurada de tal forma que sistemas artificiales puedan navegar, contrastar y evaluar automáticamente el conocimiento publicado. Si esta visión prospera, el peer review del futuro podría dejar de consistir en enviar manuscritos completos a dos o tres especialistas y pasar a funcionar como un sistema híbrido donde algoritmos analizan miles de afirmaciones individuales antes de que expertos humanos intervengan en la interpretación final.
La consecuencia filosófica de este proyecto resulta especialmente profunda. Durante siglos se asumió que evaluar ciencia era una capacidad exclusivamente humana basada en experiencia disciplinar, intuición metodológica y juicio crítico experto. OpenEval pone en cuestión esa convicción al demostrar que sistemas algorítmicos pueden participar activamente en la validación del conocimiento científico a gran escala. Esto obliga a replantear no solo la infraestructura editorial académica, sino conceptos mucho más amplios como autoridad científica, legitimidad epistemológica y confianza en los mecanismos que históricamente han definido qué conocimiento merece incorporarse al patrimonio intelectual colectivo. La inteligencia artificial deja así de ser simplemente una herramienta auxiliar para convertirse en un nuevo actor dentro del propio proceso de construcción y validación de la ciencia contemporánea.