Elsevier OA CC-BY Corpus.
Este es el primer corpus abierto de artículos de investigación científica que tiene una muestra representativa de todas las disciplinas científicas. Este corpus no solo incluye el texto completo del artículo, sino también los metadatos de los documentos, junto con la información bibliográfica de cada referencia.
Este conjunto de datos se publicó para respaldar el desarrollo de modelos de aprendizaje automático (ML) y procesamiento del lenguaje natural (NLP) dirigidos a artículos científicos de todos los dominios de investigación. Si bien la versión se basa en otros conjuntos de datos diseñados para dominios y tareas específicos, permitirá derivar conjuntos de datos similares o desarrollar modelos que se puedan aplicar y probar en todos los dominios.