Proyecto EXCITE. Extracción de citas de documentos PDF de las Ciencias sociales

 

2016_06_14_excite_final_0

The EXCITE Project (Extraction of Citations from PDF Documents)

http://west.uni-koblenz.de/en/research/excite/

EXCITE software https://github.com/exciteproject

Dado que las ciencias sociales sólo tienen una cobertura marginal en las principales bases de datos bibliográficas, el objetivo de este proyecto es poner a disposición de los investigadores más datos de citas, con especial atención a las ciencias sociales. Para llevar a cabo el proyecto se ha desarrollado un conjunto de algoritmos que permiten la extracción de información de referencia de documentos PDF, lo que permite cotejar las cadenas de entradas de referencia con las bases de datos bibliográficas existentes.

 

El Proyecto EXCITE tiene como finalidad la extracción de citas directamente de las publicaciones de Ciencias Sociales, es impulsado conjuntamente por la Universidad de Coblenza-Landau y el GESIS (Instituto de Ciencias Sociales de Leibniz), y financiado por la Deutsche Forschungsgemeinschaft (DFG)  Está dirigido por Steffen Staab, director del Instituto de Ciencia y Tecnología Web de la Universidad de Coblenza-Landau, y Philipp Mayr del GESIS.

La escasez de datos de citas en las ciencias sociales internacionales, es bien conocida por los investigadores en este campo y a menudo ha sido objeto de estudios académicos. Los datos de citas son la base de la recuperación efectiva de información, sistemas de recomendación y procesos de descubrimiento de conocimiento. El acceso a la información en las ciencias sociales va a la zaga de otros campos (por ejemplo, las ciencias naturales) en los que se dispone de más datos de citas.

El proyecto EXCITE tiene por objeto subsanar este vacío mediante el desarrollo de una cadena de herramientas de software para la extracción de referencias que se aplicará a las bases de datos científicas existentes (especialmente a los textos completos de ciencias sociales). Las herramientas están a disposición de otros investigadores. El proyecto desarrolla una serie de algoritmos para extraer referencias y citas de textos completos en PDF.

La extracción de citas se llevará a cabo en cinco pasos:

1) Extracción del texto de los documentos de origen,

2) Identificación de las secciones de referencia en el texto,

3) Segmentación de referencias individuales en campos como autor, título, etc.,

4) Cotejo de las cadenas de referencia con bases de datos bibliográficas,

5) Exportación de las referencias cotejadas en formatos y servicios utilizables.

En un futuro el proyecto prestará especial atención a la optimización de los componentes individuales de la extracción de citas. Esto se hará con la ayuda de métodos de aprendizaje automático que controlen la calidad de los datos extraídos de los componentes individuales. Los datos de citación extraídos se integrarán en los servicios y se publicarán como datos abiertos vinculados bajo licencias abiertas para permitir su reutilización. El software resultante de este proyecto se publicará bajo licencias de código abierto y se hará accesible a través de una API de WebService.

Excite integra y desarrolla métodos y los aplica en varias plataformas.

 

Un pensamiento en “Proyecto EXCITE. Extracción de citas de documentos PDF de las Ciencias sociales

  1. Pingback: Proyecto EXCITE. Extracción de citas de documentos PDF de las Ciencias sociales | Universo Abierto | INVESTIGACIÓN

Los comentarios están cerrados.