Archivo de la etiqueta: Análisis de citas

The Venice Scholar Index: un sistema de extracción automática de referencias bibliográficas encontradas en un gran número de libros y revistas digitalizados

venice-scholar-index

 

El el proyecto Linked Books Project ha desarrollado un sistema de extracción automática de referencias bibliográficas encontradas en un gran número de libros y revistas digitalizados, Configurando así el índice de citas Venice Scholar Index de la literatura sobre la historia de Venecia, que indiza cerca de 3.000 volúmenes de estudios desde mediados del siglo XIX hasta 2013, de los que se han extraído unos 4 millones de referencias bibliográficas. Pero que puede ser utilizado en cualquier otro área de conocimiento.

 

Venice Scholar Index es el primer prototipo resultante del Linked Books Project, un proyecto liderado por Giovanni Colavizza y Matteo Romanello del Laboratorio de Humanidades Digitales de la EPFL (École Polytechnique Fédérale de Lausanne), con socios en Venecia, Milán y Roma.

El proyecto explora la historia de Venecia a través de referencias a la literatura científica, así como a documentos de archivo encontrados en publicaciones. Para lograr este objetivo, el proyecto ha desarrollado un sistema de extracción automática de referencias bibliográficas encontradas en un gran número de libros y revistas digitalizados, que se ha aplicado posteriormente a las publicaciones sobre la historia de Venecia, su principal caso de uso, pero que pueden ser utilizadas para cualquier otro área de las Humanidades.

The Linked Books Project está específicamente interesado en analizar la interacción entre las citas de documentos primarios (por ejemplo, de archivo) y las de fuentes secundarias (literatura académica), y los perfiles de citas de publicaciones a través del tiempo. Con este fin, desarrolló el Venice Scholar Index, una rica interfaz de búsqueda para navegar a través de la red de citas resultante, con el objetivo final de interconectar los archivos digitales y las bibliotecas digitales.

Los datos de citas en los que se basa Venice Scholar Index, se han modelado utilizando el Modelo de Datos de OpenCitations y utilizarán OpenCitations Corpus como plataforma de publicación.

 

Proyecto EXCITE. Extracción de citas de documentos PDF de las Ciencias sociales

 

2016_06_14_excite_final_0

The EXCITE Project (Extraction of Citations from PDF Documents)

http://west.uni-koblenz.de/en/research/excite/

EXCITE software https://github.com/exciteproject

Dado que las ciencias sociales sólo tienen una cobertura marginal en las principales bases de datos bibliográficas, el objetivo de este proyecto es poner a disposición de los investigadores más datos de citas, con especial atención a las ciencias sociales. Para llevar a cabo el proyecto se ha desarrollado un conjunto de algoritmos que permiten la extracción de información de referencia de documentos PDF, lo que permite cotejar las cadenas de entradas de referencia con las bases de datos bibliográficas existentes.

 

El Proyecto EXCITE tiene como finalidad la extracción de citas directamente de las publicaciones de Ciencias Sociales, es impulsado conjuntamente por la Universidad de Coblenza-Landau y el GESIS (Instituto de Ciencias Sociales de Leibniz), y financiado por la Deutsche Forschungsgemeinschaft (DFG)  Está dirigido por Steffen Staab, director del Instituto de Ciencia y Tecnología Web de la Universidad de Coblenza-Landau, y Philipp Mayr del GESIS.

La escasez de datos de citas en las ciencias sociales internacionales, es bien conocida por los investigadores en este campo y a menudo ha sido objeto de estudios académicos. Los datos de citas son la base de la recuperación efectiva de información, sistemas de recomendación y procesos de descubrimiento de conocimiento. El acceso a la información en las ciencias sociales va a la zaga de otros campos (por ejemplo, las ciencias naturales) en los que se dispone de más datos de citas.

El proyecto EXCITE tiene por objeto subsanar este vacío mediante el desarrollo de una cadena de herramientas de software para la extracción de referencias que se aplicará a las bases de datos científicas existentes (especialmente a los textos completos de ciencias sociales). Las herramientas están a disposición de otros investigadores. El proyecto desarrolla una serie de algoritmos para extraer referencias y citas de textos completos en PDF.

La extracción de citas se llevará a cabo en cinco pasos:

1) Extracción del texto de los documentos de origen,

2) Identificación de las secciones de referencia en el texto,

3) Segmentación de referencias individuales en campos como autor, título, etc.,

4) Cotejo de las cadenas de referencia con bases de datos bibliográficas,

5) Exportación de las referencias cotejadas en formatos y servicios utilizables.

En un futuro el proyecto prestará especial atención a la optimización de los componentes individuales de la extracción de citas. Esto se hará con la ayuda de métodos de aprendizaje automático que controlen la calidad de los datos extraídos de los componentes individuales. Los datos de citación extraídos se integrarán en los servicios y se publicarán como datos abiertos vinculados bajo licencias abiertas para permitir su reutilización. El software resultante de este proyecto se publicará bajo licencias de código abierto y se hará accesible a través de una API de WebService.

Excite integra y desarrolla métodos y los aplica en varias plataformas.

 

Linked Open Citation Database (LOC-DB) plataforma basada en un modelo de datos de citas abiertas basada en el catálogo de la biblioteca

 

 

loc-db-logo

 

Linked Open Citation Database

https://locdb.bib.uni-mannheim.de/blog/en/

 

La iniciativa “Open citations” es un una proyecto colaborativo entre editores académicos, investigadores y otras partes interesadas para promover la disponibilidad de datos de citas académicas sin ningún tipo de restricción o barrera.

 

Linked Open Citation Database, es uno de los proyectos pioneros basado en un sistema citas abiertas financiado por la Deutsche Forschungsgemeinschaft (DFG) con socios en Mannheim, Stuttgart, Kiel y Kaiserslautern, que están extrayendo citas de publicaciones de Ciencias Sociales.

El proyecto LOC-DB desarrollará herramientas y procesos listos para su uso basados en la tecnología de datos enlazados que hacen posible que una sola biblioteca contribuya significativamente a una infraestructura abierta y distribuida para la recolección de citas.

El proyecto utiliza enfoques basados en redes neuronales profundas para la detección de referencias y métodos de vanguardia para la extracción de información y el etiquetado semántico de listas de referencias desde medios electrónicos e impresos. Los datos brutos obtenidos se alinean y enlazan con las fuentes de metadatos existentes. Con el objetivo de demostrar cómo se pueden integrar estos datos en los catálogos de las bibliotecas. El sistema puede utilizarse de forma productiva por una sola biblioteca, pero en principio también podría ser escalable para su uso en red.

 

csm_loc-db-loesung

 

El proyecto pretende demostrar que, mediante una amplia automatización de los procesos de catalogación, es posible añadir un beneficio sustancial a las herramientas de búsqueda académica mediante la captura regular de relaciones de citas. Estos datos se pondrán a disposición en la web semántica para hacer posible su reutilización futura.

 

 

Código de prácticas para las métricas de uso de datos de investigación

 

biginfographic-1

Fenner M, Lowenberg D, Jones M, Needham P, Vieglais D, Abrams S, Cruse P, Chodacki J. (2018Code of practice for research data usage metrics release 1PeerJ Preprints 6:e26505v1 https://doi.org/10.7287/peerj.preprints.26505v1

 

El Código de Práctica para Métricas de Uso de Datos de Investigación estandariza la generación y distribución de métricas de uso para datos de investigación, permitiendo por primera vez un modelo consistente y creíble del uso de datos de investigación. Esta es la primera versión del Código de Práctica y las recomendaciones están lo más alineadas posible con la versión 5 del Código de Práctica de COUNTER que estandariza las métricas de uso de recursos académicos, incluyendo revistas y libros. Con el Code of Practice for Research Data Usage Metrics, los repositorios de datos y los proveedores de plataformas pueden proporcionar métricas de uso siguiendo las mejores prácticas comunes y utilizando un formato de informe estándar. Este es un paso esencial hacia la realización de las métricas de uso de como los datos de investigación disponibles públicamente están siendo reutilizados. Esto complementa el trabajo en curso sobre el establecimiento de mejores prácticas y servicios para la citación de datos.

 

 

Teoría y práctica de la citación de datos de investigación

 

 

simons-fig3

Silvello, G. “Theory and practice of data citation.” Journal of the Association for Information Science and Technology vol. 69, n. 1 (2018). pp. 6-20. http://dx.doi.org/10.1002/asi.23917

 

Las citas son la piedra angular de la propagación del conocimiento y el medio principal para evaluar la calidad de la investigación, así como para dirigir las inversiones en ciencia. La ciencia se está haciendo cada vez más “intensiva en datos”, donde se recogen y analizan grandes volúmenes de datos para descubrir patrones complejos mediante simulaciones y experimentos, y la mayoría de las obras científicas de referencia están siendo reemplazadas por conjuntos de datos curados en línea. Sin embargo, dado un conjunto de datos, no existe una forma cuantitativa, consistente y establecida de saber cómo se ha utilizado a lo largo del tiempo, quién contribuyó a su curación, qué resultados se han obtenido o qué valor tiene.

El desarrollo de una teoría y práctica de la citación de datos es fundamental para considerar los datos como objetos de investigación de primera clase con la misma relevancia y centralidad de los productos científicos tradicionales. Muchos trabajos en los últimos años han discutido la citación de datos desde diferentes puntos de vista: ilustrando por qué se necesita la citación de datos, definiendo los principios y esbozando recomendaciones para los sistemas de citación de datos, y proporcionando métodos computacionales para abordar temas específicos de la citación de datos. El panorama actual es polifacético y falta todavía una visión global que reúna diversos aspectos de este tema.

Cita y reutilización de datos de investigación : análisis del contenido de las publicaciones a texto completo.

 

dmkc2nrwsaardhw-large-1024x750

Zhao, M., E. Yan, et al. “Data set mentions and citations: A content analysis of full-text publications.” Journal of the Association for Information Science and Technology vol. 69, n. 1 (2018). pp. 32-46. http://dx.doi.org/10.1002/asi.23919

 

Este estudio proporciona evidencias de menciones y citas de conjuntos de datos en múltiples disciplinas basadas en un análisis del contenido de 600 publicaciones en PLoS One. Se encuentra que las menciones y citas de los conjuntos de datos variaron enormemente entre disciplinas en términos de cómo se recolectaron, referenciaron y curaron los conjuntos de datos. Aunque la mayoría de los artículos proporcionaron libre acceso a los datos, en un número limitado de artículos se utilizaron formas normalizadas de atribución de datos, como los DOI y las citas de datos. Además, la reutilización de los datos tuvo lugar en menos del 30% de las publicaciones que utilizaron los datos, lo que sugiere que los investigadores todavía se inclinan a crear y utilizar sus propios conjuntos de datos, en lugar de reutilizar los datos previamente curados. Este documento proporciona una comprensión exhaustiva de cómo se utilizan los conjuntos de datos en la ciencia y ayuda a las instituciones y editores a elaborar políticas de datos útiles.

El 35% del total de citas recibidas por artículos de investigación son autocitas

istock_000007032716_large

Ramesh, P. and S. Shivendra “Self-citations, a trend prevalent across subject disciplines at the global level: an overview.” Collection Building vol. 36, n. 3 (2017). pp. 115-126. http://www.emeraldinsight.com/doi/abs/10.1108/CB-03-2017-0008

 

El presente estudio tiene como objetivo determinar la tendencia predominante de autocitas en 27 disciplinas principales a nivel global. El estudio también analiza los aspectos como el porcentaje de autorrecursos en cada disciplina individual y el número promedio de autocitas por publicación en diferentes disciplinas. Además el estudio también investiga el porcentaje de autocitación de artículos de investigación publicados de los 20 principales países de investigación del mundo. Los datos de estos hallazgos se basan en datos empíricos realizados sobre datos secundarios obtenidos de SCImago Journal & Country Ranking, se basaen la fuente de datos SCOPUS (SCImago, 2014).

En total, 76.634.557 citas fueron recibidas por 14.946.975 artículos de investigación publicados entre 2008 y 2012 con un promedio de 5.12 citas por artículo. Del total de citas recibidas, 26,404,609 (34,45 por ciento) fueron autocitas, lo que significa que del total de citas recibidas por cada artículo de investigación, 1,76 son autocitas.

En comparación con las disciplinas sujetas a las ciencias sociales y humanísticas, las ciencias puras y aplicadas han mostrado una mayor tendencia a la autocitación. De promedio, se observaron 4.18 autocitas en cada artículo de investigación publicado en disciplinas disciplinarias multidisciplinarias. Del total de citas recibidas por artículos de investigación publicados en la disciplina de Psicología, el 43,69 por ciento son citas propias, las más altas entre todas las disciplinas objeto de estudio. Del total de citas propias recibidas por todas las disciplinas objeto de estudio, el 18,43 por ciento fueron recibidos solos en medicina, el más alto porcentaje entre todas las disciplinas, mientras que las Ciencias Sociales y Humanísticas recibieron menos del 1,00 por ciento de citas propias, el más bajo entre todas las disciplinas .

Sobre la manipulación de las citas en la evaluación científica. ¿Hasta donde es aceptable la manipulación de las citas?

5cb00472b6c6dbb776e084f2d419c5ac

How Much Citation Manipulation Is Acceptable?.The Scholarly Kitchen, 30 de mayo de 2017

Ver completo

En todos los sistemas de medición científica existe un margen de error debido en buena parte a patrones de citas anómalos, un eufemismo para referirse a la autocita sistémica, una práctica bastante común con la que algunas revistas coaccionen a sus autores que desean publicar en ellas para que citen artículos de la misma revista con el objetivo de mejorar su posicionamiento en los rankings, entre los argumentos que utilizan algunos editores para justificar esta práctica poco ética es que también recurren a esta práctica sus competidores, y que por lo tanto es una manera de reequilibrar la situación. Según datos de Clarivate Analytics, la compañía  que publica Journal Citation Report (JCR), el año pasado, 18 títulos de revistas fueron suspendidos del JCR, 16 por altos niveles de auto-cita, los otros dos para “apilar citas”. Entre estas revistas está Land Degradation & Development (LDD), en la que durante 2015, casi la mitad de las auto-citas de esta revistas (46%) se centraron en los artículos de los dos años anteriores de la publicación, en comparación con sólo 4% de las citas que desde LDD se hicieron a otras revistas. Esta cuestión es importante, ya que el Factor de Impacto mide las citas que se recibió la revista los dos años anteriores en relación con el total de artículos publicados en esos dos años. Sin estas citas el factor de impacto de LDD habría sido menos de la mitad (3.982) de la puntuación que recibió (8.145). Por lo tanto hay que preguntarse: ¿Hasta donde es aceptable la manipulación de las citas?

Análisis de datos de investigación: correlación entre citas y puntuaciones altmetrics

 

altmetric-jobs-1024x873

Peters, Isabella et al. “Research Data Explored: An Extended Analysis of Citations and Altmetrics.” Scientometrics 107 (2016): 723–744. PMC. Web. 25 Apr. 2017.

Texto completo

ePub (beta)

PDF (474K)

 

En este estudio, se explora la citatividad de los datos de investigación, su distribución en el tiempo y su relación con la disponibilidad de un identificador de objeto digital (DOI) en la base de datos Thomson Reuters Data Citation Index (DCI). Se investiga si los datos de investigación citados tienen impacto social en la web viéndose reflejados por las puntuaciones de agregadores altmetrics; y si hay alguna corelación entre el número de citas y la suma de puntuaciones altmetrics de varias plataformas de medios sociales. Para ello se utilizaron tres herramientas para recopilar las  puntuaciones altmetrics:  PlumX, ImpactStory y Altmetric.com, y se compararon los resultados correspondientes.

Los resultados del estudio muestran que de las tres herramientas altmétricas utilizadas, PlumX tiene la mejor cobertura, y que los datos de la investigación permanecen en la mayoría de las ocasiones como no valorados (alrededor del 85%), aunque se reconoce que ha habido un aumento en los conjuntos de datos citados publicados desde 2008. El porcentaje del número de datos de investigación citados con un DOI en ICD ha disminuido en los últimos años. Sólo nueve repositorios son responsables de los datos de investigación con DOIs y dos o más citas. El número de datos de investigación citados con altmetrics “foot-prints” es aún más bajo (4-9%), pero muestra una mayor cobertura de los datos de investigación de la última década.

En el estudio también no se encontró correlación entre el número de citas y el número total de puntuaciones altmetrics. Sin embargo, algunos tipos de datos (por ejemplo, encuestas, datos agregados y datos de secuencias) son más citados y también reciben puntuaciones altmetrics más altas. Además, se realizaron análisis de citas y resultados en almetrics de todos los datos de investigación publicados entre 2011 y 2013 en cuatro disciplinas diferentes cubiertas por el ICD. En general, estos resultados se corresponden con los obtenidos para los datos de investigación citados al menos dos veces y también muestran un bajo número de citas en altmetrics. Finalmente, se observa que existen diferencias disciplinarias en la disponibilidad y el alcance de las puntuaciones altmétricas.

¿Existe correlación entre el aumento de la cooperación entre científicos gracias a internet y el impacto de la citación?

lab-scientists-green-art

Bornmann, L. “Is collaboration among scientists related to the citation impact of papers because their quality increases with collaboration? An analysis based on data from F1000Prime and normalized citation scores.” Journal of the Association for Information Science and Technology vol., n. (2016). pp.: http://doi.wiley.com/10.1002/asi.23728

¿Está relacionada la la colaboración entre los científicos a través de redes sociales con el impacto de la citación de los artículos ? Un análisis basado en datos de F1000Prime y puntajes de citas normalizados

En los últimos años, la relación de colaboración entre los científicos y el impacto de la citación de los documentos se han investigado con frecuencia. La mayor parte de los estudios muestran que las dos variables están estrechamente relacionadas: Una actividad de colaboración creciente (medida en términos de número de autores, número de afiliaciones y número de países) se asocia con un mayor impacto en las citas. Sin embargo, no está claro si el aumento del impacto de la citación se basa en la mayor calidad de los artículos que se benefician del aporte de más de un científico o de otros factores (específicos de la citación). Por lo que en el estudio se aborda esta cuestión utilizando dos conjuntos de datos completos con publicaciones (en el área biomédica), incluyendo evaluaciones de calidad por expertos (puntajes de miembros de F1000Prime) y datos de citas para las publicaciones. El estudio se basa en más de 15.000 documentos. Se utilizan modelos de regresión sólidos para investigar la relación entre el número de autores, el número de afiliaciones y el número de países, respectivamente, y el impacto de la citación para la calidad de los documentos (medido por las calificaciones de los expertos F1000Prime). Los resultados señalan que el efecto de las actividades de colaboración sobre el impacto es en gran parte independiente de la calidad de los documentos. La ventaja de la citación aparentemente no está relacionada con la calidad; Los factores específicos de la citación (por ejemplo, las auto citas) parecen ser más importantes.