Archivo de la etiqueta: Citas bibliográficas

The Venice Scholar Index: un sistema de extracción automática de referencias bibliográficas encontradas en un gran número de libros y revistas digitalizados

venice-scholar-index

 

El el proyecto Linked Books Project ha desarrollado un sistema de extracción automática de referencias bibliográficas encontradas en un gran número de libros y revistas digitalizados, Configurando así el índice de citas Venice Scholar Index de la literatura sobre la historia de Venecia, que indiza cerca de 3.000 volúmenes de estudios desde mediados del siglo XIX hasta 2013, de los que se han extraído unos 4 millones de referencias bibliográficas. Pero que puede ser utilizado en cualquier otro área de conocimiento.

 

Venice Scholar Index es el primer prototipo resultante del Linked Books Project, un proyecto liderado por Giovanni Colavizza y Matteo Romanello del Laboratorio de Humanidades Digitales de la EPFL (École Polytechnique Fédérale de Lausanne), con socios en Venecia, Milán y Roma.

El proyecto explora la historia de Venecia a través de referencias a la literatura científica, así como a documentos de archivo encontrados en publicaciones. Para lograr este objetivo, el proyecto ha desarrollado un sistema de extracción automática de referencias bibliográficas encontradas en un gran número de libros y revistas digitalizados, que se ha aplicado posteriormente a las publicaciones sobre la historia de Venecia, su principal caso de uso, pero que pueden ser utilizadas para cualquier otro área de las Humanidades.

The Linked Books Project está específicamente interesado en analizar la interacción entre las citas de documentos primarios (por ejemplo, de archivo) y las de fuentes secundarias (literatura académica), y los perfiles de citas de publicaciones a través del tiempo. Con este fin, desarrolló el Venice Scholar Index, una rica interfaz de búsqueda para navegar a través de la red de citas resultante, con el objetivo final de interconectar los archivos digitales y las bibliotecas digitales.

Los datos de citas en los que se basa Venice Scholar Index, se han modelado utilizando el Modelo de Datos de OpenCitations y utilizarán OpenCitations Corpus como plataforma de publicación.

 

Anuncios

Proyecto EXCITE. Extracción de citas de documentos PDF de las Ciencias sociales

 

2016_06_14_excite_final_0

The EXCITE Project (Extraction of Citations from PDF Documents)

http://west.uni-koblenz.de/en/research/excite/

EXCITE software https://github.com/exciteproject

Dado que las ciencias sociales sólo tienen una cobertura marginal en las principales bases de datos bibliográficas, el objetivo de este proyecto es poner a disposición de los investigadores más datos de citas, con especial atención a las ciencias sociales. Para llevar a cabo el proyecto se ha desarrollado un conjunto de algoritmos que permiten la extracción de información de referencia de documentos PDF, lo que permite cotejar las cadenas de entradas de referencia con las bases de datos bibliográficas existentes.

 

El Proyecto EXCITE tiene como finalidad la extracción de citas directamente de las publicaciones de Ciencias Sociales, es impulsado conjuntamente por la Universidad de Coblenza-Landau y el GESIS (Instituto de Ciencias Sociales de Leibniz), y financiado por la Deutsche Forschungsgemeinschaft (DFG)  Está dirigido por Steffen Staab, director del Instituto de Ciencia y Tecnología Web de la Universidad de Coblenza-Landau, y Philipp Mayr del GESIS.

La escasez de datos de citas en las ciencias sociales internacionales, es bien conocida por los investigadores en este campo y a menudo ha sido objeto de estudios académicos. Los datos de citas son la base de la recuperación efectiva de información, sistemas de recomendación y procesos de descubrimiento de conocimiento. El acceso a la información en las ciencias sociales va a la zaga de otros campos (por ejemplo, las ciencias naturales) en los que se dispone de más datos de citas.

El proyecto EXCITE tiene por objeto subsanar este vacío mediante el desarrollo de una cadena de herramientas de software para la extracción de referencias que se aplicará a las bases de datos científicas existentes (especialmente a los textos completos de ciencias sociales). Las herramientas están a disposición de otros investigadores. El proyecto desarrolla una serie de algoritmos para extraer referencias y citas de textos completos en PDF.

La extracción de citas se llevará a cabo en cinco pasos:

1) Extracción del texto de los documentos de origen,

2) Identificación de las secciones de referencia en el texto,

3) Segmentación de referencias individuales en campos como autor, título, etc.,

4) Cotejo de las cadenas de referencia con bases de datos bibliográficas,

5) Exportación de las referencias cotejadas en formatos y servicios utilizables.

En un futuro el proyecto prestará especial atención a la optimización de los componentes individuales de la extracción de citas. Esto se hará con la ayuda de métodos de aprendizaje automático que controlen la calidad de los datos extraídos de los componentes individuales. Los datos de citación extraídos se integrarán en los servicios y se publicarán como datos abiertos vinculados bajo licencias abiertas para permitir su reutilización. El software resultante de este proyecto se publicará bajo licencias de código abierto y se hará accesible a través de una API de WebService.

Excite integra y desarrolla métodos y los aplica en varias plataformas.

 

Los académicos usan habitualmente Wikipedia, pero rara vez la citan

wikipedia-no-es-fiable

Thompson, Neil ; Hanley, Douglas “Science Is Shaped by Wikipedia: Evidence From a Randomized Control Trial.” MIT Sloan Research Paper No. 5238-17

Texto completo

“A veces pienso que los tratados generales y populares son casi tan importantes para el progreso de la ciencia como el trabajo original.”

Charles Darwin, 1865.

Wikipedia  está entre los diez sitios más visitados del mundo, su uso es una práctica común en la educación y la ciencia. Pero, ¿cómo son las relaciones que los investigadores han establecido con la más famosa enciclopedia en línea participativa y colaborativa?  Este trabajo demuestra que los académicos utilizan frecuentemente la Wikipedia, aunque por diversas razones no la citan en sus trabajos de investigación.

Muchas universidades prohíben específicamente las citaciones a la enciclopedia en línea en los documentos de estudiantes y profesores, razonando que las definiciones generadas por la multitud no pueden ser tan exactas y exhaustivas como las creadas por los investigadores. Esto es así a pesar del hecho de que algunos estudios han encontrado que los artículos de Wikipedia son considerablemente más largos y contienen menos errores que los de las enciclopedias convencionales. Irónicamente, el MIT, que patrocinó y dio a conocer este estudio que referenciamos aquí, prohíbe el uso de Wikipedia en la investigación académica.

Hace algunos años pude entrevistar en mi programa de Radio “Planeta Biblioteca” a Eduard Aibar, profesor de Humanidades de la UOC  y especialista en estudios sobre Ciencia y Tecnología, sobre un estudio que estaba desarrollado en torno a las “Percepciones, aptitudes y prácticas de los profesores ante la Wikipedia“, en el que ya apuntó la idea de que aunque la Wikipedia se considera una fuente poco confiable, es usada habitualmente por los profesores, si bien no reconocen que la utilizan. Un estudio de 2009 halló que el 26 por ciento de los médicos en formación consultan regularmente a Wikipedia para un consejo médico y que el 70 por ciento lo utilizan al menos de vez en cuando. Los profesionales están usando la Wikipedia intensamente tanto para utilizarla en información científica y profesional. En 2015 se publicó un libro titulado  Wikipédia, objet scientifique non identifié. que abordaba los patrones de uso de la Wikipedia por parte de los investigadores, llegando a unas conclusiones similares. El pasado año G. Maresh publicó en JIST  “Academia’s recognition of Wikipedia”, este estudio correlacionaba las citas de la Wikipedia en Wos y afirmaba que la confianza de los investigadores en la Wikipedia va en aumento. Otra investigación de  Teplitskiy, y otros “Amplifying the impact of open access: Wikipedia and the diffusion of science.” demuestra que los artículos en acceso abierto son un 50% más referenciados en la Wikipedia

Esta misma idea sobre el nivel confiabilidad de la enciclopedia y el reconocimiento por parte de los académicos es la que se plantearon dos investigadores del Massachusetts Institute of Technology (MIT) y la Universidad de Pittsburgh, que recientemente publicaron una investigación que muestra como la Wikipedia está impactando sobre la investigación científica, aunque los autores casi nunca la citan como fuente. El estudio utilizó un modelo estadístico para establecer que Wikipedia también está ayudando a avanzar el progreso de la ciencia en todo el mundo, particularmente en los países menos desarrollados. Neil C. Thompson, de la Escuela Sloan del MIT, y Douglas Hanley, de la Universidad de Pittsburgh, descubrieron que el lenguaje de los artículos científicos publicados en Wikipedia aparece en las principales revistas académicas, con una sorprendente duplicación, particularmente frecuente entre las revistas más prestigiosas. Esto a pesar de que sólo el 0,01 por ciento de los artículos científicos citan a Wikipedia como fuente. Para demostrarlo, los investigadores encargaron a estudiantes de postgrado que escribieran 43 artículos sobre temas de química que Wikipedia no cubría aún. A continuación realizaron un análisis de palabras clave de revistas científicas relacionadas seis meses antes y seis meses después de la publicación de cada artículo para ver con qué frecuencia las palabras usadas en Wikipedia aparecían en la investigación académica y compararon los resultados con un grupo de control de artículos inéditos sobre temas similares. La investigación mostró una correlación estadísticamente significativa entre la presencia de un artículo de Wikipedia y una terminología comparable en los trabajos académicos. Para un artículo típico en el campo, Wikipedia influyó en una de cada 300 palabras. Se encontró una correlación aún mayor entre las revistas que publicaban investigación de vanguardia, donde se vieron afectada una de cada 140 palabras. Sin embargo, casi ninguno de los artículos estudiados citó a Wikipedia como fuente. Sin embargo, la investigación de Thompson y Hanley no se centro en el uso poco ético de esta fuente, sino en demostrar  la importancia de Wikipedia como herramienta de difusión. Interpretando la hipótesis de que los nuevos artículos de Wikipedia creados a partir de la ciencia de vanguardia se convierten en un camino para que otros aprendan acerca de esas ideas. Es decir, que la Wikipedia tiene un importante valor en la difusión del conocimiento.

Posteriormente analizaron por qué son tan raras y escasas las citas de Wikipedia en los trabajos de investigación. Una posible razón es la vergüenza, Hay un sentimiento de que hay ciertas cosas que los académicos hacen y citar una enciclopedia es algo no parece muy científico de cara a sus colegas. Otra teoría, es que el contenido de Wikipedia se considera parte del corpus de conocimiento público y por lo tanto no necesita una citación.

Un hallazgo importante fue que los autores científicos en los países más pobres tenían hasta un 50% más de probabilidades de ser influenciados por Wikipedia que aquellos que vivían en países económicamente más desarrollados, lo que sugiere que las fuentes de referencia en línea ayudan a nivelar la brecha digital en el campo educativo. Estos resultados sugieren que los repositorios públicos de conocimiento, como Wikipedia, tienen un efecto de mejora de la equidad, beneficiando a quienes tienen menos acceso a la información.

Los autores elogiaron a Wikipedia por su amplitud de cobertura, señalando que incluye más del 90 por ciento de los temas científicos cubiertos en un programa de licenciatura y el 43 por ciento a nivel de grado. Los artículos que los estudiantes graduados crearon obtuvieron una excelente tracción, teniendo más de 4.400 vistas por mes y acumulando más de 2 millones de vistas en dos años. Eso estableció un cambio de influencia causal estadísticamente válida.

Gracias a I4OC, Crossref tiene el potencial de convertirse en una fuente abierta de datos de citas

 

94deefeeb961912e370e5372efa6b5ff__598

Ver noticia original

En la actualidad, los cienciometristas suelen obtener datos de citación de Web of Science (WoS) y Scopus, dos fuentes de datos patentadas. En este post, se proporciona información empírica sobre el valor de Crossref como una nueva fuente de datos de citas. Cimparando Crossref con WoS y Scopus, centrándonos en los datos de citación disponibles en las diferentes fuentes de datos. El análisis demuestra que más de tres cuartas partes de las referencias en WoS y más de dos tercios de las referencias Scopus pueden encontrarse en Crossref, con cerca de la mitad de estas referencias disponibles abiertamente.

Initiative for Open Citations (I4OC)   anima a los editores académicos a publicar las referencias encontradas en sus revistas y libros a través de Crossref. -Con algunas excepciones como American Chemical Society, Elsevier, IEEE y Wolters Kluwer Health-, casi todas las grandes editoriales apoyan la iniciativa. Hasta ahora, este apoyo ha hecho que aproximadamente la mitad de todas las referencias depositadas en Crossref estén abiertamente disponibles, lo que ha dado lugar a unos 500 millones de referencias abiertas.

Una gran parte de la literatura académica indexada en WoS y Scopus también está disponible en Crossref. En los últimos años, el 68% de las publicaciones WoS y el 77% de las publicaciones Scopus gracias al cruce de datos entre Crossref  y DOI. Es probable que estas cifras subestimen el verdadero solapamiento entre las fuentes de datos, ya que la comparación basada en los DOIs presenta varias dificultades, tales como los datos incorrectos, la falta de datos o los ducplicados. Para mejorar la correspondencia, los editores y proveedores de datos se necesitaría trabajar en común para ofrecer datos DOI más completos y precisos.

Cita y reutilización de datos de investigación : análisis del contenido de las publicaciones a texto completo.

 

dmkc2nrwsaardhw-large-1024x750

Zhao, M., E. Yan, et al. “Data set mentions and citations: A content analysis of full-text publications.” Journal of the Association for Information Science and Technology vol. 69, n. 1 (2018). pp. 32-46. http://dx.doi.org/10.1002/asi.23919

 

Este estudio proporciona evidencias de menciones y citas de conjuntos de datos en múltiples disciplinas basadas en un análisis del contenido de 600 publicaciones en PLoS One. Se encuentra que las menciones y citas de los conjuntos de datos variaron enormemente entre disciplinas en términos de cómo se recolectaron, referenciaron y curaron los conjuntos de datos. Aunque la mayoría de los artículos proporcionaron libre acceso a los datos, en un número limitado de artículos se utilizaron formas normalizadas de atribución de datos, como los DOI y las citas de datos. Además, la reutilización de los datos tuvo lugar en menos del 30% de las publicaciones que utilizaron los datos, lo que sugiere que los investigadores todavía se inclinan a crear y utilizar sus propios conjuntos de datos, en lugar de reutilizar los datos previamente curados. Este documento proporciona una comprensión exhaustiva de cómo se utilizan los conjuntos de datos en la ciencia y ayuda a las instituciones y editores a elaborar políticas de datos útiles.

Youtube como objeto de investigación: análisis de citas a los vídeos de Youtube en la investigación mundial

youtube-680x380

Noruzi, A. “YouTube in scientific research: A bibliometric analysis.” Webology vol. 14, n. 1 (2017). pp. 1-7.

Texto completo

 

YouTube se ha convertido en el objeto de la investigación científica en diferentes áreas temáticas. El objetivo de este estudio es ofrecer una visión general de la tasa de citaciones de YouTube desde su lanzamiento en febrero de 2005, basada en la base de datos de citaciones Scopus. El número total de citaciones a YouTube en Scopus en el período de 12 años fue de 36.486, de las cuales el mayor número de citaciones fue de 8.145 en 2016. También se demuestra que los videos cargados en YouTube son altamente citados por las ciencias sociales, informática, artes y humanidades, ingeniería y medicina. Se puede ver que los investigadores de los Estados Unidos, Reino Unido, Australia, Canadá, Alemania, China y España citan videos subidos a YouTube más que en otros países. El análisis de los tipos de documentos indica que los artículos ocupan el primer lugar con el 48,2 por ciento de todos los documentos, seguidos por los documentos de conferencias (21,9 %), capítulos de libros (11,9 %), reseñas (7,7 %), libros (7,0 %), etcétera. Se puede concluir que YouTube es citado cada vez más por diferentes áreas temáticas, por diferentes idiomas (especialmente el inglés) y por varios países.

¿Las citas de Wikipedia son una prueba importante del impacto de los libros y artículos científicos?

 

162567-821-463

Kousha, K. and M. Thelwall “Are wikipedia citations important evidence of the impact of scholarly articles and books?” Journal of the Association for Information Science and Technology vol. 68, n. 3 (2017). pp. 762-779. http://dx.doi.org/10.1002/asi.23694

 

Los investigadores y los evaluadores a menudo necesitan evaluar el valor de la investigación publicada. Aunque los recuentos de citas es un indicador reconocido de impacto académico, se necesitan datos alternativos para evidenciar otros tipos de impacto, incluso dentro de la educación y la sociedad en general. Wikipedia es una opción lógica para ambos porque el papel de una enciclopedia general es ser un repositorio comprensible de los hechos sobre una variedad diversa de asuntos y por lo tanto es lógico citar la investigación para apoyar sus demandas. Para probar si Wikipedia podría proporcionar nuevas pruebas sobre el impacto de la investigación académica, este artículo recopiló citas a 302.328 artículos y 18.735 monografías en inglés indexadas por Scopus en el período 2005 a 2012. Los resultados muestran que las citas de Wikipedia a los artículos son poco frecuentes., citándose sólo el 5% de los artículos de todas las disciplinas. En contraste, un tercio de las monografías tienen por lo menos una cita en Wikipedia, la mayoría en las Artes y las Humanidades. Por lo tanto, las citas de Wikipedia pueden proporcionar una evidencia adicional del impacto para las monografías académicas. Sin embargo, los resultados pueden ser relativamente fáciles de manipular y por lo tanto no se recomienda la Wikipedia para las evaluaciones que afectan a los intereses de las partes interesadas