Archivo de la etiqueta: Gestión de datos de investigación

Desarrollo de las habilidades bibliotecarias para la ciencia de los datos y la ciencia abierta.

Federer, L., Clarke, S. C., & Zaringhalam, M. (2020, January 16). Developing the Librarian Workforce for Data Science and Open Science. https://doi.org/10.31219/osf.io/uycax

En el presente informe se resumen las deliberaciones y los principales temas que surgieron de un taller de un día y medio de duración sobre el desarrollo de la fuerza de trabajo de la ciencia de los datos bibliotecarios y la ciencia abierta, celebrado los días 15 y 16 de abril de 2019 en la Biblioteca Nacional de Medicina (NLM). El taller tuvo como objetivo identificar el conjunto de habilidades que los bibliotecarios necesitarán para avanzar en el trabajo en ciencia de datos y ciencia abierta (DS/OS). Entre los participantes en el taller figuraban profesionales que prestan servicios de DS/OS, así como profesores de escuelas de biblioteconomía y ciencias de la información que están promoviendo el DS/OS en entornos académicos.

El giro de la red: cambio de perspectivas en las humanidades

Ahnert, R., Ahnert, S., Coleman, C., & Weingart, S. (2021). The Network Turn: Changing Perspectives in the Humanities (Elements in Publishing and Book Culture). Cambridge: Cambridge University Press. doi:10.1017/9781108866804

Texto completo

Vivimos en un mundo interconectado. Las plataformas de redes sociales en línea y la World Wide Web han cambiado la forma en que la sociedad piensa sobre la conectividad. Debido a la naturaleza tecnológica de tales redes, su estudio ha tenido lugar predominantemente dentro de los dominios de la informática y campos científicos relacionados. Pero los estudiosos de las artes y las humanidades utilizan cada vez más los mismos tipos de análisis visual y cuantitativo para arrojar luz sobre aspectos de la cultura y la sociedad hasta ahora ocultos. Este documento sostiene que las redes son una categoría de estudio que atraviesa las barreras académicas tradicionales, uniendo diversas disciplinas a través de una comprensión compartida de la complejidad de nuestro mundo. Además, estamos en un momento en el que es crucial que los estudiosos de las artes y las humanidades se sumen a la crítica de cómo se están aprovechando los datos de las redes a gran escala y el análisis avanzado de las redes con fines de poder, vigilancia y ganancias comerciales.

Desarrollo de Recursos de Datos Abiertos Vinculados Lingüísticamente para la Investigación Colaborativa de Datos en las Ciencias del Lenguaje

Development of Linguistic Linked Open Data Resources for Collaborative Data-Intensive Research in the Language Sciencesnull, . [e-Book] The MIT Press, 2019

Texto completo

Este libro es el producto de un taller internacional dedicado a abordar la accesibilidad a los datos en el campo de la lingüística. Por lo tanto, es vital para la misión del libro que su contenido sea de acceso abierto. La lingüística como campo permanece detrás de muchos otros en cuanto a manejo de datos y estrategias de accesibilidad. El problema es particularmente agudo en el subcampo de la adquisición de idiomas, en el que se necesitan archivos de sonido lingüísticos internacionales como referencia. Las preocupaciones de los lingüistas están muy vinculadas a la cantidad de información acumulada por los investigadores individuales a lo largo de los años, que sigue siendo fragmentada e inaccesible para la comunidad en general. Estas preocupaciones son compartidas por otros campos, pero la lingüística hasta la fecha ha visto pocos esfuerzos por abordarlas. Esta colección, emprendida por una serie de destacados expertos en la materia, representa un gran paso adelante. Su alcance internacional y la combinación interdisciplinaria de académicos/bibliotecarios/consultores de datos proporcionará una importante contribución al campo.


El bibliotecario de investigación del futuro: científico de datos y co-investigador

Jeannette Ekstrøm , Mikael Elbaek , Chris Erdmann e Ivo Grigorov. The research librarian of the future: data scientist and co-investigator. LSE, 4 dic. 2016

Ver original

Sigue existiendo una cierta desconexión entre la forma en que los propios bibliotecarios de investigación ven su papel y sus responsabilidades y cómo las ven sus colegas de la facultad. Jeannette Ekstrøm , Mikael Elbaek , Chris Erdmann e Ivo Grigorov imaginan cómo podría trabajar el bibliotecario de investigación del futuro, utilizando la nueva ciencia de datos y habilidades digitales para impulsar una investigación más colaborativa y abierta. Podría decirse que este futuro ya está sobre nosotros, pero las instituciones deben implementar un enfoque estructurado para desarrollar las habilidades y los servicios de los bibliotecarios para aprovechar plenamente los beneficios.

Imagina a los bibliotecarios de investigación como socios iguales en el proceso de investigación, ayudando a un investigador en cualquier disciplina a mapear las brechas de conocimiento existentes, identificar los cruces disciplinarios emergentes incluso antes de que sucedan, y ayudar en la formulación y el refinamiento de preguntas de investigación.

Imagina un bibliotecario pertrechado de las herramientas digitales para automatizar las revisiones de la literatura para cualquier disciplina, reduciendo miles de ideas de artículos en memes y luego aplicando análisis de redes para visualizar tendencias en líneas de investigación emergentes.

¿Qué pasaría si su bibliotecario de investigación pudiera profundizar y usar un complemento ami-2word para mapear en qué secciones de artículos aparecen los términos clave de su investigación? Imagina que los resultados confirman que tu término de investigación favorito casi nunca aparece en las secciones de resultados, sino que se agrupan solo en torno a presentaciones y perspectivas.

¿Y si el bibliotecario no se detuviera allí, sino que se acercara a la nube de datos con estadísticas inteligentes, aplicando las últimas técnicas de extracción de texto y datos para satisfacer incluso a la mente científica más escrutadora, antes de formular una pregunta de investigación innovadora?

Imagina a un bibliotecario que comprende, en términos pragmáticos, los beneficios de la ciencia abierta para el proceso de descubrimiento. Imaginate a un bibliotecario que también ofrece consejos prácticos sobre cómo hacer que esas ideas formen parte de su flujo de trabajo diario. ¿Te gustaría que ese bibliotecario te ayudara a poner en marcha tu carrera académica?

Puede parecer demasiado bueno para ser verdad, pero en cierto modo ya está sucediendo.

En la era digital, muchas de las habilidades y competencias que desarrollan los bibliotecarios para realizar servicios «básicos» pueden servir directamente al ciclo de vida y al flujo de trabajo de la investigación. Competencias como mapear el panorama del conocimiento, gestionar volúmenes de datos heterogéneos o presentarlos en formatos comprensibles no son cosas con las que todos los investigadores están dotados, pero de las que todas las hipótesis pueden beneficiarse.

Al utilizar sus habilidades digitales y de ciencia de datos, los bibliotecarios de investigación tienen la oportunidad de hacer una contribución importante al flujo de trabajo de sus colegas de la universidad. Las habilidades de los bibliotecarios en ciencia de datos pueden ayudar a navegar a través de la avalancha de información y realmente pueden cambiar la forma en que se los percibe: desde un servicio general hasta su consideración como investigadores co-investigadores.

A medida que cada vez es más necesaria una investigación más abierta y transparente como una obligación de los mandatos de los financiadores, los bibliotecarios de investigación se convierten en un socio indispensable para divulgar de manera óptima los diversos resultados del proceso de investigación; desde el asesoramiento sobre la elección de las licencias adecuadas para su reutilización, hasta la mejor conservación a largo plazo y la asignación de identificadores persistentes en relación con las prácticas de derechos de propiedad intelectual existentes.

Hacer del futuro bibliotecario un socio de investigación indispensable para el profesorado no solo cerraría la brecha en cómo se percibe el rol, sino que también crearía un conducto autosuficiente para incluir las mejores prácticas en la erudición colaborativa y abierta, e implementar la ciencia abierta de forma predeterminada. Al final, todo el mundo tendría más impacto.

Papers With Code: artículos académicos que también comparten su software de respaldo para que los experimentos puedan ser reproducidos fielmente.

Papers With Code

https://portal.paperswithcode.com/

Papers with Code (PwC), un sitio web que organiza el acceso a los documentos técnicos que también proporcionan el software utilizado para reproducir los resultados del documento, ha crecido enormemente en los últimos años. Junto con el aumento de los conjuntos de datos de acceso público, la investigación moderna ha comenzado a converger de nuevo hacia la plena transparencia y credibilidad.

La ciencia es acumulativa. La ciencia abierta, incluyendo la disponibilidad de artefactos clave como el código, ayuda a acelerar el progreso haciendo que la investigación sea más fácil de construir. El sitio web Papers with Code (PwC) alberga artículos académicos que también comparten su software de respaldo para que los experimentos puedan ser reproducidos fielmente. Mediante una colaboración conjunta, Papers with Code proporciona ahora una clasificación por categorías y referencias de código para los artículos de la base de datos arXiv.

El hecho de que arXiv permita compartir abiertamente la investigación por sí solo es genial para la comunidad investigadora mundial. Sin embargo, la gran mayoría de las nuevas investigaciones en los campos científicos ahora tienen software que respalda los hallazgos de la investigación. El hecho de no proporcionar ese software se corresponde con el hecho de no proporcionar todos los activos necesarios para validar la investigación. En un mundo centrado en la información, en el que la mayoría de los datos disponibles se han creado en los últimos años, la capacidad de utilizar programas informáticos para demostrar de forma independiente que los resultados de una investigación son válidos es cada vez más importante.

La misión de Papers With Code es crear un recurso libre y abierto con documentos de aprendizaje automático, código y tablas de evaluación. El objetivo del código es acelerar el progreso científico haciendo que la investigación sea más fácil de comprender, usar y difundir.

En octubre, arXiv lanzó una nueva característica que permite a los autores de arXiv vincular sus artículos de aprendizaje automático con un código asociado. Desarrollada en una colaboración de arXivLabs con Papers with Code, la herramienta fue recibida con gran entusiasmo por la comunidad ML de arXiv.

Como resultado de esta expansión, ahora están registrados más de 600.000 trabajos de investigación.

El CERN anuncia una nueva política de datos abiertos en apoyo de la ciencia abierta

CERN announces new open data policy in support of open science
11 December, 2020

Ver noticia

Una nueva política de datos abiertos para los experimentos científicos en Large Hadron Collider (LHC) hará que la investigación científica sea más reproducible, accesible y colaborativa.

El CERN fue pionero en el acceso abierto a la literatura científica con el consorcio SCOAP3, una asociación mundial de bibliotecas, organismos de financiación e instituciones de investigación de 46 países y organizaciones intergubernamentales, que es ahora la mayor iniciativa de acceso abierto del mundo. Además, el CERN colabora con muchas organizaciones, como la Comisión Europea y la UNESCO, en sus esfuerzos por promover las prácticas de ciencia abierta más allá de la física de partículas.

Los cuatro principales colaboradores del LHC (ALICE, ATLAS, CMS y LHCb) han respaldado unánimemente una nueva política de datos abiertos para los experimentos científicos en Large Hadron Collider (LHC), que se ha presentado hoy al Consejo del CERN. La política se compromete a hacer públicos los llamados datos científicos de nivel 3, el tipo necesario para realizar estudios científicos, recogidos por los experimentos del LHC. Los datos comenzarán a publicarse aproximadamente cinco años después de su recogida, y el objetivo es que el conjunto de datos completo esté disponible públicamente al final del experimento en cuestión. La política aborda el creciente movimiento de ciencia abierta, que tiene por objeto hacer que la investigación científica sea más reproducible, accesible y colaborativa.

Los datos de nivel 3 que se publiquen pueden contribuir a la investigación científica en la física de las partículas, así como a la investigación en el campo de la informática científica, por ejemplo para mejorar los métodos de reconstrucción o análisis basados en técnicas de aprendizaje por máquina, un enfoque que requiere ricos conjuntos de datos para la capacitación y la validación.

Se considera que los datos científicos tienen diferentes niveles de complejidad. Los datos del nivel 3 son del tipo que se utiliza como entrada para la mayoría de los estudios de física y se publicarán junto con el software y la documentación necesarios para utilizar los datos. Su publicación permitirá un análisis de alta calidad por parte de diversos grupos: científicos que no pertenecen al CERN, científicos de otros campos, iniciativas educativas y de divulgación y el público en general.

La política también abarca la publicación de los conjuntos de datos de nivel 1 y nivel 2, de los que ya se dispone de muestras. El nivel 1 corresponde a la información de apoyo de los resultados publicados en artículos científicos, y el nivel 2 corresponde a conjuntos de datos científicos específicos diseñados con fines educativos y de divulgación.

En la práctica, los conjuntos de datos científicos se publicarán a través del Portal de Datos Abiertos del CERN (Open Data Portal), que ya alberga un amplio conjunto de datos relacionados con LHC y otros experimentos. Los datos estarán disponibles utilizando las normas FAIR, un conjunto de directrices de datos que garantizan que los datos sean localizables, accesibles, interoperables y reutilizables.

Esta estrategia complementa la actual política de acceso abierto del CERN, que ordena que todos los resultados de las investigaciones del CERN se publiquen en acceso abierto. También está en consonancia con la reciente actualización de la Estrategia Europea de Física de las Partículas anunciada en junio de 2020. La nueva política podría utilizarse como un modelo para otros experimentos en el CERN y en otras organizaciones científicas.

Estado de los Datos Abiertos 2020

Science, Digital; Hahnel, Mark; McIntosh Borrelli, Leslie; Hyndman, Alan; Baynes, Grace; Crosas, Merce; et al. (2020): The State of Open Data 2020. Digital Science. Report. https://doi.org/10.6084/m9.figshare.13227875.v2 

Texto completo

Informe

Conjunto de datos del informe y preguntas de la encuesta

The State of Open Data examina las actitudes y experiencias de los investigadores que trabajan con datos abiertos, compartiéndolos, reutilizándolos y redistribuyéndolos.

La encuesta de este año recibió alrededor de 4.500 respuestas de la comunidad de investigadores y se centró adicionalmente en las prácticas de investigación tras la pandemia de COVID-19. En ella se preguntaba a los investigadores cómo estaba repercutiendo la pandemia en su capacidad de llevar a cabo investigaciones, y sus opiniones sobre la reutilización de los datos y la colaboración.

Entre las principales conclusiones de COVID-19 figuran las siguientes:

  • Un tercio (32%) de los investigadores académicos informaron que su investigación había sido «extremadamente» o «muy» impactada por el brote de COVID-19.
  • Las disciplinas más afectadas por COVID-19 fueron las que trabajaban en Química (47%), Biología (39%), Medicina (36%) y Ciencia de los Materiales (36%). El menor nivel de impacto se registró en Humanidades y Ciencias Sociales (20%)
  • El 43% de los encuestados ya han utilizado o es probable que reutilicen su subvención en cierta medida para la investigación de COVID-19
  • La mitad de los encuestados considera que el bloqueo es «extremadamente» o «algo» probable que resulte en la reutilización de los datos abiertos proporcionados por otros laboratorios, y el 65% espera reutilizar sus propios datos.
  • Más de un tercio de los investigadores dicen que esperan ver más colaboración como resultado de COVID-19; para aquellos en países como Brasil e India donde el impacto de COVID-19 en la investigación parece significativo, alrededor de la mitad esperan que la colaboración aumente como resultado.
  • El número de encuestados que nunca hacen un plan de gestión de datos se redujo a la mitad del 30% al 15%
  • En 2018, el 60% de los encuestados nunca había oído hablar de los principios FAIR, este año ese número se redujo al 39% y la familiaridad general ha aumentado del 15% al 24%.
  • El 55% de los encuestados consideraron que el intercambio de datos debería ser parte de los requisitos para la concesión de subvenciones
  • El 29% de los encuestados no saben quién cubriría los costos de hacer que sus datos de investigación estén en libre acceso
  • Sólo el 13% de los encuestados consideraron que los investigadores reciben actualmente suficiente crédito por compartir datos, mientras que el 59% consideró que recibieron muy poco crédito.

Informe técnico sobre los instrumentos para la elaboración de planes de gestión de datos de investigación

Pedro Príncipe, Paula Moura, André Vieira, Filipa Pereira. Relatório Técnico sobre Ferramentas para a Elaboração de Planos de Gestão de Dados. Lisboa: Fundação para a Ciência e Tecnologia (FCT), 2020

Texto completo

Más sobre Gestión de datos de investigación

En el marco del plan de actividades en el ámbito de la gestión de datos de investigación, la FFundação para a Ciência e Tecnologia (FCT), a través de la Unidade de Computação Científica Nacional (FCCN), tiene la intención de poner a disposición de la comunidad científica y de enseñanza superior un sistema de planes de gestión de datos de investigación. Su objetivo es asegurar que los investigadores preparen y actualicen los planes de gestión de datos (PGD) relacionados con sus proyectos, de conformidad con la «Política sobre la gestión y el intercambio de datos y otros productos resultantes de las investigaciones financiadas por el Tratado de Libre Comercio de América del Norte» (1). En el contexto actual, los Principios rectores para la aplicación de una política nacional de ciencia abierta (2) definen el principio del «acceso abierto a los datos científicos resultantes de la investigación financiada con fondos públicos», así como la «garantía de preservación de las publicaciones y los datos científicos a fin de permitir su reutilización y el acceso continuo». Además, en las Recomendaciones de la Comisión Europea de 25 de abril de 2018 sobre el acceso a la información científica y su conservación (3) se establece que los Estados miembros deben definir y aplicar políticas claras para la gestión de los datos resultantes de las investigaciones financiadas con fondos públicos. También consideran importante que «la planificación de la gestión de datos se convierta en una práctica científica habitual en una etapa temprana del proceso de investigación cuando se generen o reúnan datos, en particular exigiendo planes de gestión de datos».

El presente informe técnico tiene por objeto evaluar los instrumentos de gestión de datos de investigación de que se dispone actualmente a nivel mundial a fin de seleccionar el que mejor se ajuste al servicio nacional que se prestará. Esta evaluación integrará varios aspectos que se consideran pertinentes, en particular: – La apertura del software, es decir, si es de código abierto o propietario; – El alcance de la comunidad de usuarios; – La disponibilidad de modelos para los financiadores; – Los casos de uso; – La disponibilidad de apoyo y soporte técnico, así como de capacitación; – Los respectivos planes de costos. Esta información permitirá preparar un resumen comparativo de las diversas funcionalidades disponibles, facilitando el análisis del cumplimiento de los requisitos considerados relevantes para el servicio que el FCT prestará a la comunidad. También se abordarán los estudios e iniciativas nacionales sobre las DGP. Por último, también consideramos importante evaluar los servicios de los PGD que ya están implementados en algunos países de referencia en el campo de la gestión de datos de investigación, como: España, Bélgica, Francia, Noruega, Dinamarca y Alemania.

Dimensions ahora incluye más de 8 millones de conjuntos de datos

Dimensions now includes more than 8 million datasets
NOVEMBER 24, 2020

Ver noticia

A principios de este año, se agregaron conjuntos de datos a todas las versiones de Dimensions como un nuevo tipo de contenido. Dado que hoy en día muchos financiadores a nivel mundial exigen la publicación de resultados no tradicionales, como conjuntos de datos, este fue un gran paso adelante para obtener una imagen completa de la investigación, todo vinculado dentro de una plataforma.

El primer lote que se lanzó en enero de 2020 contenía aproximadamente 1,5 millones de conjuntos de datos, en estos dias se amplió la cantidad de conjuntos de datos en Dimensions a 8,1 millones . De estos, 2 millones están vinculados a publicaciones identificadas.

El primer lote incluía conjuntos de datos de Figshare, datos de Dryad, Zenodoo, Pangea y Mendeley. Ahora se han incluido conjuntos de datos de aproximadamente 900 repositorios de DataCite .

DataCite es una organización líder mundial sin fines de lucro que proporciona identificadores persistentes (DOI) para datos de investigación y otros resultados de investigación. Sus miembros incluyen centros de datos, bibliotecas, agencias gubernamentales y universidades de investigación de más de 42 países.

Tener un gran volumen de conjuntos de datos incluidos en Dimensions ofrece una gran cantidad de posibilidades de descubrimiento, creación de perfiles y análisis.

Los gestores y editores de investigación podrán utilizar los conjuntos de datos en análisis de tendencias y de impacto, y los usuarios de Dimensions que trabajen en I + D corporativo podrán enriquecer sus análisis de campo. 

Diez reglas simples para escribir Dockerfiles para ciencia de datos reproducible.

Nüst D, Sochat V, Marwick B, Eglen SJ, Head T, Hirst T, et al. (2020) Ten simple rules for writing Dockerfiles for reproducible data science. PLoS Comput Biol 16(11): e1008316. doi:10.1371/journal.pcbi.1008316

Texto completo

La ciencia computacional ha mejorado enormemente mediante el uso de contenedores para el software de empaquetado y las dependencias de datos. En un contexto académico, los principales impulsores del uso de estos contenedores son la transparencia y el apoyo a la reproducibilidad; a su vez, la reproducibilidad de un flujo de trabajo puede verse muy afectada por las elecciones que se toman con respecto a la construcción de contenedores. En muchos casos, el proceso de compilación de la imagen del contenedor se crea a partir de las instrucciones proporcionadas en formato Dockerfile. En apoyo de este enfoque, se presenta un conjunto de reglas para ayudar a los investigadores a escribir Dockerfiles comprensibles para flujos de trabajo típicos de ciencia de datos. 

Siguiendo las reglas de este artículo, los investigadores pueden crear contenedores adecuados para compartir con otros científicos, para incluirlos en comunicaciones académicas, como artículos educativos o científicos, y para flujos de trabajo personales efectivos y sostenibles