Archivo de la etiqueta: Gestión de datos de investigación

El bibliotecario de investigación del futuro: científico de datos y co-investigador

Jeannette Ekstrøm , Mikael Elbaek , Chris Erdmann e Ivo Grigorov. The research librarian of the future: data scientist and co-investigator. LSE, 4 dic. 2016

Ver original

Sigue existiendo una cierta desconexión entre la forma en que los propios bibliotecarios de investigación ven su papel y sus responsabilidades y cómo las ven sus colegas de la facultad. Jeannette Ekstrøm , Mikael Elbaek , Chris Erdmann e Ivo Grigorov imaginan cómo podría trabajar el bibliotecario de investigación del futuro, utilizando la nueva ciencia de datos y habilidades digitales para impulsar una investigación más colaborativa y abierta. Podría decirse que este futuro ya está sobre nosotros, pero las instituciones deben implementar un enfoque estructurado para desarrollar las habilidades y los servicios de los bibliotecarios para aprovechar plenamente los beneficios.

Imagina a los bibliotecarios de investigación como socios iguales en el proceso de investigación, ayudando a un investigador en cualquier disciplina a mapear las brechas de conocimiento existentes, identificar los cruces disciplinarios emergentes incluso antes de que sucedan, y ayudar en la formulación y el refinamiento de preguntas de investigación.

Imagina un bibliotecario pertrechado de las herramientas digitales para automatizar las revisiones de la literatura para cualquier disciplina, reduciendo miles de ideas de artículos en memes y luego aplicando análisis de redes para visualizar tendencias en líneas de investigación emergentes.

¿Qué pasaría si su bibliotecario de investigación pudiera profundizar y usar un complemento ami-2word para mapear en qué secciones de artículos aparecen los términos clave de su investigación? Imagina que los resultados confirman que tu término de investigación favorito casi nunca aparece en las secciones de resultados, sino que se agrupan solo en torno a presentaciones y perspectivas.

¿Y si el bibliotecario no se detuviera allí, sino que se acercara a la nube de datos con estadísticas inteligentes, aplicando las últimas técnicas de extracción de texto y datos para satisfacer incluso a la mente científica más escrutadora, antes de formular una pregunta de investigación innovadora?

Imagina a un bibliotecario que comprende, en términos pragmáticos, los beneficios de la ciencia abierta para el proceso de descubrimiento. Imaginate a un bibliotecario que también ofrece consejos prácticos sobre cómo hacer que esas ideas formen parte de su flujo de trabajo diario. ¿Te gustaría que ese bibliotecario te ayudara a poner en marcha tu carrera académica?

Puede parecer demasiado bueno para ser verdad, pero en cierto modo ya está sucediendo.

En la era digital, muchas de las habilidades y competencias que desarrollan los bibliotecarios para realizar servicios «básicos» pueden servir directamente al ciclo de vida y al flujo de trabajo de la investigación. Competencias como mapear el panorama del conocimiento, gestionar volúmenes de datos heterogéneos o presentarlos en formatos comprensibles no son cosas con las que todos los investigadores están dotados, pero de las que todas las hipótesis pueden beneficiarse.

Al utilizar sus habilidades digitales y de ciencia de datos, los bibliotecarios de investigación tienen la oportunidad de hacer una contribución importante al flujo de trabajo de sus colegas de la universidad. Las habilidades de los bibliotecarios en ciencia de datos pueden ayudar a navegar a través de la avalancha de información y realmente pueden cambiar la forma en que se los percibe: desde un servicio general hasta su consideración como investigadores co-investigadores.

A medida que cada vez es más necesaria una investigación más abierta y transparente como una obligación de los mandatos de los financiadores, los bibliotecarios de investigación se convierten en un socio indispensable para divulgar de manera óptima los diversos resultados del proceso de investigación; desde el asesoramiento sobre la elección de las licencias adecuadas para su reutilización, hasta la mejor conservación a largo plazo y la asignación de identificadores persistentes en relación con las prácticas de derechos de propiedad intelectual existentes.

Hacer del futuro bibliotecario un socio de investigación indispensable para el profesorado no solo cerraría la brecha en cómo se percibe el rol, sino que también crearía un conducto autosuficiente para incluir las mejores prácticas en la erudición colaborativa y abierta, e implementar la ciencia abierta de forma predeterminada. Al final, todo el mundo tendría más impacto.

Papers With Code: artículos académicos que también comparten su software de respaldo para que los experimentos puedan ser reproducidos fielmente.

Papers With Code

https://portal.paperswithcode.com/

Papers with Code (PwC), un sitio web que organiza el acceso a los documentos técnicos que también proporcionan el software utilizado para reproducir los resultados del documento, ha crecido enormemente en los últimos años. Junto con el aumento de los conjuntos de datos de acceso público, la investigación moderna ha comenzado a converger de nuevo hacia la plena transparencia y credibilidad.

La ciencia es acumulativa. La ciencia abierta, incluyendo la disponibilidad de artefactos clave como el código, ayuda a acelerar el progreso haciendo que la investigación sea más fácil de construir. El sitio web Papers with Code (PwC) alberga artículos académicos que también comparten su software de respaldo para que los experimentos puedan ser reproducidos fielmente. Mediante una colaboración conjunta, Papers with Code proporciona ahora una clasificación por categorías y referencias de código para los artículos de la base de datos arXiv.

El hecho de que arXiv permita compartir abiertamente la investigación por sí solo es genial para la comunidad investigadora mundial. Sin embargo, la gran mayoría de las nuevas investigaciones en los campos científicos ahora tienen software que respalda los hallazgos de la investigación. El hecho de no proporcionar ese software se corresponde con el hecho de no proporcionar todos los activos necesarios para validar la investigación. En un mundo centrado en la información, en el que la mayoría de los datos disponibles se han creado en los últimos años, la capacidad de utilizar programas informáticos para demostrar de forma independiente que los resultados de una investigación son válidos es cada vez más importante.

La misión de Papers With Code es crear un recurso libre y abierto con documentos de aprendizaje automático, código y tablas de evaluación. El objetivo del código es acelerar el progreso científico haciendo que la investigación sea más fácil de comprender, usar y difundir.

En octubre, arXiv lanzó una nueva característica que permite a los autores de arXiv vincular sus artículos de aprendizaje automático con un código asociado. Desarrollada en una colaboración de arXivLabs con Papers with Code, la herramienta fue recibida con gran entusiasmo por la comunidad ML de arXiv.

Como resultado de esta expansión, ahora están registrados más de 600.000 trabajos de investigación.

El CERN anuncia una nueva política de datos abiertos en apoyo de la ciencia abierta

CERN announces new open data policy in support of open science
11 December, 2020

Ver noticia

Una nueva política de datos abiertos para los experimentos científicos en Large Hadron Collider (LHC) hará que la investigación científica sea más reproducible, accesible y colaborativa.

El CERN fue pionero en el acceso abierto a la literatura científica con el consorcio SCOAP3, una asociación mundial de bibliotecas, organismos de financiación e instituciones de investigación de 46 países y organizaciones intergubernamentales, que es ahora la mayor iniciativa de acceso abierto del mundo. Además, el CERN colabora con muchas organizaciones, como la Comisión Europea y la UNESCO, en sus esfuerzos por promover las prácticas de ciencia abierta más allá de la física de partículas.

Los cuatro principales colaboradores del LHC (ALICE, ATLAS, CMS y LHCb) han respaldado unánimemente una nueva política de datos abiertos para los experimentos científicos en Large Hadron Collider (LHC), que se ha presentado hoy al Consejo del CERN. La política se compromete a hacer públicos los llamados datos científicos de nivel 3, el tipo necesario para realizar estudios científicos, recogidos por los experimentos del LHC. Los datos comenzarán a publicarse aproximadamente cinco años después de su recogida, y el objetivo es que el conjunto de datos completo esté disponible públicamente al final del experimento en cuestión. La política aborda el creciente movimiento de ciencia abierta, que tiene por objeto hacer que la investigación científica sea más reproducible, accesible y colaborativa.

Los datos de nivel 3 que se publiquen pueden contribuir a la investigación científica en la física de las partículas, así como a la investigación en el campo de la informática científica, por ejemplo para mejorar los métodos de reconstrucción o análisis basados en técnicas de aprendizaje por máquina, un enfoque que requiere ricos conjuntos de datos para la capacitación y la validación.

Se considera que los datos científicos tienen diferentes niveles de complejidad. Los datos del nivel 3 son del tipo que se utiliza como entrada para la mayoría de los estudios de física y se publicarán junto con el software y la documentación necesarios para utilizar los datos. Su publicación permitirá un análisis de alta calidad por parte de diversos grupos: científicos que no pertenecen al CERN, científicos de otros campos, iniciativas educativas y de divulgación y el público en general.

La política también abarca la publicación de los conjuntos de datos de nivel 1 y nivel 2, de los que ya se dispone de muestras. El nivel 1 corresponde a la información de apoyo de los resultados publicados en artículos científicos, y el nivel 2 corresponde a conjuntos de datos científicos específicos diseñados con fines educativos y de divulgación.

En la práctica, los conjuntos de datos científicos se publicarán a través del Portal de Datos Abiertos del CERN (Open Data Portal), que ya alberga un amplio conjunto de datos relacionados con LHC y otros experimentos. Los datos estarán disponibles utilizando las normas FAIR, un conjunto de directrices de datos que garantizan que los datos sean localizables, accesibles, interoperables y reutilizables.

Esta estrategia complementa la actual política de acceso abierto del CERN, que ordena que todos los resultados de las investigaciones del CERN se publiquen en acceso abierto. También está en consonancia con la reciente actualización de la Estrategia Europea de Física de las Partículas anunciada en junio de 2020. La nueva política podría utilizarse como un modelo para otros experimentos en el CERN y en otras organizaciones científicas.

Estado de los Datos Abiertos 2020

Science, Digital; Hahnel, Mark; McIntosh Borrelli, Leslie; Hyndman, Alan; Baynes, Grace; Crosas, Merce; et al. (2020): The State of Open Data 2020. Digital Science. Report. https://doi.org/10.6084/m9.figshare.13227875.v2 

Texto completo

Informe

Conjunto de datos del informe y preguntas de la encuesta

The State of Open Data examina las actitudes y experiencias de los investigadores que trabajan con datos abiertos, compartiéndolos, reutilizándolos y redistribuyéndolos.

La encuesta de este año recibió alrededor de 4.500 respuestas de la comunidad de investigadores y se centró adicionalmente en las prácticas de investigación tras la pandemia de COVID-19. En ella se preguntaba a los investigadores cómo estaba repercutiendo la pandemia en su capacidad de llevar a cabo investigaciones, y sus opiniones sobre la reutilización de los datos y la colaboración.

Entre las principales conclusiones de COVID-19 figuran las siguientes:

  • Un tercio (32%) de los investigadores académicos informaron que su investigación había sido «extremadamente» o «muy» impactada por el brote de COVID-19.
  • Las disciplinas más afectadas por COVID-19 fueron las que trabajaban en Química (47%), Biología (39%), Medicina (36%) y Ciencia de los Materiales (36%). El menor nivel de impacto se registró en Humanidades y Ciencias Sociales (20%)
  • El 43% de los encuestados ya han utilizado o es probable que reutilicen su subvención en cierta medida para la investigación de COVID-19
  • La mitad de los encuestados considera que el bloqueo es «extremadamente» o «algo» probable que resulte en la reutilización de los datos abiertos proporcionados por otros laboratorios, y el 65% espera reutilizar sus propios datos.
  • Más de un tercio de los investigadores dicen que esperan ver más colaboración como resultado de COVID-19; para aquellos en países como Brasil e India donde el impacto de COVID-19 en la investigación parece significativo, alrededor de la mitad esperan que la colaboración aumente como resultado.
  • El número de encuestados que nunca hacen un plan de gestión de datos se redujo a la mitad del 30% al 15%
  • En 2018, el 60% de los encuestados nunca había oído hablar de los principios FAIR, este año ese número se redujo al 39% y la familiaridad general ha aumentado del 15% al 24%.
  • El 55% de los encuestados consideraron que el intercambio de datos debería ser parte de los requisitos para la concesión de subvenciones
  • El 29% de los encuestados no saben quién cubriría los costos de hacer que sus datos de investigación estén en libre acceso
  • Sólo el 13% de los encuestados consideraron que los investigadores reciben actualmente suficiente crédito por compartir datos, mientras que el 59% consideró que recibieron muy poco crédito.

Informe técnico sobre los instrumentos para la elaboración de planes de gestión de datos de investigación

Pedro Príncipe, Paula Moura, André Vieira, Filipa Pereira. Relatório Técnico sobre Ferramentas para a Elaboração de Planos de Gestão de Dados. Lisboa: Fundação para a Ciência e Tecnologia (FCT), 2020

Texto completo

Más sobre Gestión de datos de investigación

En el marco del plan de actividades en el ámbito de la gestión de datos de investigación, la FFundação para a Ciência e Tecnologia (FCT), a través de la Unidade de Computação Científica Nacional (FCCN), tiene la intención de poner a disposición de la comunidad científica y de enseñanza superior un sistema de planes de gestión de datos de investigación. Su objetivo es asegurar que los investigadores preparen y actualicen los planes de gestión de datos (PGD) relacionados con sus proyectos, de conformidad con la «Política sobre la gestión y el intercambio de datos y otros productos resultantes de las investigaciones financiadas por el Tratado de Libre Comercio de América del Norte» (1). En el contexto actual, los Principios rectores para la aplicación de una política nacional de ciencia abierta (2) definen el principio del «acceso abierto a los datos científicos resultantes de la investigación financiada con fondos públicos», así como la «garantía de preservación de las publicaciones y los datos científicos a fin de permitir su reutilización y el acceso continuo». Además, en las Recomendaciones de la Comisión Europea de 25 de abril de 2018 sobre el acceso a la información científica y su conservación (3) se establece que los Estados miembros deben definir y aplicar políticas claras para la gestión de los datos resultantes de las investigaciones financiadas con fondos públicos. También consideran importante que «la planificación de la gestión de datos se convierta en una práctica científica habitual en una etapa temprana del proceso de investigación cuando se generen o reúnan datos, en particular exigiendo planes de gestión de datos».

El presente informe técnico tiene por objeto evaluar los instrumentos de gestión de datos de investigación de que se dispone actualmente a nivel mundial a fin de seleccionar el que mejor se ajuste al servicio nacional que se prestará. Esta evaluación integrará varios aspectos que se consideran pertinentes, en particular: – La apertura del software, es decir, si es de código abierto o propietario; – El alcance de la comunidad de usuarios; – La disponibilidad de modelos para los financiadores; – Los casos de uso; – La disponibilidad de apoyo y soporte técnico, así como de capacitación; – Los respectivos planes de costos. Esta información permitirá preparar un resumen comparativo de las diversas funcionalidades disponibles, facilitando el análisis del cumplimiento de los requisitos considerados relevantes para el servicio que el FCT prestará a la comunidad. También se abordarán los estudios e iniciativas nacionales sobre las DGP. Por último, también consideramos importante evaluar los servicios de los PGD que ya están implementados en algunos países de referencia en el campo de la gestión de datos de investigación, como: España, Bélgica, Francia, Noruega, Dinamarca y Alemania.

Dimensions ahora incluye más de 8 millones de conjuntos de datos

Dimensions now includes more than 8 million datasets
NOVEMBER 24, 2020

Ver noticia

A principios de este año, se agregaron conjuntos de datos a todas las versiones de Dimensions como un nuevo tipo de contenido. Dado que hoy en día muchos financiadores a nivel mundial exigen la publicación de resultados no tradicionales, como conjuntos de datos, este fue un gran paso adelante para obtener una imagen completa de la investigación, todo vinculado dentro de una plataforma.

El primer lote que se lanzó en enero de 2020 contenía aproximadamente 1,5 millones de conjuntos de datos, en estos dias se amplió la cantidad de conjuntos de datos en Dimensions a 8,1 millones . De estos, 2 millones están vinculados a publicaciones identificadas.

El primer lote incluía conjuntos de datos de Figshare, datos de Dryad, Zenodoo, Pangea y Mendeley. Ahora se han incluido conjuntos de datos de aproximadamente 900 repositorios de DataCite .

DataCite es una organización líder mundial sin fines de lucro que proporciona identificadores persistentes (DOI) para datos de investigación y otros resultados de investigación. Sus miembros incluyen centros de datos, bibliotecas, agencias gubernamentales y universidades de investigación de más de 42 países.

Tener un gran volumen de conjuntos de datos incluidos en Dimensions ofrece una gran cantidad de posibilidades de descubrimiento, creación de perfiles y análisis.

Los gestores y editores de investigación podrán utilizar los conjuntos de datos en análisis de tendencias y de impacto, y los usuarios de Dimensions que trabajen en I + D corporativo podrán enriquecer sus análisis de campo. 

Diez reglas simples para escribir Dockerfiles para ciencia de datos reproducible.

Nüst D, Sochat V, Marwick B, Eglen SJ, Head T, Hirst T, et al. (2020) Ten simple rules for writing Dockerfiles for reproducible data science. PLoS Comput Biol 16(11): e1008316. doi:10.1371/journal.pcbi.1008316

Texto completo

La ciencia computacional ha mejorado enormemente mediante el uso de contenedores para el software de empaquetado y las dependencias de datos. En un contexto académico, los principales impulsores del uso de estos contenedores son la transparencia y el apoyo a la reproducibilidad; a su vez, la reproducibilidad de un flujo de trabajo puede verse muy afectada por las elecciones que se toman con respecto a la construcción de contenedores. En muchos casos, el proceso de compilación de la imagen del contenedor se crea a partir de las instrucciones proporcionadas en formato Dockerfile. En apoyo de este enfoque, se presenta un conjunto de reglas para ayudar a los investigadores a escribir Dockerfiles comprensibles para flujos de trabajo típicos de ciencia de datos. 

Siguiendo las reglas de este artículo, los investigadores pueden crear contenedores adecuados para compartir con otros científicos, para incluirlos en comunicaciones académicas, como artículos educativos o científicos, y para flujos de trabajo personales efectivos y sostenibles

La revolución de los datos bibliográficos, científicos y culturales

Instituto de Investigaciones Bibliotecológicas y de la Información - UNAM -  Novedad Editorial IIBI "La revolución de los datos bibliográficos,  científicos y culturales" Consulta la obra en  http://info.iibi.unam.mx/~publica/resplibros.php | Facebook

Rodríguez García, Ariel Alejandro, coordinador «La revolución de los datos bibliográficos, científicos y culturales»  Ciudad de México: IIBI, 2020

Texto completo

PDF

ePub

Actualmente, nos hallamos inmersos en un gran proyecto que de alguna manera desafía al pasado. La evolución natural de los datos ha generado nuevos tipos y modelos que permean cada aspecto de nuestra vida. La revolución de los datos es la forma que varias disciplinas han adoptado para referirse al conjunto de datos masivos que consiste en ver y comprender las relaciones en el seno y entre distintos fragmentos de información que, hasta hace muy poco, nos esforzábamos por captar plenamente. En este libro, se analizan los datos desde la perspectiva bibliográfica en la voz de distintos autores que acompañan al doctor Ariel Rodríguez a reflexionar acerca de este tema coyuntural.

El uso de la ciencia de datos en políticas públicas

Thumbnail

The Behavioural Insights Team. (2020). El uso de la ciencia de datos en políticas públicas. Caracas: The Behavioural Insights Team, 28 p.

Texto completo

El enorme aumento en los datos, y de herramientas para analizarlos y utilizarlos, ha transformado al mundo continuamente hasta el presente. Ya sea segmentándonos con anuncios en línea, o utilizando los datos de los motores de búsqueda para predecir dónde ocurrirán los nuevos brotes de gripe y así garantizar que haya medicamentos disponibles, todos estos cambios nos afectan a todos. Existe un gran potencial para que los gobiernos mejoren el rendimiento y la productividad de los servicios a través del uso inteligente de datos. Estos datos incluyen resultados, patrones de uso, costos, y experiencias de los ciudadanos. Con esta gran cantidad de datos, tenemos la obligación de hacer que los servicios gubernamentales se efectúen de la mejor manera posible. Esto implica aprender de los contextos donde los servicios funcionan bien y mejorar aquellos donde no lo hacen. Significa personalizar y enfocar los servicios públicos en torno a las necesidades y deseos de las personas y las empresas, e implica el uso de métodos experimentales, y una comprensión desde dentro de la variación del servicio, para determinar rápidamente cómo los servicios y sistemas pueden ser mejorados. Dentro del gobierno, y de manera transversal, ya estamos transformando la forma en que participan los ciudadanos con el Estado, mediante la expansión de la tecnología digital. El siguiente paso es buscar garantizar que los datos obtenidos conduzcan a una mejora constante. Para eso, la aplicación de la ciencia de datos será clave.

¿Utilizan los investigadores datos de investigación abiertos?

Quarati, A. , Raffaghelli, J. E. «Do Researchers Use Open Research Data? Exploring the Relationships Between Usage Trends and Metadata Quality Across Scientific Disciplines From the Figshare Case«. Journal of Information Science
Article First Published Online October 4, 2020

Texto completo

Los datos de investigación abiertos (ORD) se han considerado un motor de transparencia científica. Sin embargo, también se ha señalado la fricción de datos, como fenómeno de subutilización de datos por varias causas. Un factor que a menudo se cuestiona por el bajo uso de ORD es la calidad de la ORD y los metadatos asociados. 

Este trabajo tiene como objetivo ilustrar el uso de ORD, publicado por el repositorio científico de Figshare, en relación con su disciplina científica, su tipo y en comparación con la calidad de sus metadatos. Considerando todos los recursos de Figshare y realizando una evaluación de la calidad programática de sus metadatos, nuestro análisis destacó dos aspectos. 

En primer lugar, independientemente del dominio científico considerado, la mayoría de las ORD están infrautilizadas, pero con casos excepcionales que concentran la atención de la mayoría de los investigadores. Segundo, No hubo evidencia de que el uso de ORD esté asociado con buenas prácticas de publicación de metadatos. Estos dos hallazgos abrieron una reflexión sobre las posibles causas de tal fricción de datos.