Archivo de la etiqueta: Gestión de datos de investigación

Desarrollo de flujos de trabajo para científicos de datos

development-workflows-1

Development Workflows for Data Scientists. O’Reilly Media, 2017

Texto completo

GitHub se asoció con O’Reilly Media para examinar cómo los equipos de análisis de datos de varias organizaciones están mejorando la forma en que definen, aplican y automatizan los flujos de trabajo basados en servicios de datos.

  • Definición de la estructura y las funciones del equipo
  • Preguntas interesantes
  • Examen de trabajos previos
  • Recolección, exploración y modelado de datos
  • Prueba, documentación e implementación de códigosde producción
  • Comunicación de los resultados

Este informe esclarecedor muestra cómo, a pesar de que el ritmo de cambio es rápido y el deseo por el conocimiento y la visión de los datos es cada vez mayor, las disciplinas duales de ingeniería de software y la ciencia de los datos están a la altura de la tarea.

 

Open Data: base de datos sobre información de la historia del clima de la tierra desde hace 2.000 años

 

PDFsdata201788-f1

 

“A global multiproxy database for temperature reconstructions of the Common Era.” vol. 4, n. (2017). pp. 170088. http://dx.doi.org/10.1038/sdata.2017.88

PDF

La base de datos contiene la historia del clima de la Tierra desde hace 2.000 años
Los científicos del clima podrán estudiar con mayor precisión los cambios de temperatura de la Tierra, gracias a una base de datos global compilada con la ayuda de una Universidad Victoria de Wellington y GNS Science. Siendo la única herramienta para probar y verificar de forma independiente los modelos climáticos más allá de los últimos cuarenta años. PAGES ha publicado la base de datos como un recurso abierto, lo que permite a cualquiera descargar y utilizar los datos.

 

Es la colección más completa de información sobre el cambio de temperatura global de todos los tiempos, los datos que proporciona han tardado más de 2 años en reunirse. La base de datos reúne cerca de 700 registros de 648 localidades, compilados por 98 expertos regionales de 22 países, incluyendo todas las regiones continentales y las principales cuencas oceánicas. El proyecto fue coordinado por la red de científicos paleoclimáticos internacionales de PAGES (Past Global Changes)

La base de datos recoge información sobre la temperatura del pasado basada en la evidencia de varias fuentes de información, incluyendo anillos de árboles, corales, glaciares y sedimentos marinos y lacustres. La base de datos permite evaluar críticamente y mejorar los modelos de sistemas de tierra utilizados para proporcionar proyecciones futuras. La importancia de esta base de datos es que proporciona información muy necesaria sobre tendencias y patrones regionales de temperatura.

la colección completa se archiva como archivos pdf en Data Citation 1: figshare (Data Citation 1: figshare https://doi.org/10.6084/m9.figshare.c.3285353

PAGES 2k Consortium, figshare https://doi.org/10.6084/m9.figshare.c.3285353 (2017).

 

 

 

Curación de datos de investigación: estrategias prácticas para un repositorio digital

 

Johnston, L. R. (ed). [e-Book] Curating research data: Practical Strategies for Your Digital Repository. Volume one: practical strategies for your digital repository. Chicago, ACRL, 2017.

Texto completo

 

Los datos digitales están omnipresentes y cambian rápidamente en la medida que progresa la investigación actual y en el futuro. La capacidad de información de los bibliotecarios puede ayudar a asegurar la resiliencia de los datos digitales y la información que representa, al tratar que significado que tiene la integridad y la procedencia de los datos digitales generados por los investigadores de hoy se capturan y serán transmitidos a los futuros investigadores.

Los datos se están convirtiendo en la moneda proverbial del reino digital: un producto de investigación que podría adquirir crédito de reputación en una cultura disciplinaria de intercambio de datos, o comprar transparencia cuando se enfrentan a mandatos de agencias de financiamiento o escrutinio de editores. A diferencia de la mayoría de los sistemas monetarios, sin embargo, los datos digitales pueden fluir en una abundancia continua. Por otra parte, la magnitud de de los datos digitales desafía el papel tradicional del bibliotecario, ya los profesionales de la ciencia de la información deben de aprovechar este flujo de la información que fluye del descubrimiento de la investigación y de la búsqueda académica para preservar estas evidencias para el uso futuro.

El Volumen Uno de Curating Research Data analiza una variedad de razones y motivaciones para explicar por qué los servicios de recuperación de datos son necesarios en el contexto de los esfuerzos que están desarrollando los repositorio de datos académicos y disciplinarios. El libro se compone de doce capítulos, divididos en tres partes, que proporcionan una visión en profundidad de la práctica compleja de la curación de datos. La Parte I establece el escenario para la recuperación de datos describiendo las políticas actuales, los modelos de intercambio de datos y los esfuerzos de colaboración actualmente en curso que afectan a los servicios potenciales. La Parte II estudia varias cuestiones clave, como la recuperación de costos y la estrategia de marketing, un tema de gran interés para los profesionales que están pensando en implementar servicios de datos. Por último, la Parte III describe el ciclo de vida completo de los datos mediante el examen de los problemas de reutilización ética y práctica que los profesionales de la conservación de datos deben tener en cuenta a medida que nos esforzamos por preparar los datos para el futuro.

 

Big Data: tecnologías disruptivas para un cambio en el juego

bigdataanalytics-sathi

 

Sathi, A. (2012). [e-Book]  Big Data Analytics: Disruptive Technologies for Changing the Game, IBM, 2012.

Texto completo

 

Este libro recopila varios casos y experiencias de uso de los Big Data, y a partir de ellas hace algunas consideraciones sobre la arquitectura y el surgimiento de nuevos espacios de observación (sociales, geoespaciales, etc.), además de cubrir algunos de los problemas más delicados relacionados con la privacidad de los datos. El espacio de observación de una organización disponible (datos que pueden obtener en sus manos dentro de la ley y la política) está creciendo más rápido que su capacidad de darle sentido. A medida que las organizaciones luchan por mantenerse al día, se ven obligadas a reconsiderar qué tipo de infraestructura será necesaria para aprovechar Big Data

Guía sobre cómo llegar a ser un científico de datos

ds_book

Big Data: The Numbers Game Deciphered : A Step-By-Step Guide, [e-Book]  simplilearn.com, 2017.

Texto completo

 

Como cada vez se producen más datos, existe la imperiante necesidad de obtener, organizar y analizar estos datos para hacerlos útiles. En términos simples, la ciencia de los datos consiste en la extracción de información útil a partir de los datos disponibles. Data Science se refiere a la recolección, reparación, análisis, visualización, gestión y preservación de la gran cantidad de datos que genera la sociedad del conocimiento. El libro es una guía informativa sobre como convertirse en un científico de los datos, una de las profesiones con mayor proyección de futuro, calificada por la revista  Harvard Business Review como “la profesión tecnológica más sexy del siglo XXI”.

 

Una estadística reciente estima que cada día se crean alrededor de 2.5 quintilliones de bytes de datos, y que el 90% de los datos que existen actualmente en el mundo se han generado en los últimos dos años. Big Data es un término popular utilizado para definir los inmensos y complejos conjuntos de datos que están desafiando la capacidad y los métodos tradicionales de  análisis de procesamiento de datos.

Sin embargo, estos datos por si mismos no son útiles sin que previamente hayan sido analizados y procesados. La ciencia de los datos aporta los conocimientos y procesos necesarios para que estos datos puedan ser utilizados por instituciones y empresas para hacerlos reutilizables, y de esta manera ayudar en una mejor toma de decisiones. La principal razón que hay detrás del  uso de Big Data es recopilar datos de todas las fuentes, aprovechar los datos pertinentes y analizarlos para encontrar respuestas a las preguntas clave relacionadas con los negocios y la investigación.

El libro es una guía informativa sobre como llegar a ser un científico de datos. Una profesión que en opinión de Harvard Business Review es “el trabajo de tecnología más sexy del siglo XXI”. La guía responde a las siguientes cuestiones ¿Qué hacen los científicos de datos? ¿Cuáles son los pre-requisitos para convertirse en un científico de datos? ¿Qué habilidades son imprescindibles? ¿Cuál es el programa de estudios de la ciencia de los datos? ¿Cómo trabajará en el futuro un científico de datos?

En resumen, la ciencia de los datos contribuye a una reducción de costos, reducción de tiempo, desarrollo y optimización de nuevos productos, y a una toma de decisiones más inteligente  y rápida.

 

 

 

 

Valoración e impacto de los datos de investigación: curación y recursos compartidos

 

synthesis1-211x300

Beagrie, N. and Houghton J.W. (2014) The Value and Impact of Data Sharing and Curation: A synthesis of three recent studies of UK research data centres, Jisc. PDF (24 pages)

Texto completo

La GDI es la base de la investigacion actual y del futuro, pero también de los mandatos de financiación, repositorios de acceso abierto, la reputación de los investigadores y los rankings institucionales. Sin embargo, la sostenibilidad financiera de una adecuada gestión de datos requiere de una importante inversión. Ya que los costos que implica la implementación y mantenimiento de repositorios de datos son mucho más cuantiosos que los necesarios para repositorios institucionals tradicionales. Aun así, la institución debe iniciar una política de datos, ya que los beneficios de un servicio de gestión de datos son mucho mayores en términos de investigación e impacto que los altos costos asociados a su implementación como demuestra esta investigación. Además de ser un servicio ineludible a medio plazo si se quiere seguir siendo competitivo

Este informe pretende resumir y reflexionar sobre los resultados de una serie de estudios realizados por Neil Beagrie de Charles Beagrie y John Houghton de la Universidad de Victoria, en torno al valor y el impacto de tres centros de datos de investigación: the Economic and Social Data Service (ESDS), the Archaeology Data Service (ADS), and the British Atmospheric Data Centre (BADC). Se proporciona un resumen de las principales conclusiones de la investigación y reflexionan sobre: los métodos que se pueden utilizar para recopilar datos; los métodos analíticos que se pueden utilizar para explorar de valor, impactos, costos y beneficios; y las lecciones aprendidas y recomendaciones derivadas de la serie de estudios en su conjunto.

Los estudios de los centros de datos combinan los enfoques cuantitativos y cualitativos con el fin de cuantificar el valor en términos económicos y otros impactos y beneficios no económicos. Los tres estudios muestran un patrón similar de resultados, con el intercambio de datos a través de los centros de datos que tienen un gran impacto medible en la eficiencia de la investigación y el retorno de la inversión sobre los propios datos y servicios. Estos hallazgos son importantes para los proveedores de fondos, tanto para el caso económico para la inversión en la infraestructura de datos de curación, como para el intercambio de datos y la propia  investigación, para asegurar la sostenibilidad de este tipo de centros de datos de investigación.

El análisis económico cuantitativo indica que:
· El valor para los usuarios excede la inversión hecha en el intercambio de datos y la preservación a través de los centros en los tres casos – con los beneficios de 2,2 a 2,7 veces los costes.
· Aumentos muy significativos en la eficiencia del trabajo por parte de los usuarios como consecuencia del uso de los centros y servicios de datos – con aumento de la eficiencia de entre 2 a 20 veces sobre los costos.
· Al facilitar el uso adicional, los centros de datos aumentan significativamente los rendimientos de la inversión en la creación / recogida de los datos alojados – con incrementos en los rendimientos de entre 2 a 12 veces sobre los costos.
El análisis cualitativo indica que:
· Por su parte, los usuarios académicos informan que los beneficios de la implementación de centros de datos son muy o extremadamente importantes para su investigación, pues en opinión de entre el 53% y el 61% de los encuestados la no disponibilidad de un servicio de datos hubiera tenido un impacto grave o muy grave sobre su trabajo.
· Para los depositantes, que tiene los datos conservados a largo plazo y garantizada su difusión a la comunidad académica, estos servicio son vistos como los aspectos más beneficiosos de depositar de datos en este tipo de centros. Además el depósito de datos incrementa las posibilidades de ser citados.

Un objetivo importante de este estudios fue el de contribuir al desarrollo de métodos de evaluación de impacto que pueden proporcionar estimaciones del valor y los beneficios de la infraestructura de datos de investigación y las inversiones. Esta síntesis se refleja las lecciones aprendidas y proporciona una serie de recomendaciones que podrían ayudar a desarrollar futuros estudios de este tipo. Las áreas clave para la investigación adicional incluyen: extender tales estudio a nuevos centros o a centros de menores niveles de agregación.

 

 

 

 

Datos abiertos para todos

open_data_for_all_title_page_2016

 

 

Roest, A. and A. R. Mashariki (2015). [e-Book] Open Data For All. New York, City of New York.

Texto completo

NYC Open Data: Open Data for All New Yorkers

https://opendata.cityofnewyork.us/

 Los datos son más que números, fundamentalmente es información que puede ayudar a  resolver problemas cotidianos de las personas. La promesa de un gobierno de datos abiertos, transparentes  y accesibles contribuye a la mejora las capacidades y oportunidades de todos los ciudadanos. Open data puede cambiar el punto de vista sobre nuestro entorno, trasformando problemas anteriormente considerados impenetrables en problemas solucionables. 

 

Los datos abiertos no sólo son de interés para los científicos, ya que a través de ese tipo de iniciativas podemos tener un mejor conocimiento de nuestro entorno, para saber más y aprovechar mejor todas las oportunidades que ofrece el lugar en que vivimos, trabajamos, compramos, o nos divertimos; pudiendo de esta manera responder a cuestiones tales como: ¿Dónde puedo encontrar Wi-Fi pública en mi vecindario? ¿Qué clase de árbol está delante de mi oficina? ¿Cuál es la mejor zona para abrir un negocio sobre vinos?, ¿Cuál es la calidad del aire de mi zona de ocio? o ¿Dónde puedo encontrar rutas para pasear en bicicleta?

Entre los beneficios frecuentemente citados de los datos abiertos está su potencial para equipar a las personas con el conocimiento con el objetivo de mejorar sus vidas. para crear oportunidades y resolver problemas;  de este modo, los ciudadanos pueden utilizar estos datos para tomar decisiones más y mejor informadas, involucrarse en sus comunidades o convertir sus sueños en realidad. Por ejemplo, si una persona está interesada en abrir un negocio necesita información sobre cuantos establecimientos similares hay en la zona, licencias de negocios, locales en alquiler, precios de los alquileres en una zona, flujos ciudadanos, etc. De manera que esta información que anteriormente no estaba disponible o sólo era accesible para quienes pagaran por ella, ahora este a disposición de todos sin ninguna excepción.

 

open_data_for_all_timeline

Desarrollo histórico de la política de datos abiertos de la ciudad de New York

Una cuestión clave para reducir la brecha de acceso es crear una “cultura de datos”, para ello la ciudad de New York  ha creado un taller piloto sobre habilidades de análisis de datos y a puesto a disposición de los ciudadanos una guía de datos para iniciados

Informes publicados por el equipo Open Data de la Ciudad de Nueva York, incluyendo el plan anual de cumplimiento de la agencia publicado cada año.