Archivo de la etiqueta: Big Data

Big Data: Principios y buenas prácticas

51bd93aguol-_sx258_bo1204203200_

Marz, Nathan and James  Warren (2012). [e-Book]  Big Data: Principles and best practices of scalable realtime data systems. New York, Manning Publications.

Descargar

Los servicios como las redes social, la web semántica e inteligente y el comercio electrónico a menudo tienen que manejar datos a una escala demasiado grande para una base de datos tradicional. A medida que aumenta la escala y la demanda, también lo hace la complejidad. Afortunadamente, la escalabilidad y la simplicidad no son mutuamente excluyentes -en lugar de utilizar una tecnología de moda, es necesario un enfoque diferente-, ya que los sistemas que utilizan grandes cantidades de datos utilizan muchas máquinas trabajando en paralelo para almacenar y procesar datos, que introduce retos fundamentales desconocidos para la mayoría de los desarrolladores.

Big Data muestra cómo construir estos sistemas usando una arquitectura que aprovecha las ventajas de hardware agrupado junto con nuevas herramientas diseñadas específicamente para capturar y analizar datos a escala web. En él se describe la escalabilidad, para entender el enfoque de los sistemas de grandes volúmenes de datos que se pueden construir a partir de un equipo pequeño. Después de un ejemplo real, este libro guía a los lectores a través de la teoría del Big Data, enseña cómo utilizarlos en la práctica, y cómo implementar y operar con ellos una vez que están construidos.

¿Cuánta información? 2013: Informe sobre los consumidores estadounidenses

 

Bohn, R. and J. E. Short (2013). [e-Book]  How Much Information? 2013: Report on American Consumers. San Diego, American Consumers, 2013.

Descargar

Para 2015, se estima que los estadounidenses consuman tanto en los medios tradicionales y digitales más de 1,7 billones de horas, un promedio de aproximadamente 15 horas y media por persona al día. La cantidad consumida en los medios de comunicación  superará 8,75 zettabytes por año, o 74 gigabytes – el equivalente a 9 DVDs de datos por consumidor medio en un día normal. Un zetabyte es 10 elevado a los bytes de potencia 21a, un millón de millones de gigabytes. Estas estimaciones provienen de un análisis de más de 30 fuentes de datos de diferentes medios de comunicación, que van desde los medios tradicionales (TV, Radio, telefonía de voz) a nuevas fuentes digitales (tablets, dispositivos de juegos móviles, smartphones, vídeo móvil). Los medios que se consumen en el trabajo no está incluidos.

Definimos los medios consumidos como flujos de datos consumidos por los hogares y las personas, y se midió el tiempo de consumo y el rendimiento de bytes de los datos facilitados. Las fuentes de vídeo dominan el consumo de bytes, con 3,8 zettabytes procedentes de la televisión y 2,46 zettabytes de juegos de ordenador. Si las horas se utilizan como la medición, los medios consumidos son de mucha más amplia distribución, con cantidades sustanciales de radio, aplicaciones de Internet, como redes sociales, navegación y búsqueda, y otros, incluyendo las comunicaciones de mensajería y correo electrónico.Todos resultados son estimaciones, basadas en datos dados a conocer públicamente por los proveedores de datos, incluyendo Nielsen y ComScore, a través de las revelaciones proporcionadas por las compañías de medios y los analistas.

Las horas de consumo crecieron en un poco más allá del 5% desde el año 2008 hasta el 2013, debido a una combinación de aumento de horas de visualización per cápita, a partir de 11 horas por día a un promedio de más de 14 horas por día. En promedio de todos los medios de comunicación, los medios de comunicación consumidos en bytes está creciendo a un ritmo del 18% anual. Esto es menos de la capacidad de procesamiento de datos, impulsados por la Ley de Moore, el aumento de al menos el 30 por ciento al año, pero sigue siendo impresionante.

Los medios tradicionales continúan dominando nuestro consumo de los medios de comunicación todos los días, ya que solo la TV y la Radio ocupan el 60% de las horas. Las nuevas fuentes digitales, sin embargo, están teniendo efectos importantes en la mayoría de las formas de consumo de medios. Más de la mitad de todos los bytes de los medios de comunicación son ahora consumidos por ordenadores, que con los equipos móviles es el segmento de más rápido crecimiento. En 2008, los dispositivos móviles representaron aproximadamente el 3% de todos los bytes consumidos, para el año 2013 son casi un 10%, lo que representa una tasa de crecimiento interanual del 27 por ciento.

Mientras que en el consumo de medios de comunicación durante el pasado era abrumadoramente pasivo – nos sentábamos y veíamos la televisión o escuchamos la radio – el nuevo consumo de medios es cada vez más interactivo, con el retardo de tiempo, la multitarea y la interrupción de la audiencia se esta cambiando rápidamente en el comportamiento típico de consumo.

¿Cuánta información? Informe sobre los consumidores estadounidenses

Bohn, R. and J. E. Short. [e-Book] How Much Information? 2009 Report on American Consumers. San Diego, American Consumers, 2010.

Decargar

La evolución del consumo de información de EE.UU. en las últimas décadas. Durante los años 60 del pasado siglo la radio era un medio de comunicación importante, casi imprescindible, tal y como vemos en el gráfico inferior. Durante los años 80 se produce un desplazamiento de los medios escritos con la ampliación del ámbito de influencia de la televisión, sin embargo la radio gana aceptación.

La evolución del consumo de información de EE.UU. en las últimas décadas.

Comparando el volumen de palabras consumidas por los estadounidenses (fuera del lugar de trabajo), la participación de los medios impresos se redujo drásticamente desde los años 60 desde un 26 por ciento hasta apenas el 9 por ciento en 2008. Y desde la revolución de la entrada de los ordenadores personales en 1981, las computadoras como fuente de información se dispararon al 27 por ciento del total de palabras consumidas el año pasado por los hogares estadounidenses.

En los años iniciales del nuevo siglo hasta 2009 aumenta el uso del ordenador. Y disminuyen los medios tradicionales como el impreso, radio y televisión. Contrariamente a la percepción común, la lectura ha aumentado, debido al crecimiento de cosas para leer a través de los ordenadores como son los blogs y páginas web disponibles en internet.  La lectura que estaba en decadencia debido al crecimiento de la televisión, se triplicó desde 1980 hasta 2008, ya que es la forma abrumadoramente preferida recibir información en Internet.

Si bien, los medios tradicionales como la radio y televisión siguen dominando nuestro consumo diario, con un total de 60 por ciento de las horas. En total, más de las tres cuartas partes del tiempo de información hogares estadounidenses se consume en fuentes no informáticas. A pesar de esto, los ordenadores han tenido efectos importantes en algunos aspectos de consumo de información. En el pasado, el consumo de información fue abrumadoramente pasivo, gracias a los ordenadores, un tercio de las palabras y más de la mitad de los bytes se reciben ahora interactivamente.

Los hogares estadounidenses consumieron aproximadamente 3,6 zettabytes de información en el año 2008, de acuerdo con el informe “¿Cuánta información 2009 Informe sobre los consumidores estadounidenses,?” publicado por la Universidad de California, San Diego. Uno zetabyte es 1000000000 billón de bytes, y el total de bytes consumidos el año pasado fue el equivalente a la información contenida en un como el de siete metros de altura de novelas de bolsillo apiladas sobre todo Estados Unidos, incluyendo Alaska.

Este informe es una instantánea de lo que significa la revolución de la información para el estadounidense medio que en un día consume un promedio de 34 gigabytes y 100 000 palabras de información. En el nuevo informe se estima que entre 1980 y 2008, bytes consumidos aumentaron 350 por ciento, con una tasa de crecimiento anual promedio de 5.4 por ciento. Según el informe, el consumo promedio de información de los estadounidenses es de 34 gigabytes al día, el equivalente a una quinta parte del disco duro de un ordenador portátil. El nuevo informe estima que, un estadounidense está viendo la televisión  de promedio el 41 por ciento de tiempo dedicado a la información (incluyendo DVDs, programas de televisión grabados y visionado en tiempo real).

Sobre la base de bytes solos, sin embargo, los juegos de ordenador son la mayor fuente de consumo de información, con un total de 18.5 gigabytes por día para el consumidor estadounidense medio, o aproximadamente el 67 por ciento de todos los bytes consumidos. Aproximadamente el 80 por ciento de la población juega a algún juego de ordenador.

Los estadounidenses gastaron un 16 por ciento de sus horas dedicadas al consumo de información a través de Internet (en segundo lugar después de la televisión con el 41 por ciento). Con la proliferación de correo electrónico, la mensajería instantánea y las redes sociales. Una cosa positiva es que con los nuevos dispositivos de medios de comunicación son cada vez más dispositivos personales – los teléfonos móviles, Kindles y dispositivos portátiles de juegos – con pantallas pequeñas y relativamente baja resolución, limitan el número de bytes consumidos.

HPCC Sistemas (Thor): plataforma de código abierto para el análisis de Big Data

28341949862_98054197bb_o_d

https://hpccsystems.com/download 

El motor de curación de datos HPCC Sistemas (Thor) ayuda a gestionar, limpiar, enlazar, transformar y analizar grandes volúmenes de datos. Thor soporta estructuras de datos orientada de registro flexibles. A los datos procesados se puede acceder por un gran número de usuarios al mismo tiempo en tiempo real usando el motor Roxie. Las consultas a Roxie son típicamente complejas con capacidades de búsquedas booleanas.

Enterprise Control Language (ECL), es el lenguaje de programación se utiliza para programar tanto los trabajos de procesamiento de datos sobre Thor y como las consultas sobre Roxie

hpcc-flow

Los beneficios de la plataforma HPCC pueden ser definidos en dos palabras: velocidad y escalabilidad. Más información en http://hpccsystems.com/why-hpcc/benefits

Ver más características en http://hpccsystems.com/Why-HPCC/features

Lenguaje de programación ECL http://learn.lexisnexis.com/hpcc

Tutorial sobre Thor y Roxy en Tutorial PDF http://cdn.hpccsystems.com/releases/CE-Candidate-6.0.2/docs/HPCCDataTutorial-6.0.2-1.pdf

Big Data: la próxima «gran cosa» en la gestión de la información

e69c68d5f7c7dcb6ae57282cbc692e14

Alonso Arévalo, Julio (2016). «Big Data: la próxima «gran cosa» en la gestión de la información – BiD: textos universitaris de biblioteconomia i documentació, núm. 36 (juny)

Texto completo

Especial BID Innovación

Número 36, Junio 2016

Según la investigación de MGI y la Oficina de Tecnología de Negocios de McKinsey (Mannyica et al., 2011), la cantidad de información que genera cualquier actividad pública o privada proporciona grandes conjuntos de datos, y el análisis de estos se ha convertido en una de las bases clave para la competencia en un futuro inmediato que sustentará las nuevas oleadas de crecimiento, de productividad, innovación y excedente del consumidor. Los líderes de todos los sectores deberán tener en cuenta las consecuencias de la gestión adecuada de esta ingente cantidad de datos, no solo orientada a aquellos que deben gestionarlos de manera directa como los propios administradores de datos, sino también con quienes tienen que tomar decisiones en las organizaciones. El aumento del volumen y el detalle de la información capturada por las empresas, el aumento de los multimedia, las redes sociales y la «Internet de las cosas» van a impulsar un crecimiento exponencial de los datos en el futuro previsible.

Los servicios como las redes sociales, la web semántica e inteligente y el comercio electrónico a menudo tienen que manejar datos a una escala demasiado grande para una base de datos tradicional. A medida que aumenta la escala y la demanda, también lo hace la complejidad. Afortunadamente, la escalabilidad y la simplicidad no son mutuamente excluyentes —en lugar de utilizar una tecnología de moda, es necesario un enfoque diferente—, ya que los sistemas que utilizan grandes cantidades de datos utilizan muchas máquinas que trabajan en paralelo para almacenar y procesar datos, que introduce retos fundamentales desconocidos para la mayoría de los desarrolladores. Big Data muestra cómo construir estos sistemas usando una arquitectura que aprovecha las ventajas de hardware agrupado junto con nuevas herramientas diseñadas específicamente para capturar y analizar datos a escala web. En él se describe la escalabilidad, para entender el enfoque de los sistemas de grandes volúmenes de datos que se pueden construir a partir de un equipo pequeño (Marz; Warren, 2012).

Casi todos los analistas consideran Big Data como una de las tendencias de futuro que deberán tener en cuenta la mayoría de las empresas e instituciones. La sociedad de las tecnologías de la información y la comunicación (TIC) propicia y requiere un diluvio universal de datos, procesarlos, entenderlos y transformarlos en decisiones de valor es el reto del análisis Big Data. Vital para las empresas cuyo activo es la información. Según estima la International Data Corporation (IDC) hoy los datos se incrementan un 50 % al año, o sea que se duplican cada dos años. Un informe del Foro Económico Mundial declaró que los datos constituyen una nueva clase de activo económico, como la moneda o el oro. Para la revista Forbes, el Big Data ha sido la principal tendencia tecnológica de los últimos años que se mantendrá los próximos años. Según la IDC, hasta 2015 su crecimiento será siete veces superior al de la media de todo el sector de las TIC. En áreas tan variadas como la ciencia y los deportes, la publicidad y la salud pública se ha producido un salto hacia el descubrimiento y la toma de decisiones a partir de los datos (López García, 2013). La tendencia ligada a Big Data también es alimentada por un mejor acceso a la información, especialmente desde que la mayoría de las empresas e instituciones han desplazado sus negocios a la nube, en lo que se ha denominado cloud computing, lo que facilita el acceso a estos desde cualquier tiempo y lugar mediante dispositivos móviles, e incluso que estos datos puedan ser utilizados por cualquier objeto o dispositivo electrónico en lo que se ha denominado la «Internet de las cosas».

Big Data ha dejado de estar limitado al mundo de la tecnología. Hoy en día se trata de una prioridad empresarial dada su capacidad para influir profundamente en el comercio de una economía integrada a escala global. Además de proporcionar soluciones a antiguos retos empresariales, Big Data inspira nuevas formas de transformar procesos, empresas, sectores enteros e incluso la propia sociedad. Aun así, la amplia cobertura mediática que está recibiendo no nos permite distinguir claramente el mito de la realidad: ¿qué está ocurriendo realmente? (Analytics, 2014). Las empresas utilizan Big Data para obtener resultados centrados en el cliente, aprovechar los datos internos y crear un mejor ecosistema de información. El análisis de todos los datos disponibles está convirtiéndose en un elemento de disrupción, así como en un factor de desintermediación que está afectando a la cadena de valor, el análisis de información en grandes volúmenes, de diversas fuentes, a gran velocidad y con una flexibilidad sin precedentes, puede suponer un factor diferencial para aquellos que decidan adoptarlo (Big Data, 2013).

La agencia Gartner proporciona una descripción del término en la siguiente frase: Big Data se refiere al volumen, variedad y velocidad de datos estructurados y no estructurados que se vierten a través de redes en los procesadores y dispositivos de almacenamiento, así como la conversión de dichos datos para el asesoramiento empresarial. Estos elementos se pueden dividir en tres categorías distintas: volumen, variedad y velocidad.

— Volumen (terabytes, petabytes y exabytes, eventualmente): La cantidad cada vez mayor de datos creada por los seres humanos y las máquinas está poniendo un reto a los sistemas informáticos, que están luchando para almacenar, proteger y poner a disposición toda la información para su uso futuro.

— Variedad: Big Data es también el creciente número de tipos de datos que deben ser manejados de manera diferente a partir de simple correo electrónico, registros de datos y los registros de tarjetas de crédito. Reunidos datos para estudios científicos, registros de salud, datos financieros y multimedia: fotos, presentaciones gráficas, música, audio y vídeo.

— Velocidad: Se trata de la velocidad a la que estos datos se mueve a partir de criterios de valoración en el procesamiento y almacenamiento.

Big Data es, sin la menor duda, uno de los campos más importantes de trabajo para los profesionales de las TIC. No hay área ni sector que no esté afectado por las implicaciones que este concepto está incorporando; cambian algunas herramientas, se modifican estrategias de análisis y patrones de medida. Uno de los retos y oportunidades que tienen los profesionales de la información en este entorno es el relativo a la alfabetización sobre datos en bibliotecas universitarias y de investigación. La alfabetización informacional y la alfabetización digital en las bibliotecas han sido ampliamente discutidas y aplicadas en la literatura profesional, pero hasta hace muy poco se ha prestado poca atención a la alfabetización de datos. Sin embargo, las nuevas iniciativas de gobierno electrónico y de datos abiertas en la última década han creado datos públicos ampliamente disponibles que son de gran interés para investigadores y estudiantes. El aumento de la capacidad tecnológica para procesar gran cantidad de datos (Big Data) ofrece nuevas oportunidades tanto para el profano como para el investigador. Conocer y alfabetizar sobre estas cuestiones requiere un esfuerzo de readaptación profesional para fomentar una mentalidad sobre la importancia de estos datos y la cultura de análisis, ya que se trata de la adopción de las nuevas tecnologías, ello presenta desafíos únicos para los bibliotecarios. ¿Cómo pueden las bibliotecas desempeñar su papel en este esfuerzo de recualificación para desarrollar una «mentalidad basada en datos»? (Big Data Now, 2011).

El mundo científico, caracterizado por tener que manejar grandes volúmenes de datos, se ha visto muy beneficiado por Big Data Analytics. Desde aplicaciones para ciencias naturales y del cosmos, como la astronomía, la botánica y la geología, hasta funcionalidades que permiten realizar análisis pormenorizados de los casos y ofrecer tratamientos más personalizados en el ámbito de las ciencias de la salud, pasando por las distintas ciencias económicas y sociales que mayor ventaja obtienen aprovechando los beneficios aportados por estas herramientas de análisis de datos ―estadística, economía o sociología, entre otras.

Como se pregunta Mario Tascón (2013), «¿Va a ser Big Data una etiqueta más que añadir a las múltiples modas que hemos ido viendo a lo largo de los últimos años en el panorama de Internet y los desarrollos digitales o es una tendencia de fondo que está afectando en su totalidad a la evolución de la Web? ¿Se trata de un verdadero reto para las empresas en los próximos años o una nueva estrategia de marketing y vaporware de los proveedores tecnológicos? Big Data puede llegar a ser el activo más valioso de una organización o una de sus obligaciones más costosas, todo depende de las estrategias y soluciones que se pongan en marcha a corto plazo para afrontar el ingente crecimiento del volumen, la complejidad, la diversidad y la velocidad de los datos». Como veremos, es una tendencia importante para las organizaciones y sus procesos de toma de decisiones, pero en absoluto afectará de la misma forma a todas las firmas y sectores. En España, según Big Data de IDC, cerca de un 5 % de las empresas españolas ya utiliza esta tecnología.

La ciencia de datos se refiere a un área emergente de trabajo que se ocupa de la recogida, preparación, análisis, visualización, administración y conservación de grandes colecciones de información. Aunque el término de datos científicos parece conectar más fuertemente con áreas tales como bases de datos y la informática, incluye muchos tipos diferentes de habilidades —incluyendo habilidades no matemáticas—. Para algunos, el término ciencia de datosevoca imágenes de los estadísticos en el laboratorio mirando fijamente parpadear las pantallas de ordenador llenas de números en desplazamiento. Nada podría estar más lejos de la verdad. Tampoco muchos de estos datos disponibles en el mundo no son solo numéricos y estructurados. En este contexto, «no estructurado» significa que los datos no están dispuestos en filas y columnas ordenadas. Si bien es cierto que las empresas, las escuelas y los gobiernos utilizan gran cantidad de información numérica —ventas de productos, promedio de calificaciones y evaluaciones fiscales son algunos ejemplos—, hay un montón de otra información en el mundo distinta de la utilizada por matemáticos y estadísticos. Así, mientras que siempre es útil tener grandes habilidades matemáticas, hay mucho por hacer en el mundo de la ciencia de datos para aquellos otros tipos de datos, como aquellos que contienen palabras, listas, fotografías, sonidos y otros tipos de información. Además, la ciencia de datos va más allá del simple análisis, ya que la ciencia de datos ofrece una gama de funciones y requiere una serie de habilidades muy diferentes (Stanton, 2013).

Ya existe alguna aplicación como Dataverse, una aplicación web de código abierto desarrollada por la Universidad de Harvard que permite compartir, preservar, citar, explorar y analizar datos de investigación. El programa facilita la toma de datos y los pone a disposición de los demás, y permite replicar otros trabajos de investigación. Un repositorio Dataverse aloja varios dataverses. Cada dataverse contiene un datatset u otros dataverses, y cada conjunto de datos contiene metadatos descriptivos y archivos de datos (incluyendo la documentación y el código que acompañan a los datos). Dataverse normaliza la cita de los conjuntos de datos para que sea más fácil para los investigadores publicar sus datos y obtener un mejor reconocimiento de su trabajo. Cuando se crea un conjunto de datos en Dataverse, se genera la citación y se presenta de forma automática como un marco único de código abierto y repositorio de datos de investigación, lo que hace que los datos científicos sean lo más accesibles, reutilizables, y abiertos posible. Por lo que Big Data también supone una oportunidad, un reto y un desafío profesional para documentalistas y bibliotecarios, que como expertos en la compilación, organización, gestión y difusión de la información deberemos estar alineados con la evolución de esta propuesta, que es, sin lugar a dudas, una de las grandes líneas de desarrollo profesional, por ello deberemos conocer y adquirir las destrezas necesarias para saber cómo gestionar con eficiencia esta cantidad ingente de datos para dotarlos de valor en la sociedad de la información (Torres i Viñals, 2012).

Bibliografía

Analytics: el uso de Big Data en el mundo real. Cómo las empresas más innovadoras extraen valor de datos inciertos (2014). IBM Institute for Business Value. <http://www-05.ibm.com/services/es/gbs/consulting/pdf/
El_uso_de_Big_Data_en_el_mundo_real.pdf
>. [Consulta: 30/12/2015].

Big Data: es hora de generar valor de negocio con los datos (2013). BBVA. <https://www.centrodeinnovacionbbva.com/sites/default/files/bigdata_spanish.pdf>. [Consulta: 30/12/2015].

Big Data Now (2011). Cambridge: O’Reilly Media. <http://www.onmeedia.com/donwloads/Big_Data_Now_Current_Perspectives_from_OReilly_Radar.pdf>.
[Consulta: 30/12/2015].

International Data Corporation (IDC). <http://www.idc.com/>. [Consulta: 30/12/2015].

López García, David (2013). Análisis de las posibilidades de uso de Big Data en las organizaciones. Santander: Universidad de Cantabria. <http://repositorio.unican.es/xmlui/bitstream/handle/10902/4528/TFM%20-%20David%20L%C3%B3pez%20Garc%C3%ADaS.pdf?sequence=1>. [Consulta: 30/12/2015].

Mannyica, James et al. (2011). Big Data: The Next Frontier for Innovation, Competition, and Productivity. New York: McKinsey & Company. <http://lazowska.cs.washington.edu/escience/McKinsey.big.data.pdf>. [Consulta: 30/12/2015].

Marz, Nathan; Warren, James (2012). Big Data: Principles and Best Practices of Scalable Realtime Data Systems. New York: Manning Publications. <http://www.manning.com/marz/BD_meap_ch01.pdf>. [Consulta: 30/12/2015].

Stanton, Jeffrey M. (2013). An Introduction to Data Science. Syracuse: Syracuse University. <https://ischool.syr.edu/media/documents/2012/3/DataScienceBook1_1.pdf>. [Consulta: 30/12/2015].

Tascón, Mario (2013). Big Data. Madrid: Fundación Telefónica. <http://www.fundaciontelefonica.com/arte_cultura/publicaciones-listado/pagina-item-publicaciones/?itempubli=264>. [Consulta: 30/12/2015].

Torres i Viñals, Jordi (2012). Del Cloud Computing al Big Data: visión introductoria para jóvenes emprendedores. Barcelona: UOC. <http://www.jorditorres.org/wp-content/uploads/2012/03/
Del.Cloud_.Computing.al_.Big_.Data_.JordiTorres.ES_.pdf
>. [Consulta: 30/12/2015].

Cita recomendada

Alonso Arévalo, Julio; Vázquez Vázquez, Marta (2016). «Big Data: la próxima «gran cosa» en la gestión de la información – See more at: http://bid.ub.edu/es/36/alonso.htm#sthash.jacFPCMg.dpuf». BiD: textos universitaris de biblioteconomia i documentació, núm. 36 (juny) . <http://bid.ub.edu/es/36/alonso.htm&gt;. DOI: http://dx.doi.org/10.1344/BiD2016.36.2 [Consulta: 12-09-2016].

Barómetro de apertura de datos

26837420092_f0b4003735_b_d

Open Data Barometer The World Wide Web Foundation, 2016.

Texto completo

Portal

¿Los gobiernos están dispuestos a abrir sus datos? ¿Están realmente los gobiernos cumpliendo sus promesas de datos abiertos? ¿Qué impacto tienen datos abiertos que tienen en la vida de los ciudadanos?

En una sociedad democrática que funcione bien, los ciudadanos deben estar informados y tener acceso a la información sobre las políticas y los progresos del gobierno. Abrir los datos – los datos que está disponible gratuitamente y se pueda compartir en línea, sin cargo – reduce drásticamente el tiempo y el dinero que los ciudadanos necesitan invertir para conocer lo que el gobierno está haciendo y para exigirle rendición de cuentas. para ello es imprescindible que los datos abiertos estén disponibles en formatos que los programas informáticos simples puedan analizar, comparar y combinar desde diferentes fuentes de manera rápida y fácil, incluso más allá de las fronteras nacionales. Esto mejora en gran medida la capacidad de los políticos, los científicos y los empresarios para encontrar soluciones a los problemas de desarrollo complejos.

De acuerdo con esta definición abierta, para un grupo de datos sea verdaderamente abierto, los datos deben estar:

  • Disponible en línea con el fin de dar cabida a la más amplia gama de prácticas de los usuarios y usos.
  • Abrir con licencia para que cualquier persona pueda utilizar y reutilizar los datos.
  • Sean legibles por máquina, para que los grandes conjuntos de datos pueden ser analizados de manera eficiente.
  • Disponibles a granel para que se pueda obtener como un único conjunto de datos analizados fácilmente por una máquina.
  • De forma gratuita para que cualquier persona pueda acceder a ellos sin importar su disponibilidad económica o social.

Sin embargo, este informe de 2016 muestra que aún queda mucho por hacer para desbloquear los datos y que estén ampliamente disponibles. Según datos de este informe, el 55% de los 92 países de la encuesta tienen en marcha una iniciativa de datos abiertos (55%)  Aunque sólo el 10% de los datos de los gobiernos se publican como abiertos. La mitad de todos los conjuntos de datos abiertos se concentran en sólo los 10 países de la OCDE. Existe una brecha entre los que tienen datos y los que no lo consideran una cuestión digna de atención urgente. El impacto en la transparencia y la rendición de cuentas tuvo un descenso del 22%, mientras que el impacto sobre la capacidad empresarial subió 15%

Una introducción a la Ciencia de los Datos

introduction-to-data-science

Stanton, J. M. (2013). [e-Book] An Introduction to Data Science. Syracuse, Syracuse University, 2013

Texto completo

La ciencia de los datos se refiere a un área emergente de trabajo relacionado con la recolección, preparación, análisis, visualización, administración y conservación de grandes colecciones de información. Aunque el nombre de Datos Científicos parece conectar más fuertemente con áreas tales como bases de datos y la informática, incluye diferentes tipos de habilidades – incluyendo las habilidades matemáticas. Para algunos, el término «ciencia de datos» evoca imágenes de estadísticos con batas blancas de laboratorio que miran fijamente parpadear la pantalla del ordenador llenos de números en desplazamiento. Nada mas lejos de la verdad. En primer lugar, los estadísticos no llevan batas de laboratorio: esta moda está reservada para los biólogos, médicos, y otros que tienen que mantener su ropa limpia en ambientes asepticos. En segundo lugar, muchos de los datos en el mundo no son numéricos ni estructurados. En este contexto, no estructurado significa que los datos no están dispuestos en filas y columnas ordenadas. Por ejemplo una página web con fotografías y mensajes cortos entre amigos. Si bien es cierto que las empresas, las universidades y los gobiernos utilizan un montón de información numérica – ventas de productos, promedios de calificaciones, evaluaciones fiscales son algunos ejemplos. Así que, aunque siempre es útil tener buenas habilidades matemáticas, hay mucho por hacer en el mundo de la ciencia de los datos para aquellos que generalmente trabajamos con palabras, listas, fotografías, sonidos, y otros tipos de información. Además, la ciencia de los datos es mucho más que un simple análisis de datos. Hay muchas personas que disfrutan del análisis de datos, y que podría felizmente pasar todo el día mirando histogramas y medias, pero para aquellos que prefieren otras actividades, la ciencia de los datos ofrece una gama desarrollos y requiere una serie de habilidades. Vamos a considerar esta idea pensando en algunos de los datos subyacentes que hay en transacciones tan cotidianas como la compra de una caja de cereales.

La ciencia como una empresa abierta

science-as-an-open-enterprise

Science as an open enterprise
The Royal Society Science Policy Centre report 02/12

Texto completo

«La Ciencia como una empresa abierta»pone de relieve la necesidad de gestionar la enorme avalancha de datos generados por las tecnologías de la información con el fin de preservar el principio de apertura y explotar los datos de manera que posibiliten el potencial de crear una segunda revolución científica abierta. Explorar grandes cantidades de datos a través de las modernas tecnologías digitales tiene un enorme potencial para la ciencia y su aplicación en las políticas públicas y negocios. El informe ilustra los cambios que se requieren por parte de los científicos, sus instituciones y las entidades financieras de apoyo a la ciencia para generar y desarrollar el valor potencial que contienen estos datos.

En el informe se destacan seis áreas clave de actuación:

  • Los científicos tienen que ser más abiertos entre ellos y con el público y los medios
  • Se ha de otrogar un mayor reconocimiento al valor que conlleva la recolección, el análisis y la comunicación de los datos.
  • Se requieren normas comunes para el intercambio de información de datos sea ampliamente utilizable.
  • La publicación de datos en un formato reutilizable para apoyar los hallazgos debe ser obligatoria.
  • Se requieren más expertos en el manejo y apoyo al uso de los datos digitales
  • Las nuevas herramientas de software deben ser desarrolladas para analizar la cantidad cada vez mayor de datos que se generan.

¿Hacia dónde se dirige la biblioteca de investigación del futuro?

Alonso-Arévalo, Julio. ¿Hacia dónde se dirige la biblioteca de investigación del futuro?. XII Jornadas APDIS Coimbra, 20-22 de abirl de 2016. Coimbra: APDIS, 2016

Texto completo

presentación en Prezi

“El profesional de la información es la biblioteca del futuro” (Harris 2012).

Resumen: Si hay una palabra que define nuestro tiempo es cambio. La tecnología, las necesidades y preferencias de los usuarios están ayudando a impulsar el cambio en las bibliotecas de todo tipo. El nuevo concepto de biblioteca de investigación del futuro conlleva un cambio que implica una toma de postura a veces desafiante y controvertida. Las bibliotecas están transformándose, reimaginando sus espacios, definiendo sus misión y ampliando sus servicios para continuar siendo relevantes en el futuro. La biblioteca universitaria y de investigación se está convirtiendo rápidamente en un centro multifacético diseñado para soportar una amplia y variada gama de actividades de investigación y de aprendizaje tanto para estudiantes como para investigadores. Este documento analiza las principales tendencias de futuro de la biblioteca científica tales como la gestión y vinculación de grandes conjuntos de datos, servicios a través de dispositivos digitales, evolución de la apertura de la educación superior, aprendizaje basado en competencias, métricas alternativas, y humanidades digitales;  lo que afectará a la transformación del espacio, las colecciones y a las tareas desarrolladas por los profesionales más orientadas al apoyo al aprendizaje que a las tareas tradicionales.

Descriptores: bibliotecas universitarias, bibliotecas públicas, futuro, tendencias, Big data, Alfabetización informacional, Enseñanza virtual, Espacios, Tecnologías de la Información

Abstract: Technology, needs and preferences of users are helping to drive change in libraries of all kinds. The new concept of research library of the future involves a change  which is taking a stance sometimes challenging and controversial. Libraries are changing, reimagining spaces, defining its mission and expand its services to remain relevant in the future. The academic and research library is fast becoming a multifaceted facility designed to support a wide and varied range of research and learning for both students and researchers. This paper analyzes the main trends of future scientific library such as management and linking large sets of data, services through digital devices, changing the opening of higher education, competence based learning, altmetrics and digital humanities; which will affect the transformation of space, collections and the tasks performed by professionals more oriented learning support than traditional tasks.

Descriptors: Academic libraries, Public libraries, Future trends, Big data, Information literacy, eLearning, Spaces, Information Technology

Bases para crear un Programa de Gestión de Datos de Investigación

 

 

buildingblocks-cover-landing

Erway, R., L. Horton, et al. (2016). [e-Book] Building Blocks: Laying the Foundation for a Research Data Management Program. Dublin, Ohio, OCLC.

Texto completo

Cada vez se pone mayor énfasis en la apertura de datos, gestión de datos planos, y en la investigación en torno a  ”Big data”, lo que está impulsando a las instituciones académicas a desarrollar y desplegar nuevas iniciativas. El aumento del volumen y organización de la información capturada por las empresas y organizaciones, el aumento de los multimedia, las redes sociales y la “Internet de las cosas” van a impulsar un crecimiento exponencial de los datos en el futuro.  Datos de registros de llamadas, transacciones de banca móvil, contenido generado por el usuario de internet, tales como blogs y tweets, búsquedas en línea, imágenes de satélite, etc. es información procesable que requiere el uso de técnicas computacionales para dar a conocer las tendencias y patrones dentro de y entre éstos extremadamente grandes conjuntos de datos socioeconómicos.

El análisis de las necesidades de datos de los investigadores a través de dominios institucionales puede requerir de la participación de la biblioteca para identificar y conectar a los investigadores en todas las unidades funcionales, tanto formales e informales para compartir, analizar, y reutilizar datos. Dos de los más importantes informes sobre tendencias en bibliotecas universitarias y de investigación Horizon Report 2016 y Tendencias ACRL en bibliotecas universitarias consideran que la gestión de datos de investigación (RDM) marcará de manera inaplazable el futuro de nuestras instituciones. Los mandatos de los organismos de financiación han hecho de la gestión e intercambio de datos sea una prioridad de primer nivel para los investigadores; las nuevas estrategias para la reutilización y la visualización están datos cobran importancia cuando se establecen repositorios de datos bien establecidos que acrecientan la capacidad de descubrimiento.

Esta urgencia se hace sentir en la mayoría de los campus; Las bibliotecas han respondido con una variedad de servicios. Aproximadamente la mitad de todas las bibliotecas universitarias tienen algún tipo de programa de apoyo a la gestión de datos. Los bibliotecarios también están haciendo un trabajo interesante para ayudar a gestionar esta evolución basada en los principios de apertura e interoperabilidad. Esta práctica es necesaria para la transición desde la idea tradicional que se tiene de una “infraestructura de datos” centrada en torno a las revistas especializadas o repositorios institucionales en un sistema más robusto centrado en los datos de investigación. La creación de este nuevo ecosistema requerirá de la evolución en muchas áreas, incluyendo el desarrollo de nuevos estándares en torno a la validación de los datos de la investigación, los procedimientos para documentar la procedencia de los conjuntos de datos, y los nuevos modos de gestión y propiedad de los datos de la investigación.

Así los bibliotecarios se están mostrando activos en todos estos espacios. Las bibliotecas tienen  identificadores de objetos digitales (Dois) que identifican los conjuntos de datos específicos utilizando servicios como DataCite y EZID. También están haciendo ricos con el trabajo de metadatos que facilita el descubrimiento y la reutilización a través de consultas individuales y el desarrollo de esquema.

La adecuada gestión de datos es fundamental para los datos de investigación de alta calidad y, por tanto, la investigación de excelencia, es crucial para facilitar el intercambio de datos y asegurar la sostenibilidad y la accesibilidad de los datos a largo plazo y por lo tanto su reutilización para la ciencia futura. Siendo determinante la labor de la biblioteca en el apoyo a los investigadores de cara a gestionar y compartir datos a través de herramientas, la orientación sobre el tema a investigadores, la formación práctica; así como facilitar la citación y vinculación de los datos con publicaciones con el objetivo de proporcionar mayor visibilidad y accesibilidad de los datos y la investigación misma.

El diseño y establecimiento de un programa de gestión de datos de investigación (RDM) se ha convertido en un imperativo apremiante para muchas bibliotecas de investigación, pero relativamente pocas tienen implementado un programa en funcionamiento. Los desafíos son muchos; éstos incluyen el aprendizaje sobre los principios de gestión de datos de investigación (RDM), los problemas, la evaluación de las instituciones con mayores necesidades, selección y aplicación de un entorno de almacenamiento, colaboración con investigadores para transmitir la importancia del proyecto, la preparación de materiales de formación, la construcción de conocimientos técnicos entre personal de la biblioteca, y el establecimiento de directrices de metadatos.

Se trata de una llamada a la acción por parte de los gestores de bibliotecas, no sólo porque sus bibliotecas deben ser las destinatarias de aquellos datos de investigación que necesitan curación y  a la vez servir de orientadores, ya que el personal de la biblioteca posee las habilidades y experiencia necesaria para el desarrollo de este tipo de proyectos; también porque  esta es una oportunidad para que la biblioteca pueda jugar un papel en uno de los asuntos clave de la misión de la institución. 

El libro Building Blocks ofrece una guía detallada en dos niveles:

Parte 1, Sentando las bases, se dirige a las instituciones que aún tienen que iniciar la ejecución, con el objetivo de guiarlos a través de los pasos necesarios para establecer una empresa, fundación de apoyo sobre la que construir.

Parte 2, Como crear la estructura de un programa completo RDM. Además de guiar a los lectores a través de toda la gama de etapas en la construcción de un programa, el documento Building Blocks incluye más de 100 enlaces a recursos que pueden servir para el aprendizaje en torno al tema.

Este trabajo es parte de de la investigación y esfuerzos de apoyo para formar e informar a las biblioteca sobre los avances en torno a colecciones de investigación y servicios emergentes que las bibliotecas están ofreciendo para apoyar los modos contemporáneos de investigación. Alentando el desarrollo de nuevos proyectos para que las bibliotecas puedan construir y proporcionar estos tipos de colecciones y ofrecer servicios innovadores.

Los grupos de interés identificados incluyen:

  • La Universidad
  • La Oficina de Investigación
  • La Oficina de Evaluación de Investigación
  • El Departamento de Tecnología de la Información
  • Los investigadores
  • Las unidades académicas
  • La biblioteca

Cuestiones a tener en cuenta:

  • ¿Quién posee los datos?
  • ¿Qué requisitos son impuestos por otros?
  • ¿Qué datos deben conservarse?
  • Por cuánto tiempo deben conservarse estos datos?
  • ¿Cómo deben ser preservado de datos digitales?
  • ¿Existen consideraciones éticas?
  • ¿Cómo se accede a los datos?
  • ¿Cómo deben ofrecerse los datos?
  • ¿Cómo se manejarán los costos?
  • ¿Cuáles son las alternativas para la gestión de datos locales?

Gestión de Datos de Investigación (RDM) es un proceso que está diseñado para gestionar y difundir conjuntos de datos de alta calidad, que cumplan con los requisitos académicos, legales y éticos. Hay dos salidas del proceso de RDM:

1. La preservación a largo plazo de los conjuntos de datos mediante sistemas de almacenamiento
2. Compartir y reutilización de los conjuntos de datos para la investigación y otros fines en la sociedad en general.

La investigación sobre la gestión de datos de investigación es uno de los retos futuros que deberemos asumir las bibliotecas de investigación. Se trata de una nueva forma de organizar la información que exige esfuerzos importantes en el aprendizaje de nuevos sistemas, métodos de trabajo y colaboración con los agentes implicados. Por ello las bibliotecas deben aprovechar esta oportunidad para demostrar su valor a lo largo de todo el ciclo de vida de la investigación y en apoyo a la cultura abierta. Las bibliotecas tienen un papel importante que desempeñar en la gestión de los datos de la investigación y el intercambio de los mismos; teniendo en cuenta que la gestión de datos de investigación, como la mayoría de los esfuerzos en comunicación académica, es un trabajo de equipo.

Para obtener más información acerca de este esfuerzo específico, será de gran ayuda el documento también publicado por OCLC Role of Libraries in Data Curation sobre el papel de las bibliotecas el proyecto los «curación» de datos.

Otros post de interés en torno al tema

Gestión de los repositorios de Datos de Investigación (RDM)

Bibliotecas y Big Data : como hacer unas gestión de datos de investigación sostenible

Informe Horizon 2016. Desafíos, tendencias y tecnologías en Enseñanza Universitaria

Alfabetización sobre datos en bibliotecas de investigación : mejores prácticas para los bibliotecarios

Las principales tendencias ACRL en bibliotecas universitarias

Diez señales de madurez en la ciencia de los datos

Gestionar y compartir datos : mejores prácticas para investigadores.

Cómo las bibliotecas sirven de apoyo para el tratamiento de los datos de investigación a lo largo de todo el ciclo vital