Archivo de la etiqueta: Big Data

Gestión de datos de investigación con Fernanda Peset. Planeta Biblioteca 2016/12/21.

31428520590_4e68433a16_b_d

ESCUCHAR EL PROGRAMA

Ir a descargar

En esta ocasión ha estado en nuestro programa FERNANDA PESET profesora titular de la Universidad Politécnica de Valencia con quien hemos charlado sobre Gestion de Datos de Investigación, además es miembro de MAREDATA. Fernanda nos ha hablado de qué  son y qué implicaciones tienen los Big Data, los desafíos que se plantean en el contexto de la investigación científica, cómo se realiza la gestión que permite intervenir en el ciclo vital de los datos, qué políticas se están siguiendo al respecto y las implicaciones para el futuro de la profesión.

Geovisualización de grandes volúmenes de datos ambientales: diseño e implementación de un sistema para el acceso y la difusión de datos globales

20150720-congreso-ci-geovisualizacion-1

Álvarez Francoso, J. I., M. F. Pita López, et al. (2016). [e-Book] Geovisualización de grandes volúmenes de datos ambientales: Diseño e implementación de un sistema para el acceso y la difusión de datos globales. Sevilla, Universidad de Sevilla, 2016.

Texto completo

PDF

El dato climático es una representación abstracta que se utiliza para intentar alcanzar un mayor grado de comprensión de una realidad extraordinariamente compleja. De forma paradójica, el formidable crecimiento de la capacidad para registrar y almacenar datos los ha convertido en otra realidad tan compleja, que se revela imprescindible la utilización de sistemas que ayuden a descifrarlos. Uno de los aspectos fundamentales de la información climática es la importancia de su dimensión espacial, que se presta especialmente bien a la exploración mediante herramientas de visualización. Además, el desarrollo de las tecnologías de la información ha propiciado que hoy en día, el número de usuarios interesados que pueden acceder a la información climática haya aumentado también de manera sustancial. Pero el simple acceso no es suficiente para una transmisión efectiva de la información, sino que esta debe organizarse de manera adecuada y acompañarse de los medios y herramientas para su exploración y comunicación. En este sentido, la geovisualización web juega un papel fundamental. Esta tesis doctoral hace una aportación en el campo de la geovisualización web de datos climáticos haciendo en primer lugar una revisión de los principales aspectos de la misma: los datos, los sistemas de geovisualización y los usuarios; y proponiendo posteriormente una metodología para el diseño e implementación de dos sistemas abiertos para la geovisualización web de datos climáticos a dos escalas: global y regional. Los resultados demuestran la efectividad de la metodología propuesta, basada en un adecuado diseño, tanto del modelo de datos en el que se sustentan los sistemas, como de los flujos de los procesos implicados en el funcionamiento de los mismos.

La planificación de Big Data

51xb0qa9z2l

Planning for Big Data : A CIO’s Handbook to the Changing Data Landscape O’Reilly Radar Team. [e-Book] Cambridge, O’Reilly, 2012

Descargar

Big Data (del idioma inglés grandes datos) es en el sector de tecnologías de la información y la comunicación una referencia a los sistemas que manipulan grandes conjuntos de datos (o data sets). Las dificultades más habituales en estos casos se centran en la captura, el almacenado, búsqueda, compartir, análisis, y visualización. La tendencia a manipular ingentes cantidades de datos se debe a la necesidad en muchos casos de incluir los datos relacionados del análisis en un gran conjunto de datos relacionado, tal es el ejemplo de los análisis de negocio, los datos de enfermedades infecciosas, o el combate con el crimen organizado.

Big Data: Principios y buenas prácticas

51bd93aguol-_sx258_bo1204203200_

Marz, Nathan and James  Warren (2012). [e-Book]  Big Data: Principles and best practices of scalable realtime data systems. New York, Manning Publications.

Descargar

Chapter 1

Chapter 2

Source Code

Los servicios como las redes social, la web semántica e inteligente y el comercio electrónico a menudo tienen que manejar datos a una escala demasiado grande para una base de datos tradicional. A medida que aumenta la escala y la demanda, también lo hace la complejidad. Afortunadamente, la escalabilidad y la simplicidad no son mutuamente excluyentes -en lugar de utilizar una tecnología de moda, es necesario un enfoque diferente-, ya que los sistemas que utilizan grandes cantidades de datos utilizan muchas máquinas trabajando en paralelo para almacenar y procesar datos, que introduce retos fundamentales desconocidos para la mayoría de los desarrolladores.

Big Data muestra cómo construir estos sistemas usando una arquitectura que aprovecha las ventajas de hardware agrupado junto con nuevas herramientas diseñadas específicamente para capturar y analizar datos a escala web. En él se describe la escalabilidad, para entender el enfoque de los sistemas de grandes volúmenes de datos que se pueden construir a partir de un equipo pequeño. Después de un ejemplo real, este libro guía a los lectores a través de la teoría del Big Data, enseña cómo utilizarlos en la práctica, y cómo implementar y operar con ellos una vez que están construidos.

¿Cuánta información? 2013: Informe sobre los consumidores estadounidenses

 

Bohn, R. and J. E. Short (2013). [e-Book]  How Much Information? 2013: Report on American Consumers. San Diego, American Consumers, 2013.

Descargar

Para 2015, se estima que los estadounidenses consuman tanto en los medios tradicionales y digitales más de 1,7 billones de horas, un promedio de aproximadamente 15 horas y media por persona al día. La cantidad consumida en los medios de comunicación  superará 8,75 zettabytes por año, o 74 gigabytes – el equivalente a 9 DVDs de datos por consumidor medio en un día normal. Un zetabyte es 10 elevado a los bytes de potencia 21a, un millón de millones de gigabytes. Estas estimaciones provienen de un análisis de más de 30 fuentes de datos de diferentes medios de comunicación, que van desde los medios tradicionales (TV, Radio, telefonía de voz) a nuevas fuentes digitales (tablets, dispositivos de juegos móviles, smartphones, vídeo móvil). Los medios que se consumen en el trabajo no está incluidos.

Definimos los medios consumidos como flujos de datos consumidos por los hogares y las personas, y se midió el tiempo de consumo y el rendimiento de bytes de los datos facilitados. Las fuentes de vídeo dominan el consumo de bytes, con 3,8 zettabytes procedentes de la televisión y 2,46 zettabytes de juegos de ordenador. Si las horas se utilizan como la medición, los medios consumidos son de mucha más amplia distribución, con cantidades sustanciales de radio, aplicaciones de Internet, como redes sociales, navegación y búsqueda, y otros, incluyendo las comunicaciones de mensajería y correo electrónico.Todos resultados son estimaciones, basadas en datos dados a conocer públicamente por los proveedores de datos, incluyendo Nielsen y ComScore, a través de las revelaciones proporcionadas por las compañías de medios y los analistas.

Las horas de consumo crecieron en un poco más allá del 5% desde el año 2008 hasta el 2013, debido a una combinación de aumento de horas de visualización per cápita, a partir de 11 horas por día a un promedio de más de 14 horas por día. En promedio de todos los medios de comunicación, los medios de comunicación consumidos en bytes está creciendo a un ritmo del 18% anual. Esto es menos de la capacidad de procesamiento de datos, impulsados por la Ley de Moore, el aumento de al menos el 30 por ciento al año, pero sigue siendo impresionante.

Los medios tradicionales continúan dominando nuestro consumo de los medios de comunicación todos los días, ya que solo la TV y la Radio ocupan el 60% de las horas. Las nuevas fuentes digitales, sin embargo, están teniendo efectos importantes en la mayoría de las formas de consumo de medios. Más de la mitad de todos los bytes de los medios de comunicación son ahora consumidos por ordenadores, que con los equipos móviles es el segmento de más rápido crecimiento. En 2008, los dispositivos móviles representaron aproximadamente el 3% de todos los bytes consumidos, para el año 2013 son casi un 10%, lo que representa una tasa de crecimiento interanual del 27 por ciento.

Mientras que en el consumo de medios de comunicación durante el pasado era abrumadoramente pasivo – nos sentábamos y veíamos la televisión o escuchamos la radio – el nuevo consumo de medios es cada vez más interactivo, con el retardo de tiempo, la multitarea y la interrupción de la audiencia se esta cambiando rápidamente en el comportamiento típico de consumo.

¿Cuánta información? Informe sobre los consumidores estadounidenses

Bohn, R. and J. E. Short. [e-Book] How Much Information? 2009 Report on American Consumers. San Diego, American Consumers, 2010.

Decargar

La evolución del consumo de información de EE.UU. en las últimas décadas. Durante los años 60 del pasado siglo la radio era un medio de comunicación importante, casi imprescindible, tal y como vemos en el gráfico inferior. Durante los años 80 se produce un desplazamiento de los medios escritos con la ampliación del ámbito de influencia de la televisión, sin embargo la radio gana aceptación.

La evolución del consumo de información de EE.UU. en las últimas décadas.

Comparando el volumen de palabras consumidas por los estadounidenses (fuera del lugar de trabajo), la participación de los medios impresos se redujo drásticamente desde los años 60 desde un 26 por ciento hasta apenas el 9 por ciento en 2008. Y desde la revolución de la entrada de los ordenadores personales en 1981, las computadoras como fuente de información se dispararon al 27 por ciento del total de palabras consumidas el año pasado por los hogares estadounidenses.

En los años iniciales del nuevo siglo hasta 2009 aumenta el uso del ordenador. Y disminuyen los medios tradicionales como el impreso, radio y televisión. Contrariamente a la percepción común, la lectura ha aumentado, debido al crecimiento de cosas para leer a través de los ordenadores como son los blogs y páginas web disponibles en internet.  La lectura que estaba en decadencia debido al crecimiento de la televisión, se triplicó desde 1980 hasta 2008, ya que es la forma abrumadoramente preferida recibir información en Internet.

Si bien, los medios tradicionales como la radio y televisión siguen dominando nuestro consumo diario, con un total de 60 por ciento de las horas. En total, más de las tres cuartas partes del tiempo de información hogares estadounidenses se consume en fuentes no informáticas. A pesar de esto, los ordenadores han tenido efectos importantes en algunos aspectos de consumo de información. En el pasado, el consumo de información fue abrumadoramente pasivo, gracias a los ordenadores, un tercio de las palabras y más de la mitad de los bytes se reciben ahora interactivamente.

Los hogares estadounidenses consumieron aproximadamente 3,6 zettabytes de información en el año 2008, de acuerdo con el informe “¿Cuánta información 2009 Informe sobre los consumidores estadounidenses,?” publicado por la Universidad de California, San Diego. Uno zetabyte es 1000000000 billón de bytes, y el total de bytes consumidos el año pasado fue el equivalente a la información contenida en un como el de siete metros de altura de novelas de bolsillo apiladas sobre todo Estados Unidos, incluyendo Alaska.

Este informe es una instantánea de lo que significa la revolución de la información para el estadounidense medio que en un día consume un promedio de 34 gigabytes y 100 000 palabras de información. En el nuevo informe se estima que entre 1980 y 2008, bytes consumidos aumentaron 350 por ciento, con una tasa de crecimiento anual promedio de 5.4 por ciento. Según el informe, el consumo promedio de información de los estadounidenses es de 34 gigabytes al día, el equivalente a una quinta parte del disco duro de un ordenador portátil. El nuevo informe estima que, un estadounidense está viendo la televisión  de promedio el 41 por ciento de tiempo dedicado a la información (incluyendo DVDs, programas de televisión grabados y visionado en tiempo real).

Sobre la base de bytes solos, sin embargo, los juegos de ordenador son la mayor fuente de consumo de información, con un total de 18.5 gigabytes por día para el consumidor estadounidense medio, o aproximadamente el 67 por ciento de todos los bytes consumidos. Aproximadamente el 80 por ciento de la población juega a algún juego de ordenador.

Los estadounidenses gastaron un 16 por ciento de sus horas dedicadas al consumo de información a través de Internet (en segundo lugar después de la televisión con el 41 por ciento). Con la proliferación de correo electrónico, la mensajería instantánea y las redes sociales. Una cosa positiva es que con los nuevos dispositivos de medios de comunicación son cada vez más dispositivos personales – los teléfonos móviles, Kindles y dispositivos portátiles de juegos – con pantallas pequeñas y relativamente baja resolución, limitan el número de bytes consumidos.

HPCC Sistemas (Thor): plataforma de código abierto para el análisis de Big Data

28341949862_98054197bb_o_d

https://hpccsystems.com/download 

El motor de curación de datos HPCC Sistemas (Thor) ayuda a gestionar, limpiar, enlazar, transformar y analizar grandes volúmenes de datos. Thor soporta estructuras de datos orientada de registro flexibles. A los datos procesados se puede acceder por un gran número de usuarios al mismo tiempo en tiempo real usando el motor Roxie. Las consultas a Roxie son típicamente complejas con capacidades de búsquedas booleanas.

Enterprise Control Language (ECL), es el lenguaje de programación se utiliza para programar tanto los trabajos de procesamiento de datos sobre Thor y como las consultas sobre Roxie

hpcc-flow

Los beneficios de la plataforma HPCC pueden ser definidos en dos palabras: velocidad y escalabilidad. Más información en http://hpccsystems.com/why-hpcc/benefits

Ver más características en http://hpccsystems.com/Why-HPCC/features

Lenguaje de programación ECL http://learn.lexisnexis.com/hpcc

Tutorial sobre Thor y Roxy en Tutorial PDF http://cdn.hpccsystems.com/releases/CE-Candidate-6.0.2/docs/HPCCDataTutorial-6.0.2-1.pdf