Archivo de la etiqueta: Big Data

Diez señales de madurez en la ciencia de los datos

 

cat

Guerra, P. and K. Borne (2016). [e-Book] Ten Signs of Data Science Maturity, O’Reilly.

 

Texto completo

PDF

Mobi

ePub

 

¿Está preparada su organización para innovar utilizando la ciencia de datos? En este informe dos científicos expertos en datos de la firma consultora Booz Allen Hamilton describen diez características que debe tener  una ciencia de datos madura. Después de pasar años ayudando a sus clientes – entre los que se encuentra el gobierno de Estados Unidos y las organizaciones comerciales de todo el mundo- en el empeño de diseñar la capacidad de innovación de la ciencia de datos, Pedro Guerra y e Kirk Borne identifican las características necesarias para medir la competencia de cualquier empresa en esta área. Este informe proporciona un análisis detallado de cada una de las 10 señales de madurez que debe cumplir la ciencia de datos, que debe permitir a cualquier organización o institución proporcionar la posibilidad de acceso a todos los datos disponibles a los miembros de su organización, el uso ágil y aprovechamiento «DataOps»,  el desarrollo de productos de datos, ayudar al equipo de ciencia de datos a mejorar sus habilidades a través de concursos abiertos o internos, lo que  personifica la ciencia de datos como una forma de hacer las cosas, y no una cosa que hacer.

La Guía de campo de la ciencia de los datos

booz-allen-field-guide-to-data-science-1-638

The Field Guide to Data Science [e-Book]  – Booz Allen Hamilton, 2015.

Texto completo

La ciencia de los datos afecta a todos los aspectos de nuestras vidas diarias. Cuando se visita al médico, conducimos nuestro coches, subimos a un avión, o vamos de compras dejamos datos de todas esas transaciones. La ciencia de datos está cambiando la forma en que interactúamos. Nuestro mundo ahora se mide, se mapea, y se registra en bits digitales. toda la vida, desde el nacimiento hasta la muerte, están catalogados en el ámbito digital. Estos datos, procedentes de diversas fuentes tales como los vehículos conectados, cámaras microscópicas bajo el agua, y las fotos que publicamos en los medios sociales, están impulsado y documentando la mayoría de edad de la humanidad. Es a través de la ciencia de datos estamos conociendo los secretos que se esconden dentro de estos datos. Estamos haciendo descubrimientos que cambiarán para siempre la forma en que vivimos e interactúamos con el mundo que nos rodea.

booz-allen-field-guide-to-data-science-27-638

 

Gestionar y compartir datos : mejores prácticas para investigadores.

 

41akmu2fnkl-_ac_ul320_sr224320_

Managing and sharing data best practice for researchers. [e-Book]  Essex, University of Essex, 2011.

Texto completo

Las iniciativas de las instituciones de educación superior y organismos de apoyo siguen el juego y el enfoque en el desarrollo de las infraestructuras de intercambio de datos; apoyo a los investigadores para gestionar y compartir datos a través de herramientas, orientación y formación práctica; y permitir que la citación y vinculación de los datos  con publicaciones aumente la visibilidad y accesibilidad de los datos y la investigación misma. Mientras que la buena gestión de los datos es fundamental para los datos de investigación de alta calidad y, por tanto, la investigación de excelencia, es crucial para facilitar el intercambio de datos y asegurar la sostenibilidad y la accesibilidad de los datos a largo plazo y por lo tanto su reutilización para la ciencia futura.

bitsissue8_2

Gestión de los repositorios de Datos de Investigación (RDM)

rdm20life20cycle

Research data life cycle

Johnsson, M. and J. Ahlfeldt (2015). [e-Book]  Research Libraries and Research Data Management within the Humanities and Social Sciences Lund, Lund University, 2015

Texto completo

Cada vez se pone mayor énfasis en la apertura de datos, gestión de datos planos, y en la investigación en torno a  ”Big data”, lo que está impulsando a las instituciones académicas a desarrollar y desplegar nuevas iniciativas.  El análisis de las necesidades de datos de los investigadores a través de dominios institucionales puede requerir de la participación de la biblioteca para identificar y conectar a los investigadores en todas las unidades funcionales, tanto formales e informales para compartir, analizar, y reutilizar datos. La investigación sobre la gestión de datos de investigación es uno de los retos futuros que deberemos asumir las bibliotecas de investigación. Se trata de una nueva forma de organizar la información que exige esfuerzos importantes en el aprendizaje de nuevos sistemas, métodos de trabajo y colaboración con los agentes implicados. Aquí se presenta el proyecto sobre Research Data Management (RDM) de la Universidad de Lund en Suecia.

El aumento del volumen y orrganización de la información capturada por las empresas y organizaciones, el aumento de los multimedia, las redes sociales y la “Internet de las cosas” van a impulsar un crecimiento exponencial de los datos en el futuro.  Datos de registros de llamadas, transacciones de banca móvil, contenido generado por el usuario de internet, tales como blogs y tweets, búsquedas en línea, imágenes de satélite, etc. es información procesable que requiere el uso de técnicas computacionales para dar a conocer las tendencias y patrones dentro de y entre éstos extremadamente grandes conjuntos de datos socioeconómicos. Las bibliotecas de investigación juegan un papel vital en la gestión y curación de este tipo contenido, pero requieren de mecanismos de financiación adecuados.

La Ciencia Datos se refiere a un área emergente de trabajo se ocupa de la recogida, preparación, análisis, visualización, administración y conservación de grandes colecciones de información. Casi todos los analistas consideran “Big Data” como una de las tendencias de futuro que tendrán que tener en cuenta la mayoría de las empresas e instituciones. La sociedad TIC propicia y requiere un diluvio universal de datos, procesarlos, entenderlos y transformarlos en decisiones de valor es el reto del análisis big data. Vital para las empresas cuyo activo es la información.

Gestión de Datos de Investigación (RDM) es un proceso que está diseñado para gestionar y difundir conjuntos de datos de alta calidad, que cumplan con los requisitos académicos, legales y éticos. Hay dos salidas del proceso de RDM:

1. La preservación a largo plazo de los conjuntos de datos mediante sistemas de almacenamiento
2. Compartir y reutilización de los conjuntos de datos para la investigación y otros fines en la sociedad en general.

Esta propuesta hace hincapié en la creación de una organización coherente de gestión de datos de investigación en la Universidad de Lund, que utiliza los recursos existentes tanto dentro como fuera de la universidad y establece nuevas unidades de organización y sistemas de información específicos para esta nueva tarea. Se propone la creación de una nueva unidad para la Gestión de Datos de Investigación y Coordinación en la biblioteca de la universidad cuya responsabilidad sería la de coordinar la red de agentes existentes que apoyen las actividades de investigación desde los diferentes centros de manera ética, por parte de expertos en gestión de datos.

tutkimusaineiston_elinkaari_en

Además, se propone la creación de un nuevo sistema de información, “Lund University Dataset Directory”, un directorio de grupos de datos facilitaría la gestión de bases de datos y recuperación de la información en todo el ciclo de vida de los datos.

El objetivo es que los conjuntos de datos de investigación sean depositados en repositorios para compartir a nivel nacionales o disciplinarlo que requerirá – al igual que las tecnologías de la web semántica – de servicios de datos en línea no previstos aún por los agentes nacionales, por lo que para ello será necesario crear un laboratorio de datos dentro de la red RDM en la Universidad de Lund.

Ver además

Analytics: el uso de big data en el mundo real. Cómo las empresas más innovadoras extraen valor de datos inciertos [e-Book]  IBM Institute for Business Value, 2014 Texto completo

Whyte, A. (2015). ‘Where to keep research data: DCC checklist for evaluating data repositories’ v.1.1 Edinburgh: Digital Curation Centre, 2015 Texto completo

Wanner, AmandaData literacy instruction in academic libraries: best practices for librarians. Archival and Information Studies Student Journal 2015  Texto completo

Erway, R. and A. Rinehart (2016). [e-Book] If You Build It, Will They Fund? Making Research Data Management Sustainable OCLC, 2016.Texto completo

 

Otros post relacionados

Alfabetización sobre datos en bibliotecas de investigación : mejores prácticas para los bibliotecarios
El uso de Big Data en el mundo real: cómo las empresas más innovadoras extraen valor de datos inciertos
Análisis de las posibilidades de uso de Big Data en las organizaciones
Bibliotecas y Big Data : como hacer unas gestión de datos de investigación sostenible
Big Data: la nueva frontera de la innovación, la competencia y la productividad
Big Data para el Desarrollo: Desafíos y Oportunidades
La normalización en el ámbito de la innovación y el desarrollo tecnológico, especialmente en el campo minería de textos y datos

 

El uso de Big Data en el mundo real: cómo las empresas más innovadoras extraen valor de datos inciertos

24988663162_06e5efc37f_o_d

Analytics: el uso de big data en el mundo real. Cómo las empresas más innovadoras extraen valor de datos inciertos [e-Book]  IBM Institute for Business Value, 2014

Texto completo

Big data, un concepto que significa muchas cosas para muchas personas, ha dejado de estar limitado al mundo de la tecnología. Hoy en día se trata de una prioridad empresarial dada su capacidad para influir profundamente en el comercio de una economía integrada a escala global. Además de proporcionar soluciones a antiguos retos empresariales, big data inspira nuevas formas de transformar procesos, empresas, sectores enteros e incluso la propia sociedad. Aun así, la amplia cobertura mediática que está recibiendo no nos permite distinguir claramente el mito de la realidad: ¿qué está ocurriendo realmente? Tras nuestra última investigación hemos descubierto que las empresas utilizan big data para obtener resultados centrados en el cliente, aprovechar los datos internos y crear un mejor ecosistema de información. ​Este informe está basado en el “Big Data @ Work Survey”, llevado a cabo por IBM a mediados de 2012 con 1.144 profesionales procedentes de 95 países y 26 sectores. Las personas encuestadas representan una mezcla de disciplinas entre las que se incluyen profesionales de negocios (54% del total de la muestra) y profesionales de TI (46%). Los encuestados se eligieron a sí mismos para participar en la encuesta basada en la web.

Análisis de las posibilidades de uso de Big Data en las organizaciones

sin-tc3adtulo_2

López García, D. (2013). [e-Book] Análisis de las posibilidades de uso de Big Data en las organizaciones. Santander, Universidad de Cantabria, 2013.

Texto completo

En estos tiempos que corren denominados “la era de la información” en la cual, la sociedad, los clientes y las empresas están cambiando. Estos tres grupos cada vez generan e intentan procesar más y más datos, cantidades que para muchos son imposibles de imaginar. Para lograr adquirir y analizar tanta información surge el término Big Data. Un término joven que presenta confusión respecto a su alcance. En este trabajo se tratará de aclarar en qué consiste, su alcance, como lo utilizan las empresas y en qué situación se encuentra. Además también se abarcará otros términos relacionados con Big Data, como pueden ser la minería de datos, el Cloud Computing o el Data Warehouse. Igualmente también se aclarara porqué surge Big Data, de donde procede y por que para muchos tecnólogos sugiere un cambio de etapa en el mundo de las Tics.

El acceso abierto a los datos científicos, la literatura y la evaluación de la investigación por métricas

International Council of Science. (2014). [e-Book]  Open access to scientific data and literature and the assessmentof research by metrics, International Council of Science.

Texto completo

El Consejo Internacional para la Ciencia es defensor de los objetivos de acceso abierto. Las nuevas tecnologías digitales y la comunicación ubicua ofrecen oportunidades sin precedentes para la ciencia basada en procesos abiertos. El acceso abierto a la literatura científica, a los datos y al software relacionados con esta tendencia son un mecanismo de gran alcance para crear y validar el conocimiento, y para el apoyo al desarrollo de la ciencia como un bien público. Esto es coherente con el principio de universalidad de la Ciencia, todo lo cual requiere además “… la libertad de comunicación para científicos, así como el acceso equitativo a los datos, información y recursos para la investigación”. La Declaración Universal de los Derechos Humanos como un principio fundamental igualitario incluye el derecho a participar en el progreso científico y en los beneficios de la ciencia. Gran parte de la discusión hasta la fecha sobre el acceso abierto se ha centrado en los aspectos económicos de la ciencia tradicional respecto a la edición de revistas científicas. Pero el acceso universal facilita disponer de muchos y buenos mecanismos para la difusión de los resultados de investigación científica, y el  La transición a esta nueva era presenta tanto retos como oportunidades. Quienes participan en la administración de la investigación utilizan métricas tradicionales para la evaluación de la importancia y el impacto de la investigación Estas métricas a su vez afectan el comportamiento de investigadores, tales como la elección de revistas, ya que se busca maximizar su desempeño, como por las métricas utilizadas, lo que contribuye al mantenimiento de los altos precios de las publicaciones. La apertura y el compartir, permite un nuevo reconocimiento del impacto de la investigación a través de nuevas contribuciones y la generación de conjuntos de datos, software, código, blogs, wikis y foros.

Las métricas utilizadas en la evaluación de la investigación y los investigadores debieran ayudar a promover el acceso abierto abierto y la ciencia abierta, y la comunidad científica debe participar en el plenamente en su diseño.Por lo que el Consejo Internacional para la Ciencia hace las siguientes recomendaciones adicionales:

1. Los modelos de negocio para las publicaciones científicas se deben construir en beneficio del bien científico, y tener en cuenta las necesidades de los países en desarrollo y desarrollados científicamente.

2. Los mecanismos para lograr el acceso abierto varían según la disciplina, y para algunos campos de la investigación puede haber restricciones éticas o legales legítimas sobre el acceso a datos de investigación y, en casos muy limitados a los resultados de investigación en sí mismos. Sin embargo, la apertura debe ser la norma, a no ser que existan circunstancias claramente justificadas.

3. Se requiere una vigilancia para que los nuevos modelos de publicación y difusión no comprometan la calidad. Hay una necesidad urgente revindicada desde hace años por las comunidades de investigación y publicación para desarrollar formas de señalización a los autores y los lectores las revistas y repositorios de datos que tienen las garantías necesarias de calidad y archivo seguro a través de los procedimientos implantados.

4. Los editores y redactores de publicaciones científicas requieren que los autores proporcionen referencias explícitas de los trabajos conjuntos de datos de instrumentos subyacentes publicados, utilizando identificadores persistentes individuales. Requiere también que los conjuntos de datos de la investigación sean depositados y disponibles en repositorios digitales fiables y sostenibles. Citándose los datos en las listas de referencia utilizando un formato estándar aceptado.

5. El Consejo Internacional para la Ciencia suscribe los principios y directrices para el acceso a datos de la investigación financiada con fondos públicos de la OCDE  referidos a acceso abierto: “La apertura significa acceso y agrupación en condiciones de igualdad para la comunidad científica internacional a los precios que pueden tener un costo marginal de difusión. El acceso abierto a los datos de investigación con financiación pública debe ser accesible a través de internet, de forma adecuada y fácil de utilizar”.

6. La falta de claridad en lo que a usos permitidos se refiere, o a los requisitos que requieren pedir permiso para usar datos específicos, son obstáculos a la apertura y a la reutilización. Por lo tanto, todos los conjuntos de datos debe ir acompañados de una licencia en regla que aclare los usos permitidos, así también, el generador de los datos debe ser reconocido, y, en su caso los datos de a quien necesita un investigador dirigirse para obtener el correspondiente permiso adicional para usar los datos.

7. Junto con los beneficios que se obtienen a través de la información de completa, abierta y gratuita de datos, los propios científicos tienen la responsabilidad de hacer que sus propios datos y resultados científicos estén ampliamente disponibles tan pronto como sea posible. Los períodos de embargo no contribuyen a  la buena ciencia.

8.  la preparación de la gestión de datos y un plan de difusión y la participación temprana de los administradores de datos “premium” deberían ser “requisitos para todos – o al menos para aquellos financiados con fondos públicos – como proyectos y programas de investigación. La evaluación del desempeño y el éxito de los programas y proyectos de investigación ofrecidos por los financiadores y las partes interesadas incluyen prácticas de gestión y difusión de datos.

9. Editores y redactores de publicaciones científicas requieren que los autores proporcionen referencias explícitas al software o código utilizado.

10.  En la evaluación de la investigación, las métricas deben considerarse como una ayuda, y no como un sustituto, para la buena toma de decisiones. Las citas únicamente no deberían utilizarse de forma aislada para la evaluación del desempeño de los investigadores, como el único método para distribuir fondos a personas o grupos de investigación. Es necesario además la opinión de expertos.

11. El Consejo Internacional para la Ciencia suscribe la Declaración de San Francisco de Evaluación de la Investigación (DORA), en la que se reconoce la necesidad de implementar metodologías sobre como se evalúan los resultados de la investigación.

12. Los términos de los contratos que se rigen para la adquisición de publicaciones periódicas científicas y bases de datos de las bibliotecas de las universidades y centros de investigación debe ser accesibles al público.

Big Data (Telos)

24047817683_c923b7f032_o_d

Tascón, M. [e-Book]  Big Data. Madrid, Fundación telefónica, 2013.

Texto completo PDF

Big Data apareció el pasado año como uno de los términos de moda en todas las revistas de temática científica, sociológica o tecnológica, también en blogs y redes sociales e incluso ya ha dado el salto a las publicaciones económicas y empresariales y las de divulgación más popular. ¿Va a ser Big Data una etiqueta más que añadir a las múltiples modas que hemos ido viendo a lo largo de los últimos años en el panorama de Internet y los desarrollos digitales o es una tendencia de fondo que está afectando en su totalidad a la evolución de la Web? Esta es una de las principales preguntas a las que intentan responder los artículos de este Dossier que la revista TELOS pone en sus manos.Big Data es, sin la menor duda, uno de los campos más importantes de trabajo para los profesionales de las TIC. No hay área ni sector que no esté afectado por las implicaciones que este concepto está incorporando; cambian algunas herramientas, se modifican estrategias de análisis y patrones de medida.

Mendeley Data. La plataforma de Datos de Investigación de Mendeley

 

logo1

https://data.mendeley.com/

Los procesos de investigación y comunicación científica cada vez generan mayor cantidad de datos, a su vez, también los organismos de financiación y gobiernos empiezan a exigir que todos los datos generados por una investigación deben estar disponibles. Por ello los investigadores están buscando formas de publicar sus datos, compartirlos, y ponerlos a disposición de otros investigadores. El nuevo repositorio Mendeley Data está diseñado para ayudar a los investigadores con estos objetivos. De momento funciona en versión beta

drag-files

La plataforma permite a los investigadores cargar datos en bruto de su investigación, y les proporciona un identificador único (DOI versionado) con el objetivo de que se puedan vincular con las webs de revistas como ScienceDirect, cellPres, y otras que se irán incorporando progresivamente, para generar enlaces desde los artículos a todo el conjunto de datos de investigación, lo que permite a los lectores no sólo tener a disposición el resultado final de la investigación (el artículo), si no también otros datos subyacentes que han contribuido a la investigación vinculados al artículo. 

Además los investigadores pueden también compartir sus datos no publicados de manera privada sólo con sus colaboradores, y tener varias versiones de los datos relativos a un solo proyecto de investigación.

Mendeley datos es un servicio gratuito y los conjuntos de datos están bajo licencias abiertas. En cuanto a la seguridad, los conjuntos de datos de investigación se archivan permanentemente en DANS (Data Archive and Networking Services) que tiene su sede en los Países Bajos.

Big Data for Dummies

512q52bgfsql-_sx258_bo1204203200_

Texto completo

La gestión de grandes cantidades de datos es uno de los grandes retos de los negocios, la industria y de las instituciones sin fines de lucro. Los conjuntos de datos tales como las transacciones de clientes, los patrones climáticos, o la actividad social en la red pueden superar rápidamente la capacidad de las herramientas tradicionales de gestión de datos. Por ello el libro hace una exposición clara en torno a las soluciones dadas a estas ingentes cantidades de datos, y sirve de guía para definir y explicar este nuevo concepto a menudo confuso. El objetivo del libro es aprender qué es Big Data, por qué es importante, y cómo elegir y poner en práctica soluciones que funcionan.

El libro explica cómo seleccionar e implementar una solución, los problemas de seguridad a tener en cuenta, los problemas de almacenamiento de datos, su presentación, y análisis, y proporciona información esencial en un estilo sencillo, sin complicaciones, fácil de entender.