Archivo de la etiqueta: Gestión de datos de investigación

El fenómeno de los datos abiertos. Indicaciones y normas para un mundo de datos abiertos.

opendata1

Aliprandi, Simone Il fenomeno open data. Indicazioni e norme per un mondo di dati aperti.  [e-Book] Roma, LediPublishing, 2014

Texto completo

En el fascinante mundo de la cultura abierta después del software de código abierto, estándares abiertos, el acceso abierto y el contenido abierto; el fenómeno de los datos abiertos es la última frontera y quizás incluso en la actualidad uno de los recursos más estratégicos para gobiernos y organizaciones. A finales de la década del 2000 se abrió el debate sobre la importancia de la disponibilidad y la libre difusión de los datos “en bruto” con el fin de aumentar el potencial de la información y la comunicación del conocimiento compartido de la revolución digital. Pronto se percibió que la capacidad de recopilar, gestionar y reutilizar cantidades de datos cada vez más relacionados y más densos conducía a la necesidad de algunas reflexiones de carácter tanto legales como tecnológicas. En este libro se trata de presentar los principales temas emergentes, dibujando un marco normativo completo y ofreciendo algunas líneas esenciales.

Dataverse: una aplicación web de código abierto para compartir, preservar, citar, explorar y analizar datos de investigación

.

Dataverse es una aplicación web de código abierto desarrollada por la Universidad de Harvard para compartir, preservar, citar, explorar y analizar datos de investigación. El programa facilita la toma de datos y los pone a disposición de los demás, y permite replicar otros trabajos de investigación.

Dataverse es un proyecto  colaborativo desarrollado por el Institute for Quantitative Social Science (IQSS) y Harvard Library  que ponen a disposición de los investigadores, disciplinas  y recolectores de datos en todo el mundo.

Un repositorio Dataverse aloja varios dataverses. Cada Dataverse contiene un datatset u otros dataverses, y cada conjunto de datos contiene metadatos descriptivos y archivos de datos (incluyendo la documentación y el código que acompañan a los datos).

[]

Dataverse normaliza la cita de los conjuntos de datos para que sea más fácil para los investigadores publicar sus datos y obtener un mejor reconocimiento de su trabajo. Cuando se crea un conjunto de datos en Dataverse, se genera la citación y se presenta de forma automática como un marco único de código abierto y repositorio de datos de investigación, lo que hace que los datos científicos sean lo más accesibles, reutilizables, y abiertos posibles.

[]

El estándar de citación definido por Dataverse ofrece un adecuado reconocimiento a los autores, así como la identificación permanente mediante el uso de identificadores persistentes globales, en lugar de direcciones URL, que pueden cambiar con frecuencia. El uso de huellas numéricas universales ( UNFs) garantiza a la comunidad académica que los futuros investigadores serán capaces de verificar que los datos recuperados son idénticos a los utilizados en una publicación de décadas anteriores, incluso si ha cambiado el medio de almacenamiento, los sistemas operativos, el hardware, y el formato del programa.

[]

Ejemplo de una citación basada en el proyecto Joint Declaration of Data Citation Principles (2014).

Es de uso gratuito y muy fácil de utilizar, y permite a los autores controlar sus datos de investigación de manera que se puedan conservar en el futuro, y se puedan generar citas para esos conjuntos de datos.

Recientemente Dataverse ha creado un plugin que se integra con OJS (Open Journal Systems), la plataforma de publicación de muchas de las mejores publicaciones de acceso abierto, permitiendo a los autores que presenten sus datos para archivar junto con la presentación del artículo.

Dataverse es la mejor manera de asegurarse de que los datos de una investigación están listos para la preservación a largo plazo, simplemente el investigador deberá crear una cuenta en Dataverse al comienzo de un proyecto de investigación y construir el archivo de datos a medida que se completa cada etapa del proyecto.

Dataverse es mejor que tener los datos en la nube porque los archivos están enriquecidos con metadatos que permiten la búsqueda por facetas. El investigador puede elegir que datos liberar, tanto en su totalidad o parte. Además, si si se está trabajando como un equipo de investigación se puede utilizar Dataverse como una plataforma para compartir archivos de datos con los miembros del equipo autorizados  excluyendo el acceso a los mismos al público en general.

Al crear una cuenta en cualquiera de las instituciones citadas, los archivos se alojan en sus servidores (Universidad de Harvard). Aunque un investigador o grupo también puede crear su propia red Dataverse en un servidor propio, ya que se trata de un software de código abierto, por lo que lo único que tiene que hacer es tener los conocimientos técnicos para instalarlo y los recursos para disponer de un espacio en un servidor.

Una de las limitaciones de Dataverse es que no tiene ninguna supervisión de curación de contenidos, el investigador debe asumir la responsabilidad principal de la gestión de sus propios datos.

dvn

Minería de Datos para las masas

[]

North, M. [e-Book]  Data Mining for the Masses. OpenLibra, 2012

.

Texto completo

Monográfico sobre Minería de datos

 

 

Emulando el título del famoso disco de Depeche Mode “Music from the masses”, la minería de datos como disciplina forma parte de la vida cotidiana de cualquier persona sin que se sea consciente de ello, ya que cada vez que hacemos compra con una tarjeta de crédito o navegamos por la Web estamos generando datos. Estos datos se almacenan en grandes conjuntos de poderosas computadoras propiedad de las empresas con las que tratamos todos los días. Y esos conjuntos de datos sirven para establecer indicadores de patrones de de nuestros intereses, nuestros hábitos y nuestros comportamientos. La minería de datos permite a las personas localizar e interpretar esos patrones, lo que ayuda a tomar decisiones mejor informadas y para servir mejor a los intereses de las empresas y de sus clientes. Dicho esto, también hay una cierta preocupación por la práctica de la minería de datos, sobre todo lo relacionado con la privacidad y los grupos de vigilancia, ya que las empresas acumulan grandes cantidades de datos, algunos de los cuales pueden ser muy personales en su naturaleza. La intención de este libro es presentar los conceptos y prácticas comunes de la minería de datos. Está destinado principalmente para estudiantes universitarios de grado y profesionales de negocios que puedan estar interesados en el uso de sistemas y tecnologías de la información para resolver problemas de sus negocios mediante la minería de datos. Aunque la minería de datos es la fusión de la estadística aplicada, la lógica, la inteligencia artificial, el aprendizaje automático y los  sistemas de gestión de datos, no es necesario tener una sólida formación en estos campos para utilizar este libro. Aunque tener conocimientos previos de estadística y bases de datos será de gran utilidad.

La minería de datos o exploración de datos (es la etapa de análisis de “Knowledge Discovery in Databases” o KDD) es un campo de las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos. Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos. El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Además de la etapa de análisis en bruto, que involucra aspectos de bases de datos y gestión de datos, procesamiento de datos, el modelo y las consideraciones de inferencia, métricas de Intereses, consideraciones de la Teoría de la complejidad computacional, post-procesamiento de las estructuras descubiertas, la visualización y actualización en línea.

El término es una palabra de moda, y es frecuentemente mal utilizado para referirse a cualquier forma de datos a gran escala o procesamiento de la información (recolección, extracción, almacenamiento, análisis y estadísticas), pero también se ha generalizado a cualquier tipo de sistema de apoyo informático decisión, incluyendo la inteligencia artificial, aprendizaje automático y la inteligencia empresarial. En el uso de la palabra, el término clave es el descubrimiento, comúnmente se define como “la detección de algo nuevo”. Incluso el popular libro “La minería de datos: sistema de prácticas herramientas de aprendizaje y técnicas con Java” (que cubre todo el material de aprendizaje automático) originalmente iba a ser llamado simplemente “la máquina de aprendizaje práctico”, y el término “minería de datos” se añadió por razones de marketing. A menudo, los términos más generales “(gran escala) el análisis de datos”, o “análisis” -. o cuando se refiere a los métodos actuales, la inteligencia artificial y aprendizaje automático, son más apropiados.

Alfabetización sobre datos en bibliotecas de investigación : mejores prácticas para los bibliotecarios

Wanner, AmandaData literacy instruction in academic libraries: best practices for librarians. Archival and Information Studies Student Journal 2015 – Spring

Texto completo

El aumento del volumen y el detalle de la información capturada por las empresas, el aumento de los multimedia, las redes sociales y la “Internet de las cosas” van a impulsar un crecimiento exponencial de los datos en el futuro previsible. La Ciencia Datos se refiere a un área emergente de trabajo se ocupa de la recogida, preparación, análisis, visualización, administración y conservación de grandes colecciones de información. Aunque el nombre de Datos Científicos parece conectar más fuertemente con áreas tales como bases de datos y la informática, incluye muchos tipos diferentes de habilidades – incluyendo habilidades no-matemáticas -. Casi todos los analistas consideran “Big Data” como una de las tendencias de futuro que tendrán que tener en cuenta la mayoría de las empresas e instituciones. La sociedad TIC propicia y requiere un diluvio universal de datos, procesarlos, entenderlos y transformarlos en decisiones de valor es el reto del análisis big data. Vital para las empresas cuyo activo es la información. Según estima idC hoy hay muchos más datos se incrementan un 50% al año, o sea que se duplican cada dos años. Áreas tan variadas como la ciencia y los deportes, la publicidad y la salud pública, se ha producido un salto hacia el descubrimiento y la toma de decisiones a partir de los datos. La tendencia ligada a Big data también es alimentada por un mejor acceso a la información. Big Data puede llegar a ser el activo más valioso de una organización o una de sus obligaciones más costosas, todo depende de las estrategias y soluciones que se pongan en marcha  a corto plazo para afrontar el ingente crecimiento del volumen, la complejidad, la diversidad, y la velocidad de los datos. Como veremos, es una tendencia importante para las organizaciones y sus procesos de toma de decisiones, pero en absoluto afectará de la misma forma a todas las firmas y sectores.

Este documento analiza los retos y oportunidades de llevar la alfabetización sobre datos en bibliotecas universitarias y de investigación. La alfabetización informacional y alfabetización digital en las bibliotecas ha sido ampliamente discutido y aplicada en la literatura profesional, pero hasta hace muy poco se ha dado poco énfasis a la alfabetización de datos. Sin embargo, las nuevas iniciativas de gobierno electrónico y de datos abierta en la última década han creado datos públicos ampliamente disponibles que son de gran interés para investigadores y estudiantes. El aumento de la capacidad tecnológica para procesar gran cantidad de datos (Big data) ofrece nuevas oportunidades tanto para el laico como para el investigador. Conocer y alfabetizar sobre estas cuestiones requiere un esfuerzo de readaptación profesional para fomentar una mentalidad sobre la importancia de estos datos y la cultura de análisis, ya que se trata de la adopción de las nuevas tecnologías, ello presenta desafíos únicos para los bibliotecarios. ¿Cómo pueden las bibliotecas desempeñar su papel en este esfuerzo recualificación para desarrollar una “mentalidad basada en datos”?

Entre las cuestiones que se plantean está la diferencia entre ¿Qué es la alfabetización de datos y en qué se diferencia de su contraparte la alfabetización informacional?, ¿Qué puede aportar a un plan de estudios la alfabetización de datos en instituciones de educación superior? Este trabajo trata de abordar estas cuestiones. En la parte I  se examina críticamente el concepto de alfabetización de datos – en qué se diferencia, o se asemeja a otros tipos de alfabetizaciones, y por qué es importante, En la parte II examina la alfabetización de datos en el mundo académico, incluyendo una breve reseña bibliográfica de las prácticas de instrucción recientes en este sentido. El documento concluye con un conjunto de mejores prácticas para los bibliotecarios que desean seguir la alfabetización de datos en sus instituciones y recomendaciones para futuras investigaciones.

Ver

Monográfico: Big Data

 

Pongamos los datos en uso: la investigación digital para las nuevas generaciones

.

Polydoratou, Panayiota  and Milena  Dobreva (eds.). [e-Book] Let’s Put Data to Use: Digital Scholarship for the Next Generation: Proceedings of the 18th International Conference on Electronic Publishing, IOS Press, 2014

Texto completo

 

El tema principal de la 18ª Conferencia Internacional sobre Publicación Electrónica (ELPUB) fue la apertura y uso de datos de investigación, así como los nuevos e innovadores paradigmas editoriales. En concreto, su objetivo fue reunir las presentaciones y discusiones que demuestran el papel de las organizaciones gestoras del patrimonio y de servicios culturales en la preservación creación, organización y accesibilidad de los datos de investigación a largo plazo. El objetivo fue proporcionar un foro para la discusión de la evaluación, la citación y la concesión de licencias de datos de investigación. Así como el alcance de la revisión, la edición y la tecnología editorial en un entorno centrado en los datos.

ELPUB reunió a investigadores y profesionales para discutir sobre la minería de datos, la publicación digital y las redes sociales junto con sus implicaciones para la comunicación académica, servicios de información, e-learning, e-business, y sobre el sector del patrimonio cultural, y otras áreas en las que la publicación electrónica es imprescindible. ELPUB 2014 recibió 32 presentaciones en papel. Estos documentos se agruparon en las sesiones en base a los siguientes temas: Acceso Abierto y Open Data;Los investigadores y sus necesidades; Contenido Especializada de Investigadores; Publicación y acceso; Aspectos prácticos de la publicación electrónica.

 

El establecimiento de incentivos y el cambio de las culturas para apoyar el acceso de datos.

 pdf_cover

 

Establishing incentives and changing cultures to support data access [e-Book] . London, Cancer Research UK, ESRC, MRC, and the Wellcome Trust, 2014

Texto completo

Anexos

 

Este proyecto fue desarrollado como un componente clave del plan de trabajo del Grupo Consultivo de Expertos en Acceso a datos (EAGDA). EAGDA deseaba comprender los factores que ayudan y obstaculizan el acceso a los datos publicados y no publicados a disposición de otros investigadores, además de examinar la posible necesidad de nuevos tipos de incentivos que permitan el acceso e intercambio de datos. Este es un reto crítico para lograr el compromiso de la política común de los cuatro proveedores de fondos EAGDA para maximizar el beneficio derivado de salidas de datos y la considerable inversión que han hecho en los últimos años en apoyar el intercambio de datos.

Además de la revisión de los informes anteriores y otras iniciativas en este ámbito, el trabajo consistió en entrevistas en profundidad con los principales interesados; dos grupos de discusión; y una encuesta por Internet que recibió 35 respuestas de una amplia gama de investigadores y gestores de datos.Aunque está basado en un número relativamente modesto de respuestas y entrevistas, los resultados reflejan los trabajos previos en esta área. En particular, hubo una visión clara y global de que la cultura de la investigación y el medio ambiente no se percibe como la prestación de apoyo suficiente, ni recompensas adecuados para los investigadores que generan y comparten los conjuntos de datos de alta calidad.

Beneficios de los Datos Abiertos



23884089980_89ccbb9a38_o_d

Reitano, S. [e-Book] The Benefits of Open Data : An Organizational Management Project for public organizations, Royal Roads, 2013 University.

Descargar

Con el objetivo de crear la transparencia necesaria en cualquier sistema democrático, la publicación de datos abiertos (OD) se ha convertido en una tendencia creciente entre los gobiernos en los últimos años. Open Data (OD) proporciona información que puede ser utilizada por cualquier persona para cualquier propósito y sin coste alguno. Puede tomar muchas formas, pero para ser considerada libre debe presentarse en un formato electrónicos normalizado a través de internet con las licencias adecuadas.  Esto hace que sea adaptable y fácil de analizar y combinar con otros datos, todo lo que a su vez proporciona una mayor utilidad y valor. Además, los datos públicamente disponibles oroporciona información, conocimiento y la sabiduría que tienen como potencial una serie de beneficios sociales, económicos y medioambientales. Los principales usuarios de OD incluyen la comunidad académica, el sector privado y los gobiernos.

Big Data: La próxima frontera para la innovación, la competencia y la productividad

[]

Manyika, J., M. Chui, et al.  [e-Book]  Big data: The next frontier for innovation, competition, and productivity. New York, McKinsey Global Institute, 2011.

Texto completo

mobi

ePub

Según esta investigación de MGI y la Oficina de Tecnología de Negocios de McKinsey, la cantidad de información que genera cualquier actividad pública o privada proporciona grandes conjuntos de datos, y el análisis de los mismos se ha convertido en una de las bases clave para la competencia en un futuro inmediato que sustentará las nuevas oleadas de crecimiento, de productividad, innovación y excedente del consumidor. Los líderes de todos los sectores tendrán que tener en cuenta las consecuencias de la gestión adecuada de esta ingente cantidad de datos, no sólo orientada a aquellos que deben gestionarles de manera directa como los propios administradores de datos, si no también con quienes tienen que tomar decisiones en las organizaciones. El aumento del volumen y el detalle de la información capturada por las empresas, el aumento de los multimedia, las redes sociales y la “Internet de las cosas” van a impulsar un crecimiento exponencial de los datos en el futuro previsible. El concepto de internet de las cosas lo propuso Kevin Ashton del MIT en 1999,  y se refiere a la interconexión digital de objetos cotidianos con internet. El internet de las cosas debería codificar de 50 a 100.000 millones de objetos y seguir el movimiento de estos; se calcula que todo ser humano está rodeado de por lo menos 1.000 a 5.000 objetos. Según la empresa Gartner, en 2020 habrá en el mundo aproximadamente 26 mil millones de dispositivos con un sistema de adaptación al internet de las cosas