Archivo de la etiqueta: Gestión de datos de investigación

¿Qué es la minería de textos, cómo funciona y por qué es útil?

text-mining-101-v2-300x211

TEXT MINING 101
WRITTEN BY OPENMINTED COMMUNICATIONS ON FEBRUARY 21, 2018

Original

 

Este artículo le ayudará a entender lo básico en sólo unos minutos.

 

¿QUÉ ES LA MINERÍA DE TEXTOS?

La minería de textos busca extraer información útil e importante de formatos de documentos heterogéneos, tales como páginas web, correos electrónicos, medios sociales, artículos de revistas, etc. Esto se hace mediante la identificación de patrones dentro de los textos, tales como tendencias en el uso de palabras, estructura sintáctica, etc.

La gente a menudo habla de «minería de texto y datos (TDM)» al mismo tiempo, pero estrictamente hablando la minería de texto es una forma específica de minería de datos que se relaciona con el texto.

¿POR QUÉ LO NECESITAMOS?

La minería de textos tiene muchas aplicaciones. Por ejemplo, la minería de textos puede ayudar a encontrar tecnologías nuevas e innovadoras dentro de ciertos dominios. Es un método muy eficiente para generar nueva información y conocimiento. Esta práctica permite a las empresas reducir el tiempo dedicado a la lectura de textos extensos y extractos literarios. Esto significa que los recursos clave se pueden encontrar con mayor rapidez y eficacia. También permite a los usuarios obtener nueva información que de otro modo sería difícil de encontrar.

¿QUÉ CLASE DE GENTE HACE MINERÍA DE TEXTOS?

La tecnología de la minería de textos es actualmente ampliamente aplicada por una extensa variedad de usuarios, desde organizaciones gubernamentales, instituciones de investigación y empresas para sus necesidades diarias. Estos son algunos ejemplos de uso en diferentes campos:

Investigación: por ejemplo, el descubrimiento de conocimientos, la atención médica y sanitaria: en el pasado, a un investigador humano le lleva mucho tiempo analizar y obtener información relevante. En algunos casos, esta información ni siquiera era accesible. La minería de textos permite a los investigadores encontrar más información y de forma más rápida y eficiente.

Negocios: por ejemplo, las grandes empresas utilizan la minería de textos para ayudar en la toma de decisiones y responder rápidamente a las consultas de los clientes en procesos tales como la gestión de riesgos o el filtrado de currículos

Seguridad: En anti-terrorismo, el análisis de los blogs y otras fuentes de texto en línea se utiliza para prevenir delitos en Internet y luchar contra el fraude.

Diariamente, La minería de texto es usada por los sitios web de correo electrónico para crear métodos de filtrado más confiables y efectivos, para el filtrado de spam, análisis de datos de medios sociales, etc. También para identificar las relaciones entre los usuarios y ciertos productos o para determinar las opiniones de los usuarios sobre temas particulares

¿ES ÚTIL LA MINERÍA DE TEXTOS PARA LA CIENCIA?

Los usos de la minería de textos son virtualmente interminables, pero vamos a centrarnos más en que manera es útil para la ciencia y la investigación. Los científicos se comunican a través de publicaciones científicas y se estima que existen más de 50 millones de revistas (JINHA, A. E. (2010), po lo cual cada vez es más difícil para los investigadores hacer un seguimiento de lo que se publica en su propio campo. Además, hay una enorme afluencia de otros tipos de datos en todas las ciencias, como páginas web, informes de organizaciones públicas (por ejemplo, transcripciones judiciales, actas de reuniones), libros, etc. La minería de textos puede ayudar a resolver este problema y a encontrar nueva información.

ESPERA UN MINUTO, ¿ASÍ ES COMO OBTENGO ESOS ANUNCIOS PERSONALIZADOS?

Como se ha dicho antes, las tecnologías de minería de texto tienen muchas aplicaciones. Entre ellas, se puede utilizar para establecer vínculos entre clientes potenciales y productos con fines de marketing o de otro tipo.

¿CUÁL ES LA DIFERENCIA ENTRE MINERÍA DE TEXTO Y GOOGLE?

Los motores de búsqueda como Google, recuperan todos los documentos que contienen las palabras clave que has especificado. No hay valor añadido a los datos. La minería de textos lleva las cosas un paso más allá al extraer información precisa basada en mucho más que palabras clave. En su lugar, busca entidades o conceptos, relaciones, frases y/o oraciones. Intenta determinar el significado real basado en algoritmos de Procesamiento del Lenguaje Natural (NLP), que le permiten reconocer conceptos similares. Una búsqueda utilizando la minería de texto puede identificar hechos, relaciones e inferencias que no son del todo obvios.

¿CÓMO FUNCIONA, ESTA MINERÍA DE TEXTO Y DATOS?
La extracción de textos puede dividirse en cinco pasos:

 

 

1. Recolección: Recopilación de datos de diferentes recursos, tales como sitio web, correos electrónicos, comentarios de clientes, archivo de documentos. Dependiendo de la aplicación, este proceso puede ser completamente automatizado o guiado por una persona encargada de realizar este proceso.

2. Preprocesamiento: La identificación del contenido y la extracción de características representativas

3. Limpieza de textos: eliminación de cualquier información innecesaria o no deseada, como los anuncios de las páginas.

4. Tokenización: un ordenador sólo «ve» una cadena de caracteres, sin poder identificar, por ejemplo, párrafos, frases o palabras. La Tokenización divide el texto en entidades significativas (palabras, oraciones, etc.) dados los espacios en blanco presentes y las puntuaciones.

5. Extracción de características (también llamada selección de atributos): es el proceso de caracterización.

Un ejemplo puede ilustrar estos cinco pasos:

Imagina que estás vendiendo calendarios de animales. Si deseas saber si es una buena inversión para que  se anuncie en los sitios web de blogs, y por lo tanto, te gustaría conocerqué porcentaje de las entradas en el blog están hablando de los animales.

En primer lugar, es necesario reunir todos los textos de todas las entradas de blog que puedas encontrar. Dado que puede haber cientos de miles de estos textos en Internet, probablemente no quieras descargarlos manualmente, uno por uno. Así que necesitas software para rastrear la web, descargar los artículos que encuentre y organizarlos en una base de datos apropiada.

En segundo lugar, querrás preprocesar el material recolectado para que las siguientes herramientas (discutidas en los pasos 3 a 5) puedan trabajar más eficientemente. Por ejemplo, querrás eliminar anuncios, menús de páginas web, código fuente de las páginas web HTML, etc. A continuación, es posible que desees calcular algunas características (extracción de características) para tu colección de textos. Por ejemplo, es posible que desees conocer el número de palabras de cada mensaje, de modo que pueda rechazar las que son demasiado pequeñas (por ejemplo, 10 palabras) o demasiado grandes (por ejemplo, 10 000 palabras). Tales entradas en su base de datos probablemente no son representativas y pueden ser errores generados por su software utilizado en el primer paso. Para obtener estos recuentos de palabras, primero tendrás que dividir los textos (serie de caracteres) en palabras (tokenización).

En el tercer paso, es posible que desees crear índices. Por ejemplo, para enumerar qué palabras se han encontrado en qué textos. Puedes pensar en esto como el índice de un libro. Sin un índice, es muy difícil localizar la información sobre un tema específico. Pero con un índice, es mucho más fácil y rápido encontrar lo que está buscando. Esto también es cierto para el software que busca palabras en su enorme base de datos blog.

Luego, en el cuarto paso, querrás extraer los textos para extraer alguna información que le ayudará a contestar sus preguntas. En este caso, querrás identificar palabras que se refieran a animales. Un nombre de entidad reconocedora de animales tratará de reconocer cada palabra que se refiera a un animal, como perro, gato, gatito, felino, mamífero, petirrojo americano, Turdus migratorius, etc. También es posible que desees ejecutar lo que se conoce como’ algoritmos sintácticos‘ para identificar qué palabras son sustantivos y cuáles verbos. Se necesitan muchos algoritmos para distinguir, por ejemplo, el uso de cat en «Tengo un gato hermoso» y que «ejecute cat file. txt en su línea de comandos para mostrar el texto.o rechazar «Se movió como una araña» Evidentemente, se necesita mucha inteligencia para llevar a cabo esta tarea con precisión.

A continuación, en el quinto paso, se desea realizar análisis y trazar gráficos. Por ejemplo, puedes requerir una gráfica de barra que muestre el porcentaje de artículos del blog que hablan sobre los animales para cada uno de los diez sitios web de alojamiento de blog más importantes. Con esta información, por ejemplo, puedes convencer a tus colaboradores de que es una buena idea invertir dinero en publicidad para calendarios de animales en whatablog. com.

 

Este artículo fue escrito como parte del proyecto OpenMinTeD por: Jiakang Chang (EMBL-EBI), Christian O’ Reilly (EPFL), Nancy Pontika (Open University) Gareth Owen (EMBL-EBI), Kenneth Haug (EMBL-EBI), Martine Oudenhoven (LIBER)

 

 

Archivos y archivística. Planeta biblioteca 2018/02/21.

40395582251_7abc8257c9_b_d

Escuchar Podcast

Ir a descargar

 

 

Ha visitado nuestro Planeta, el profesor de la Universidad de Salamanca, Luis Hernández Olivera, especialista en Archivos y también director de la Asociación de Archiveros de Castilla y León (ACAL), con luis hemos charlado amigablemente sobre que es la archivistica, que interés tiene para el presente y para el futuro, oportunidades profesionales de trabajo en este campo, que comparte la archivistica con la información y documentación, la labor del archivero en la preservación digital, las humanidades digital y en la intervención sobre el ciclo vital de los datos en ese futuro profesional relacionado con la gestión de datos de investigación. Una charla entrañable, distendida y agradable.

 

 

Principios DC1 sobre citación de datos de investigación

data20citation20logo20-20small1

Data Citation Synthesis Group: Joint Declaration of Data Citation Principles. Martone M. (ed.) San Diego CA: FORCE11; 2014 https://doi.org/10.25490/a97f-egyk

Cualquier investigación sólida y reproducible descansa sobre una base de datos sólidos y accesibles. Para que esto sea así tanto en la práctica como en la teoría, los datos deben tener la debida importancia en la práctica de la erudición y estar depositados en un registro académico duradero. En otras palabras, los datos deben considerarse productos legítimos y citables de la investigación. La citación de datos, al igual que la de otras evidencias y fuentes, es una buena práctica de investigación y forma parte del ecosistema académico que apoya la reutilización de datos.

Aqui exponemos los principios DC1 Data citation principles de FORCEE 11:

 

1. Importancia. Los datos deben considerarse productos legítimos y citables de la investigación. Las citas de datos deben tener la misma importancia en el expediente académico que las citas de otros objetos de investigación, tales como publicaciones.

2. Crédito y Atribución. Las citas de datos deben facilitar la atribución de créditos académicos y atribuciones normativas y legales a todos los contribuyentes a los datos, reconociendo que un único estilo o mecanismo de atribución puede no ser aplicable a todos los datos

3. Pruebas. En la literatura académica, cuando y dondequiera que una reivindicación se base en datos, los datos correspondientes deben citarse

4. Identificación Única. Una citación de datos debe incluir un método persistente de identificación que sea automáticamente procesable, globalmente único y ampliamente utilizado por una comunidad (DOI).

5. Acceso al acceso. Las citas de datos deben facilitar el acceso a los propios datos y a los metadatos, documentación, código y otros materiales asociados, según sea necesario para que tanto los seres humanos como las máquinas puedan hacer un uso informado de los datos referenciados

6. Persistencia. Deberían persistir identificadores y metadatos únicos que describan los datos y su disposición, incluso más allá de la vida útil de los datos que describen

7. Especificidad y verificabilidad. Las citas de datos deben facilitar la identificación, el acceso y la verificación de los datos específicos que respaldan una declaración. Las citaciones o metadatos de citación deben incluir información sobre la procedencia y la fijación suficiente para facilitar la verificación de que el corte temporal específico, la versión y/o la parte granular de los datos recuperados posteriormente es la misma que se citó originalmente.

8. Interoperabilidad y flexibilidad. Los métodos de citación de datos deben ser lo suficientemente flexibles para acomodar las prácticas variadas entre comunidades, pero no deben diferir tanto que comprometan la interoperabilidad de las prácticas de citación de datos entre comunidades.

 

 

Taylor & Francis apuesta por las políticas de intercambio de datos

understanding-our-data-sharing-policies

Ver imagen ampliada

Esta semana Taylor & Francis anunció que aplicará una política básica que fomentará el intercambio de datos a todos los títulos de revistas de su propiedad, con el objetivo de que sus publicaciones trabajen con políticas de intercambio de datos más progresivas durante 2018.

Ver anuncio

Data sharing policies

A partir de 2018, Taylor & Francis introducirá nuevas políticas sobre el intercambio de datos. La política básica de intercambio de datos, que se aplica en muchas revistas, animará a los autores a depositar los datos en un repositorio adecuado, citarlos e incluir una declaración de disponibilidad de datos que explique dónde otros que pueden acceder a los datos.

Los datos son un producto clave en y para la investigación, por lo tanto, compartirlos presenta una multitud de oportunidades para la investigación y los investigadores. Las nuevas políticas tienen por objeto promover un mayor intercambio de datos para mejorar la solidez de todo el proceso de investigación, respaldando la transparencia, la reproducibilidad y la replicabilidad de los resultados.

Además posibilita la capacidad de cita no sólo del resultado final de la investigación, si no también de los datos aportados, lo que permitirá a los investigadores obtener y dar crédito adicional a sus investigaciones por sus valiosos hallazgos de datos. Cuando los autores compartan datos, se les pedirá que incluyan una declaración de disponibilidad de datos, lo que mejorará la posibilidad de descubrir su investigación. Las políticas abarcan desde el fomento del intercambio de datos hasta la apertura de los mismos con una licencia, ofreciendo flexibilidad y garantizando al mismo tiempo la satisfacción de las necesidades de los diferentes campos y disciplinas.

¿Por qué compartir datos?

  • Algunos proveedores de fondos exigen ahora que se compartan los datos (puede comprobarlo utilizando esta práctica herramienta Sherpa-Juliet), y cada vez es más común que algunas áreas temáticas pongan los datos a disposición de todos. Hay varios beneficios al compartir datos
  • Compartir públicamente los datos mejora la solidez del proceso de investigación, apoyando la validación, la transparencia de la investigación, la reproducibilidad y la replicabilidad de los resultados. Esto puede a su vez, hacer avanzar el descubrimiento y el conocimiento.
  • Compartir datos puede conducir a la reutilización y el descubrimiento, con mayores oportunidades para realizar metanálisis y extraer nuevos conocimientos.
  • Depositar los datos en un repositorio que ofrece un identificador permanente como un DOI, permite a los autores y a otros citar el conjunto de datos, lo que permite a los investigadores obtener el crédito apropiado para su trabajo.
  • La deposición de datos apoyan la preservación de datos a largo plazo.
  • Una mayor disponibilidad pública de los datos de investigación apoya consecución de la investigación en la práctica.

 

Cualquier investigación sólida y reproducible descansa sobre una base de datos sólidos y accesibles. Para que esto sea así tanto en la práctica como en la teoría, los datos deben tener la debida importancia en la práctica de la erudición y estar depositados en un registro académico duradero. En otras palabras, los datos deben considerarse productos legítimos y citables de la investigación. La citación de datos, al igual que la de otras evidencias y fuentes, es una buena práctica de investigación y forma parte del ecosistema académico que apoya la reutilización de datos. Por ello Taylor & Francis sigue los principios DC1 Data citation principles de FORCEE 11:

 

Las universidades en la frontera de la privacidad: datos abiertos, datos grises y gestión de datos

d7646a50fa560fa9e62ddee023edc97c

Borgman, C. L. «Open Data, Grey Data, and Stewardship: Universities at the Privacy Frontier.» Forthcoming in Berkeley Technology Law Journal vol. 33, n. 2 (2018). URL.: https://arxiv.org/ftp/arxiv/papers/1802/1802.02953.pdf

 

Este documento explora los valores en competencia inherentes a la administración de datos y hace recomendaciones para la práctica, basándose en el trabajo pionero de la Universidad de California en materia de privacidad y seguridad de la información, gobernanza de datos y riesgo cibernético.

 

A medida que las universidades reconocen el valor inherente de los datos que recopilan y mantienen, encuentran desafíos imprevistos al administrar esos datos de manera que equilibren la rendición de cuentas, la transparencia y la protección de la privacidad, la libertad académica y la propiedad intelectual.

Dos desarrollos paralelos en la recopilación de datos académicos son convergentes:

(1) los requisitos de acceso abierto, en virtud de los cuales los investigadores deben proporcionar acceso a sus datos como condición para obtener financiamiento de becas o publicar resultados en revistas;

(2) la vasta acumulación de «datos grises» sobre individuos en sus actividades diarias de investigación, enseñanza, aprendizaje, servicios y administración.

Los límites entre la investigación y los datos grises se están difuminando, lo que dificulta la evaluación de los riesgos y responsabilidades asociados con cualquier recopilación de datos. Muchos conjuntos de datos, tanto de investigación como grises, quedan fuera de las regulaciones de privacidad como HIPAA, FERPA y PII. Las universidades están explotando estos datos para la investigación, análisis de aprendizaje, evaluación del profesorado, decisiones estratégicas y otros asuntos sensibles. Las entidades comerciales están asediando a las universidades con solicitudes de acceso a los datos o de asociaciones para extraerlos.

La frontera de la privacidad a la que se enfrentan las universidades de investigación abarca las prácticas de acceso abierto, los usos y usos indebidos de datos, las solicitudes de registros públicos, el riesgo cibernético y la conservación de datos para la protección de la privacidad.

Teoría y práctica de la citación de datos de investigación

 

 

simons-fig3

Silvello, G. «Theory and practice of data citation.» Journal of the Association for Information Science and Technology vol. 69, n. 1 (2018). pp. 6-20. http://dx.doi.org/10.1002/asi.23917

 

Las citas son la piedra angular de la propagación del conocimiento y el medio principal para evaluar la calidad de la investigación, así como para dirigir las inversiones en ciencia. La ciencia se está haciendo cada vez más «intensiva en datos», donde se recogen y analizan grandes volúmenes de datos para descubrir patrones complejos mediante simulaciones y experimentos, y la mayoría de las obras científicas de referencia están siendo reemplazadas por conjuntos de datos curados en línea. Sin embargo, dado un conjunto de datos, no existe una forma cuantitativa, consistente y establecida de saber cómo se ha utilizado a lo largo del tiempo, quién contribuyó a su curación, qué resultados se han obtenido o qué valor tiene.

El desarrollo de una teoría y práctica de la citación de datos es fundamental para considerar los datos como objetos de investigación de primera clase con la misma relevancia y centralidad de los productos científicos tradicionales. Muchos trabajos en los últimos años han discutido la citación de datos desde diferentes puntos de vista: ilustrando por qué se necesita la citación de datos, definiendo los principios y esbozando recomendaciones para los sistemas de citación de datos, y proporcionando métodos computacionales para abordar temas específicos de la citación de datos. El panorama actual es polifacético y falta todavía una visión global que reúna diversos aspectos de este tema.

Cita y reutilización de datos de investigación : análisis del contenido de las publicaciones a texto completo.

 

dmkc2nrwsaardhw-large-1024x750

Zhao, M., E. Yan, et al. «Data set mentions and citations: A content analysis of full-text publications.» Journal of the Association for Information Science and Technology vol. 69, n. 1 (2018). pp. 32-46. http://dx.doi.org/10.1002/asi.23919

 

Este estudio proporciona evidencias de menciones y citas de conjuntos de datos en múltiples disciplinas basadas en un análisis del contenido de 600 publicaciones en PLoS One. Se encuentra que las menciones y citas de los conjuntos de datos variaron enormemente entre disciplinas en términos de cómo se recolectaron, referenciaron y curaron los conjuntos de datos. Aunque la mayoría de los artículos proporcionaron libre acceso a los datos, en un número limitado de artículos se utilizaron formas normalizadas de atribución de datos, como los DOI y las citas de datos. Además, la reutilización de los datos tuvo lugar en menos del 30% de las publicaciones que utilizaron los datos, lo que sugiere que los investigadores todavía se inclinan a crear y utilizar sus propios conjuntos de datos, en lugar de reutilizar los datos previamente curados. Este documento proporciona una comprensión exhaustiva de cómo se utilizan los conjuntos de datos en la ciencia y ayuda a las instituciones y editores a elaborar políticas de datos útiles.

El papel crítico de los metadatos en las comunicaciones en red: noticias falsas. identidad digital y viralización de información

39048648504_20da318cc4_o_d

Las ciencias de la información han estado tradicionalmente en el centro de la investigación centrada en los metadatos. Los documentos de inteligencia de la Agencia de Seguridad Nacional de los Estados Unidos (NSA) revelados por Edward Snowden en junio de 2013 popularizaron el término «metadatos» en la conciencia pública. Sorprendentemente, desde entonces se ha debatido poco sobre la naturaleza y la importancia de los metadatos en los sistemas de comunicación en red.  La confusión sobre el papel y significado de los metadatos dentro de los programas de inteligencia de la NSA o «noticias falsas» relacionadas con la elección presidencial de 2016 reflejan nuestra falta de comprensión sobre la importancia de los metadatos dentro de nuestros ecosistema de dispositivos en red.

Mayernik, M. S. and A. Acker «Tracing the traces: The critical role of metadata within networked communications.» Journal of the Association for Information Science and Technology vol. 69, n. 1 (2018). pp. 177-180. http://dx.doi.org/10.1002/asi.23927

Las bibliotecas han utilizado sistemas estructurados de catalogación a gran escala para proporcionar acceso a la información durante siglos. De manera similar, los estados nacionales han recopilado información sobre sus ciudadanos en masa, como datos del censo, certificados de defunción, registros fiscales, durante cientos de años. En todos estos contextos, los supuestos y valores sociotécnicos incorporados influyen en la forma en que se recopilan y aplican los metadatos. Una vez que estos metadatos son recolectados, pueden construirse nuevas aplicaciones para ampliar servicios o crear nuevos mercados, entre otras posibilidades.

Los metadatos que subyacen a la forma en que las infraestructuras transmiten la información están diseñados para un determinado conjunto de normas y criterios, pero no para otros.  Por ejemplo, los metadatos sobre los correos electrónicos pueden mostrar dónde, cuándo y a quién se envían los mensajes, pero no pueden mostrar por qué se enviaron. De este modo, los metadatos siempre muestran una perspectiva incompleta y parcial que satisface las necesidades funcionales de determinadas aplicaciones.

La recopilación de metadatos digitales repercute en las formas en que las personas experimentan la comunicación social y técnica. Sin tales metadatos, la comunicación en red no puede existir. Las filtraciones de la NSA, y los numerosos hacks recientes de las comunicaciones corporativas y gubernamentales, señalan a los metadatos como objetos de nueva investigación académica. Si queremos entablar debates significativos sobre nuestras trazas digitales, o tomar decisiones informadas sobre nuevas políticas y tecnologías, es esencial desarrollar marcos teóricos y empíricos que tengan en cuenta los metadatos digitales. Este documento de opinión presenta cinco características sociotecnológicas clave de los metadatos en las redes digitales que se beneficiarían de una mayor participación de las ciencias de la información.

Internet, las redes de telefonía móvil, el comercio en línea y cualquier otro dispositivo «inteligente» funcionan a través del intercambio de metadatos sobre nuestras comunicaciones y actividades digitales. Los metadatos describen un objeto físico o digital proporcionando un contexto, indicando la calidad o documentando otras características del objeto (Greenberg, 2005). Los metadatos tienen diferentes propósitos y pueden clasificarse de diferentes maneras. Gilliland, por ejemplo, distinguió cinco tipos de metadatos -administrativos, descriptivos, de preservación, técnicos y de uso- que tienen diferentes funciones en los sistemas de información digital (Gilliland, 2008). Los metadatos «descriptivos» pueden proporcionar a un usuario revisiones del producto de otros compradores, mientras que los metadatos «de uso» pueden incluir el historial de compras colectivas de un usuario y permitir que el sistema proporcione una lista de recomendaciones, anuncios o incluso noticias falsas. Sin embargo, estas funciones de los metadatos, que a menudo se dicen libres de valores y neutrales, pueden confundirse con el paso del tiempo, a veces de formas sorprendentes o inesperadas. De hecho, la nueva iniciativa de noticias falsas de Facebook para combatir las afirmaciones virales falsas en se basa en sopesar los metadatos de compromiso y las prácticas publicitarias con una comprobación de los hechos para limitar la información errónea y evitar la censura (Isaac, 2016).

La colección de rastros del comportamiento cotidiano de las personas en esferas públicas y privadas apunta a los metadatos como objetos de nuevas indagaciones académicas. La teorización de contextos de metadatos y la creación de evidencia empírica sobre su creación y circulación como fenómenos sociotecnológicos de infraestructuras y organizaciones será una de las características animadoras que los científicos de la información necesitarán abordar en un futuro próximo. Si queremos participar en discusiones significativas sobre nuestras trazas digitales, o tomar decisiones informadas sobre nuevas políticas y tecnologías, es esencial desarrollar marcos teóricos y empíricos para caracterizar el papel de los metadatos dentro de las infraestructuras de comunicación en red. Las metáforas como «escape de datos» que se utilizan para describir «el rastro digital que la gente deja» (Mayer-Schonberger & Cukier, 2013, p. 113) cuando usa computadoras o teléfonos celulares oscurecen la naturaleza de los metadatos dentro de estos sistemas. Por ejemplo, las compañías aseguradoras de automóviles han comenzado a ofrecer tarifas más bajas a los clientes que aceptan instalar un receptor de monitoreo GPS en sus automóviles que rastrea sus hábitos de conducción: aceleración y paro en particular (Lieber, 2014)

Los metadatos producidos por cualquier sistema técnico son el resultado de una selección activa por parte de los diseñadores del sistema de qué registrar y cuándo.  Por ejemplo, los dispositivos inalámbricos están diseñados para recopilar y transmitir metadatos sobre la hora y el lugar desde donde se envían los datos, así como las rutas que los datos toman a través de las redes (Acker, 2014). Estos metadatos de trazas muestran a los diseñadores y operadores de infraestructuras de comunicación cómo funcionan las redes y dónde se producen los problemas. Los operadores de redes celulares, por ejemplo, pueden determinar dónde se están cayendo las llamadas telefónicas, o dónde ha fallado una torre celular. En otro ejemplo, las franquicias de compras de Target a Amazon rastrean los metadatos sobre el comportamiento de compra y navegación de los consumidores a través del tiempo a través de programas de recompensas para determinar sus necesidades, hábitos y tendencias de compra. De este modo, los metadatos están diseñados para permitir usos y resultados específicos.

Las distinciones formales entre datos y metadatos son confusas y difíciles de definir (Gilliland, 2008). Los datos y los metadatos se designan a menudo en contradicción entre sí, dependiendo de sus diferentes funciones y medios de interpretación en contextos específicos de origen y uso.  Ciertas trazas digitales pueden servir como «metadatos» en un contexto porque proporcionan información sobre la actividad o el comportamiento de las personas, pero también pueden servir como «datos» si se analizan en otros contextos y se utilizan como evidencia para hacer una afirmación o argumentación (Borgman, 2015). Llamar a algo «metadatos» en lugar de «datos» es una clasificación contextual que raramente tiene una lógica evidente (Boellstorff, 2013). Por ejemplo, nuevos tipos de redes de sensores permiten a los investigadores producir datos científicos que antes eran difíciles o imposibles de recopilar. Estos datos técnicos son metadatos de fondo para el científico, pero son datos esenciales para el operador de red que supervisa y mantiene la red (Borgman, Wallis y Mayernik, 2012). Del mismo modo, las organizaciones gubernamentales y de ayuda humanitaria están organizando cada vez más metadatos de los medios sociales y las redes móviles como datos para permitir una orientación más eficaz de la ayuda de emergencia, la asignación de recursos de emergencia y el despliegue de las fuerzas policiales. A menudo se usan los metadatos para analizar el comportamiento y las intenciones de individuos específicos, y potencialmente identificar a esos individuos para acciones particulares. Esto es ilustrado vívidamente por la declaración del ex director de la CIA y la NSA, Michael Hayden, en mayo de 2014, cuando dijo «matamos gente a base de metadatos» (Cole, 2014).

Los metadatos recopilados por plataformas de medios sociales como Twitter y Facebook subyacen en una industria artesanal de análisis de patrones de uso de la tecnología, redes personales y tendencias de distribución de información (Schroeder, 2014). En muchos de estos estudios, los «grandes datos» son en realidad «grandes metadatos» que muestran cómo se utilizan, confían y estandarizan los servicios digitales.

Los metadatos ejecutables necesarios para la transmisión de datos y la comunicación impregnan nuestra cultura en red; de hecho, las infraestructuras no pueden funcionar sin ellos (Fidler & Acker, 2014). Sin embargo, la parcialidad de los metadatos y su capacidad de agregación presentan una tensión crucial en la sociedad. Por ejemplo, las personas nombradas en una publicación de agosto de 2015 de información de las cuentas robadas del sitio de citas para adultos Ashley Madison corrían el riesgo de ser identificadas como personas que habían llevado a cabo relaciones extramatrimoniales, apoyadas directamente por los metadatos liberados en sí mismos (Victor, 2015).

En conclusión, los metadatos son fundamentales para el diseño y la explotación de las infraestructuras técnicas, pero es fácil dar por sentado que nuestras vidas personales pueden aparecer en nuestras huellas digitales. Como ha dicho un erudito, los metadatos de trazas digitales pueden ser «notablemente reveladores» de nuestras vidas y actividades (Landau, 2016). Las filtraciones de la NSA han ilustrado, por ejemplo, cómo las facturas de telefonía móvil no son simplemente documentos privados banales. A medida que los metadatos de nuestra comunicación digital crecen en volumen y nuestro uso de herramientas digitales prolifera, se utilizarán y agregarán de maneras conocidas y desconocidas, intencionadas y oportunistas. Por ejemplo, el exitoso programa de Netflix «House of Cards» fue producido en base a la analítica de descriptores de metadatos generados por los usuarios (Carr, 2013).

Para poder participar en el mundo digital, las personas deben someterse a la creación de sus metadatos y utilizarlos para una variedad de propósitos (van Dijck, 2014). Pero, los metadatos, como los registros telefónicos y censales, siempre han estado conectados a cuerpos y vidas. Esto se amplifica cada vez más en el espacio digital. Estas cuestiones de metadatos están transformando las formas en que concebimos la gestión de los datos e incluso los derechos humanos.

Bibliografía

 

 

 

 

 

 

 

Incentivos para la creación de Servicios de Gestión Datos de Investigación (RDM) en Bibliotecas Universitarias

 

1515089418982

Bryant, Rebecca ; Lavoie, Brian  ; Malpas, Constance. Incentives for Building University RDM Services. The Realities of Research Data Management Dublin, Part 3. Ohio: OCLC, 2018

Texto completo

 

En este tercer informe de la serie Incentives for Building University RDM Services, los autores exploran los incentivos que inspiraron la adquisición de la capacidad de Servicios de Gestión Datos de Investigación (RDM) por parte de las cuatro universidades de investigación descritas en los estudios de caso, y describen tanto los patrones generales como las circunstancias dependientes del contexto que dieron forma a estos incentivos.

Basándose en los estudios de caso, los autores organizaron estos incentivos en cuatro amplias categorías: cumplimiento, normas académicas en evolución, estrategia institucional y demanda de los investigadores.

  • La inversión de la universidad en infraestructura, servicios, o infraestructura de gestión de datos de investigación.
  • El personal está motivado por incentivos relevantes a nivel local. En otras palabras, el aumento de atención sobre RDM en las universidades de investigación que operan en diferentes circunstancias locales refleja una alineación de intereses institucionales y motivaciones externas.
  • La demanda de los investigadores y el cumplimiento de los mandatos de las políticas fueron factores importantes para diseñar y mantener un conjunto de servicios de RDM a lo largo del tiempo, pero no fueron los factores clave para establecer los servicios RDM en las instituciones de estudio de caso.
  • Si bien la constelación de incentivos relevantes difiere de un contexto a otro, la adquisición o el desarrollo de la capacidad está invariablemente motivada por un interés en proteger o mejorar la reputación y el éxito institucional.
  • Consecuentemente, la sostenibilidad a largo plazo de los servicios RDM universitarios depende de la alineación con las necesidades institucionales, tanto como las necesidades individuales de los investigadores.

 

 

El papel de la biblioteca en la Gestión de Datos de Investigación (GDI)

 

 

Bryant, R., A. Clements, et al. (2017). [e-Book] Research Information Management: Defining RIM and the Library’s Role. Dublin, Ohio OCLC Research, 2017.

Texto completo

 

La gestión de la información de investigación (RIM) es la agregación, curación y utilización de la información sobre investigación, que está emergiendo como un área de creciente interés y relevancia en muchas bibliotecas universitarias.

La gestión de la información de investigación (RIM) tiene correlación con muchos aspectos de los servicios bibliotecarios tradicionales en el descubrimiento, adquisición, difusión y análisis de las actividades académicas, y lo hace a través del nexo con los sistemas de datos institucionales, los flujos de trabajo del profesorado y los socios institucionales.

La adopción del MRI ofrece a las bibliotecas nuevas oportunidades para apoyar los objetivos institucionales y de investigación. El propósito de la publicación es ayudar a las bibliotecas y otras partes interesadas de la institución a comprender el desarrollo de prácticas de gestión de la información de investigación y, en particular, el valor añadido que las bibliotecas pueden ofrecer en un ecosistema complejo. Este trabajo forma parte de un conjunto de publicaciones y recursos en torno a las prácticas del MRI.