Archivo de la etiqueta: Gestión de datos de investigación

Los estadounidenses no entienden lo que las empresas pueden hacer con sus datos personales, y eso es un problema

Turow, Joseph et al. Americans Can’t Consent to Companies’ Use of Their Data. A Report from the Annenberg School for Communication, University of Pennsylvania, 2023

Texto completo

Una nueva encuesta realizada a 2.000 estadounidenses revela que la gente no entiende lo que los profesionales del marketing averiguan sobre ellos en Internet y no quiere que se recopilen sus datos, pero se siente impotente para impedirlo. El 77% de los encuestados respondió correctamente a 9 o menos preguntas, lo que supone un suspenso en una clase normal. Sólo una persona de las 2.000 de la muestra habría obtenido un sobresaliente en el examen.

En un nuevo informe, «Americans Can’t Consent to Companies’ Use of Their Data» (Los estadounidenses no pueden impedir que las empresas utilicen sus datos), los investigadores pidieron a un grupo representativo a nivel nacional de más de 2.000 estadounidenses que respondieran a una serie de preguntas sobre las políticas de marketing digital y el modo en que las empresas pueden y deben utilizar sus datos personales. Su objetivo era determinar si las actuales prácticas de «consentimiento informado» funcionan en Internet.

Descubrieron que la gran mayoría de los estadounidenses no entienden los fundamentos de las prácticas y políticas de marketing en Internet, y que muchos se sienten incapaces de dar su consentimiento a la forma en que las empresas utilizan sus datos. En consecuencia, según los investigadores, los estadounidenses no pueden dar realmente su consentimiento informado a la recopilación de datos digitales.

La encuesta reveló que el 56% de los adultos estadounidenses no entienden el término «política de privacidad», creyendo a menudo que significa que una empresa no compartirá sus datos con terceros sin permiso. En realidad, muchas de estas políticas establecen que una empresa puede compartir o vender cualquier dato que recopile sobre los visitantes de un sitio con otros sitios web o empresas.

El 77% de los encuestados respondió correctamente a 9 o menos preguntas, lo que supone un suspenso en una clase normal. Sólo una persona de las 2.000 de la muestra habría obtenido un sobresaliente en el examen. No obstante, la encuesta proporcionó muchos datos sobre los conocimientos digitales de los estadounidenses, o la falta de ellos:

  • Sólo 1 de cada 3 estadounidenses sabe que es legal que una tienda en línea cobre precios diferentes a los usuarios en función de su ubicación.
  • Más de 8 de cada 10 estadounidenses creen, erróneamente, que la Ley de Portabilidad y Responsabilidad del Seguro Médico (HIPAA) impide a las aplicaciones vender los datos recogidos sobre la salud de sus usuarios.
  • Menos de uno de cada tres estadounidenses sabe que los sitios web de comparación de precios de viajes, como Expedia u Orbitz, no están obligados a mostrar los precios más bajos de las aerolíneas.
  • Menos de la mitad de los estadounidenses saben que la configuración de privacidad de Facebook permite a los usuarios limitar parte de la información que comparten con los anunciantes.

Prácticas de datos en investigación en relación con los incentivos y obligaciones de las políticas públicas de ciencia abierta

Célya Gruson-Daniel, Groupe Projet Réussir L’Appropriation De La Science Ouverte. Summary of the study : Adapting Open Science. [Research Report] Comité pour la science ouverte. 2022, pp.29 Pages

Texto completo

Este resumen del informe del proyecto «Successfully appropriating open science Project» presenta de forma más condensada el contexto, la metodología y los resultados de un estudio sobre prácticas de datos en investigación. ¿Cómo apoyar la evolución de las prácticas asociadas a los datos en relación con los incentivos y obligaciones de las políticas públicas de ciencia abierta?

Datos masivos en bibliotecas

Voutssas Marquez, JuanDatos masivos en bibliotecas. México: Universidad Nacional Autónoma de México. Instituto de Investigaciones Bibliotecológicas y de la Información, 2022. 

Texto completo

En años recientes el fenómeno conocido como Big Data o Datos Masivos ha ido creciendo y hoy representa una herramienta nueva y válida en el análisis de información para la toma de decisiones en las organizaciones; entre ellas, las bibliotecas. Muchas nuevas actividades y proyectos pueden realizarse en las bibliotecas con esta metodología. Pero como todo avance tecnológico, éste tiene sus ventajas y desventajas, las cuales deben ser conocidas y estudiadas. Por lo mismo, es conveniente que el personal dedicado a la gestión de la información –especialmente en las bibliotecas– se introduzca en el conocimiento de esos conceptos, herramientas y procedimientos, ya que sin duda es un elemento de valor agregado tanto para la organización como para el personal que se dedica a esas actividades.

La Biblioteca Nacional de Suecia recurre a la Inteligencia Artificial para analizar siglos de datos

Salian, Isha. «Sweden’s National Library Turns Page to AI». NVIDIA Blog, 23 de enero de 2023.

Ver completo

La biblioteca está entrenando modelos de IA de última generación en medio milenio de textos suecos para apoyar la investigación en humanidades, historia, lingüística, medios de comunicación y otros campos.

Durante los últimos 500 años, la Biblioteca Nacional de Suecia ha recopilado prácticamente todas las palabras publicadas en sueco, desde manuscritos medievales de incalculable valor hasta menús de pizza actuales.

Gracias a una ley centenaria que obliga a entregar a la biblioteca un ejemplar de todo lo publicado en sueco -también conocida como Kungliga biblioteket, o KB-, sus colecciones abarcan desde lo más obvio a lo más oscuro: libros, periódicos, emisiones de radio y televisión, contenidos de Internet, tesis doctorales, postales, menús y videojuegos. Se trata de una colección muy diversa de casi 26 petabytes de datos, ideal para entrenar la IA más avanzada. «Podemos crear modelos de IA de última generación para la lengua sueca porque tenemos los mejores datos», afirma Love Börjeson, directora de KBLab, el laboratorio de datos de la biblioteca.

Utilizando NVIDIA DGX systems, el grupo ha desarrollado más de dos docenas de modelos de transformadores de código abierto, disponibles en Hugging Face. Los modelos, descargados por hasta 200.000 desarrolladores al mes, permiten la investigación en la biblioteca y otras instituciones académicas.

«Antes de que se creara nuestro laboratorio, los investigadores no podían acceder a un conjunto de datos en la biblioteca, sino que tenían que mirar un solo objeto digital cada vez», explica Börjeson. «Era necesario que la biblioteca creara conjuntos de datos que permitieran a los investigadores realizar investigaciones orientadas a la cantidad».

De este modo, los investigadores pronto podrán crear conjuntos de datos hiperespecializados, por ejemplo, para buscar todas las postales suecas que representen una iglesia, todos los textos escritos en un estilo concreto o todas las menciones de un personaje histórico en libros, artículos de prensa y programas de televisión.

Los conjuntos de datos de la biblioteca representan toda la diversidad de la lengua sueca, incluidas sus variaciones formales e informales, los dialectos regionales y los cambios a lo largo del tiempo. «Nuestro flujo de entrada es continuo y creciente: cada mes recibimos más de 50 terabytes de datos nuevos», explica Börjeson.

Además de los modelos de transformación que comprenden el texto sueco, KBLab cuenta con una herramienta de IA que transcribe sonido a texto, lo que permite a la biblioteca transcribir su vasta colección de emisiones de radio para que los investigadores puedan buscar contenidos específicos en los registros de audio.

KBLab también está empezando a desarrollar modelos de texto generativo y trabaja en un modelo de IA que podría procesar vídeos y crear descripciones automáticas de su contenido.

«También queremos vincular todas las modalidades», afirma Börjeson. «Cuando se busque un término concreto en las bases de datos de la biblioteca, deberíamos ser capaces de devolver resultados que incluyan texto, audio y vídeo».

KBLab se ha asociado con investigadores de la Universidad de Gotemburgo, que están desarrollando aplicaciones que utilizan los modelos del laboratorio para realizar investigaciones lingüísticas, incluido un proyecto de apoyo a la labor de la Academia Sueca para modernizar sus técnicas basadas en datos para crear diccionarios suecos.

Cuando los datos de investigación se comparten libremente

Pileberg, Silje, y University of Oslo. «When Research Data Is Shared Freely». Accedido 24 de enero de 2023. https://phys.org/news/2022-12-freely.html.

En los últimos años, los investigadores han publicado cada vez más sus investigaciones en revistas de acceso abierto. Algunos van un paso más allá y comparten sus datos.

Cuando los investigadores del TIK Lars Wenaas y Magnus Gulbrandsen planeaban publicar un nuevo estudio en otoño de 2022, tenían claro que debía publicarse en una revista de acceso abierto. Sin embargo, ambos fueron más allá. Habían analizado unos 180 documentos. De ellos habían recuperado una gran serie de resúmenes e información que proporcionaban el material en el que basaron su investigación. Decidieron publicarlo al mismo tiempo que el estudio.

El Consejo de Investigación ha seguido la tendencia mundial del acceso abierto y ha dado un pequeño impulso a los investigadores noruegos: publicar en abierto, de una forma u otra, es un requisito previo para la financiación de proyectos, a menos que los investigadores tengan buenas razones para no hacerlo.

En 2017, el Consejo de Investigación también decidió que los investigadores que recibieran su apoyo debían considerar la posibilidad de elaborar un plan de gestión de datos. Este debe, entre otras cosas, mostrar si los datos se compartirán y, en caso afirmativo, cómo.

Permite la verificabilidad

En Noruega, la proporción de investigaciones que se publican en abierto ha aumentado considerablemente en los últimos diez años. Mientras que en 2013 menos del 40% de los artículos de investigación noruegos se publicaban en abierto, en 2021 esa proporción había aumentado hasta cerca del 75%, según el barómetro de OA del proveedor de servicios Sikt.

Compartir datos no es tan habitual.

«Para nosotros, se trata de buenas prácticas científicas. De transparencia. Cuando compartimos los datos abiertamente, los lectores del artículo pueden comprobar si los datos respaldan lo que escribimos. Verificar los resultados de la investigación puede ser muy difícil sin acceso al conjunto de datos», dice Wenaas.

Muchos estudios han señalado las dificultades de verificar las conclusiones de los estudios, lo que se ha dado en llamar la crisis de la replicación.

Los dos investigadores señalan experimentos como el Experimento Marshmallow, en el que un grupo de investigación estadounidense estudió el autocontrol de los niños. Muy pocos niños consiguieron esperar quince minutos por un malvavisco, a pesar de que obtendrían el doble si pudieran. Según el estudio, la capacidad de autocontrol de los niños se mantuvo bastante estable hasta la adolescencia.

Desde entonces, nuevos estudios han cuestionado las conclusiones del Experimento del Malvavisco.

«Las conclusiones son sencillas e intuitivas, aunque no han sido fáciles de replicar, en parte porque el conjunto de datos no ha estado disponible. Esto ocurre con muchas investigaciones», afirma Gulbrandsen.

No todos los datos deben compartirse

Otra ventaja de la transparencia en relación con el material de datos es que éstos pueden, en principio, utilizarse en otros contextos, señala Wenaas.

«No todo es susceptible de reutilización, pero la opción existe», afirma.

Sin embargo, ambos subrayan que hay circunstancias en las que publicar un conjunto de datos no es tan fácil, como los datos de entrevistas que has prometido anonimizar.

«¿Y si primero quieres hacer más uso tú mismo de los datos antes de compartirlos?».

«No es infrecuente querer hacer un uso completo de los conjuntos de datos antes de publicarlos. Sin embargo, puedes optar por compartir partes de los datos, las partes que apoyan lo que estás publicando en primer lugar. Esa es la opción mínima», dice Wenaas.

Cuestión de cultura

Wenaas y Gulbrandsen también creen que compartir datos es una cuestión de cultura. Para muchos es nuevo, para otros puede ser una práctica habitual desde hace mucho tiempo.

Según el servicio de puesta en común de datos de la UiT, la Universidad Ártica de Noruega, que han utilizado personalmente, se han compartido muchos más conjuntos de datos en las ciencias naturales y la salud que en las ciencias sociales. En la medida en que el servicio es representativo, es menos habitual compartir datos dentro de las ciencias sociales y las humanidades.

Asimismo, señalan que compartir datos también requiere tiempo y esfuerzo.

«Es un tipo de trabajo adicional por el que no se obtienen méritos. Para nosotros ha sido un trabajo manejable porque el conjunto de datos es pequeño. Si tienes un conjunto de datos más grande, se convierte en un reto real y costoso», dice Wenaas.

¿Un futuro abierto?

Los dos están convencidos de que las directrices del Consejo de Investigación han sido un factor decisivo en la tendencia de los últimos años a publicar cada vez más en revistas de acceso abierto.

Wenaas y Gulbrandsen creen que el intercambio de datos continuará.

«Creo que compartir datos acabará convirtiéndose en la norma. Forma parte del concepto más amplio de ciencia abierta. Quienes financian la investigación lo exigen cada vez más, al igual que las partes interesadas del sector público. La UE se está centrando mucho en ello. Las revistas también han empezado a exigirlo, así que ahora se nos anima desde varios frentes», afirma Wenaas.

El Consejo de Investigación basa sus directrices en los principios internacionales FAIR, según los cuales los datos deben ser Localizables, Accesibles, Interoperables y Reutilizables.

DataOps: una guía para todo el proceso de análisis de datos

«A Guide to DataOps | IEEE Computer Society». Accedido 24 de enero de 2023. https://www.computer.org/publications/tech-news/trends/what-is-dataops/.

DataOps es un conjunto de prácticas, procesos y tecnologías que combina una perspectiva integrada y orientada a los procesos de datos con la automatización y los métodos de la ingeniería de software ágil para mejorar la calidad, la velocidad y la colaboración y promover una cultura de mejora continua en el ámbito de la analítica de datos

Los datos impulsan todo lo que hacemos. Por este motivo, el análisis de datos se ha convertido en uno de los elementos más importantes de la programación, la ingeniería y las pruebas en todas las organizaciones. Pero las técnicas tradicionales de gestión de datos están fallando a las empresas al ser incapaces de hacer frente a conjuntos de datos enormemente complejos.

Es importante poder procesar estos conjuntos por su uso en la construcción de grandes sistemas técnicos como un mainframe de IBM, sobre el que se construyen muchos sistemas de uso generalizado.

La complejidad de los conjuntos de datos viene dada por su tamaño y diversidad, pero también por el tamaño y la diversidad geográfica y de experiencia de los equipos de tratamiento de datos. El crecimiento de los datos en la industria está provocando, paradójicamente, un caos que se traduce en el fracaso de los proyectos de datos.

Aquí es donde entran en juego las DataOps, como solución potencial al caos de los datos y al fracaso de los proyectos.

DataOps es un conjunto de prácticas y procesos definidos cuyo objetivo es situar los datos en el centro de la optimización fomentando la velocidad, la calidad y la colaboración en el análisis de datos.

Se puede considerar como una cultura o forma de trabajar, centrada en la comunicación entre diferentes profesionales de los datos y en la integración de diversas herramientas y principios de desarrollo en una forma cohesiva de procesar los datos.

DataOps es más que una única herramienta o método. Es un enfoque del procesamiento de datos que pretende reducir los errores y permitir que los sistemas gestionen grandes conjuntos de datos sin pérdidas.

DataOps presenta algunas ventajas clave que lo convierten en un enfoque eficaz para la gestión de datos:

  • Rapidez. Con la reducción de errores y el procesamiento eficaz de grandes conjuntos de datos, los equipos de datos pueden trabajar más rápido sin comprometer la calidad.
  • Fiabilidad. Los datos procesados tradicionalmente tienen un problema de fiabilidad, lo que significa que las decisiones y los proyectos basados en datos fallan en mayor medida que los realizados con técnicas DataOps.
  • Control. Cuando todo un equipo es capaz de trabajar en un conjunto de datos con diferentes herramientas sin comprometer los datos, tienen más control sobre los datos y su capacidad para procesarlos y manipularlos.
  • Colaboración: al utilizar herramientas de colaboración como un almacén de datos, varias personas pueden trabajar en el mismo conjunto de datos y aportar sus propios conocimientos y experiencia a esa información.

Investigación de datos del consumidor.

Cheshire, J., Longley, P., & Singleton, A. (2018). Consumer Data Research. UCL Press.

Texto completo

Los big data recopilados por organizaciones orientadas al cliente -como registros de teléfonos inteligentes, transacciones con tarjetas de fidelización de tiendas, billetes de viaje inteligentes, publicaciones en redes sociales o lecturas de contadores de energía inteligentes- representan la mayor parte de los datos recogidos sobre los ciudadanos en la actualidad. Como resultado, están transformando la práctica de las ciencias sociales.

Los macrodatos de consumo se distinguen de los datos convencionales de las ciencias sociales no sólo por su volumen, variedad y velocidad, sino también por su procedencia y adecuación a cada vez más fines de investigación. Los autores de este libro, todos ellos del Centro de Investigación de Datos de Consumo, ofrecen una primera exposición consolidada del enorme potencial de la investigación de datos de consumo en los sectores académico, comercial y gubernamental, así como una oportuna valoración de las formas en que los datos de consumo desafían las ortodoxias científicas.

Antes de los ordenadores: la tecnología de la información desde la escritura hasta la era de los datos digitales

Robertson, Stephen. B C, Before Computers: On Information Technology from Writing to the Age of Digital Data. Open Book Publishers, 2020.

Texto completo

La idea de que la era digital ha revolucionado nuestra experiencia cotidiana del mundo no es nada nuevo, y ha sido ampliamente reconocida por los historiadores de la cultura. En cambio, «BC: Before Computers» de Stephen Robertson es una obra que cuestiona la idea de que a mediados del siglo XX se produjo un único momento de ruptura. Trata de todo lo que tuvimos que aprender, inventar y comprender -todas las formas en que tuvimos que evolucionar nuestro pensamiento- antes de poder entrar en la revolución de la tecnología de la información de la segunda mitad del siglo XX. Su enfoque abarca desde los inicios del tratamiento de datos hasta formas originarias de la tecnología humana como el desarrollo de los sistemas de escritura, reuniendo toda una historia de momentos revolucionarios en el desarrollo de las tecnologías de la información en una narración única, aunque no lineal.

A caballo entre la filosofía y la historia técnica, Robertson recurre a sus amplios conocimientos técnicos para elaborar un texto que invita a la reflexión y es accesible a un amplio abanico de lectores. El libro tiene un amplio alcance y explora el desarrollo de tecnologías en ámbitos tan diversos como la criptografía, las artes visuales y la música, y el sistema postal. A través de todo ello, no pretende simplemente contar la historia de los avances informáticos, sino mostrar que esos avances se basan en una larga historia de seres humanos que han creado tecnologías para métodos cada vez más sofisticados de manipulación de la información.

A través de una estructura clara y un estilo atractivo, reúne una gran cantidad de exploraciones informativas y conceptuales sobre la historia de las tecnologías humanas, y evita presuponer cualquier conocimiento previo por parte del lector. Como tal, tiene el potencial de ser de interés tanto para el experto como para el lector general.

Datos de la colección de libros digitales de la Library of Congress

Selected Digitized Books collection

Esta es una colección creciente de libros seleccionados y otros materiales de las Colecciones Generales de la Biblioteca del Congreso que se han puesto a disposición abiertamente. La mayoría de los materiales de esta colección se publicaron en los Estados Unidos antes de la década de 1930 y están en inglés. La colección presenta miles de obras de ficción, incluidos libros destinados a niños, adultos jóvenes y otras audiencias. También hay algunos materiales en idiomas extranjeros que se publicaron en otros países.

Este conjunto de datos comprende 166 218 archivos .txt y JSON que contienen texto completo de 90 414 libros en la colección de libros digitalizados seleccionados de loc.gov. El texto se creó como parte de los flujos de trabajo de digitalización utilizando tecnologías de reconocimiento óptico de caracteres (OCR). El conjunto de datos se creó utilizando la API JSON/YAML de loc.gov para obtener los metadatos y una aplicación de gestión de datos y procesamiento de flujo de trabajo interno para extraer el texto completo asociado de un LCCN. Los metadatos comprenden todos los libros digitalizados seleccionados.

Los libros de esta colección son de dominio público y son libres de usar y reutilizar.

Línea de crédito: Biblioteca del Congreso

¿Por qué no compartimos los datos y el código? barreras y beneficios percibidos en las prácticas de archivo público

Gomes, Dylan G. E., Patrice Pottier, Robert Crystal-Ornelas, Emma J. Hudgins, Vivienne Foroughirad, Luna L. Sánchez-Reyes, Rachel Turba, et al. «Why don’t we share data and code? Perceived barriers and benefits to public archiving practices». Proceedings of the Royal Society B: Biological Sciences 289, n.o 1987 (30 de noviembre de 2022): 20221113. https://doi.org/10.1098/rspb.2022.1113.

La comunidad científica reconoce cada vez más el valor de las prácticas de investigación abiertas, reproducibles y transparentes para la ciencia y la sociedad en general. A pesar de este reconocimiento, muchos investigadores no comparten sus datos y códigos públicamente. Este patrón puede surgir de las barreras de conocimiento sobre cómo archivar los datos y el código, las preocupaciones sobre su reutilización y los incentivos profesionales mal alineados. Aquí se define, categoriza y debate los obstáculos a la hora de compartir datos y códigos que son relevantes para muchos campos de investigación. Se explora cómo podrían superarse o reformularse las barreras reales y percibidas a la luz de los beneficios en relación con los costes. Al dilucidar estas barreras y los contextos en los que surgen, se pueden tomar medidas para mitigarlas y alinear nuestras acciones con los objetivos de la ciencia abierta, tanto como científicos individuales como como comunidad científica.