Archivo de la etiqueta: Gestión de datos de investigación

Datos masivos en bibliotecas

Voutssas Marquez, JuanDatos masivos en bibliotecas. México: Universidad Nacional Autónoma de México. Instituto de Investigaciones Bibliotecológicas y de la Información, 2022. 

Texto completo

En años recientes el fenómeno conocido como Big Data o Datos Masivos ha ido creciendo y hoy representa una herramienta nueva y válida en el análisis de información para la toma de decisiones en las organizaciones; entre ellas, las bibliotecas. Muchas nuevas actividades y proyectos pueden realizarse en las bibliotecas con esta metodología. Pero como todo avance tecnológico, éste tiene sus ventajas y desventajas, las cuales deben ser conocidas y estudiadas. Por lo mismo, es conveniente que el personal dedicado a la gestión de la información –especialmente en las bibliotecas– se introduzca en el conocimiento de esos conceptos, herramientas y procedimientos, ya que sin duda es un elemento de valor agregado tanto para la organización como para el personal que se dedica a esas actividades.

La Biblioteca Nacional de Suecia recurre a la Inteligencia Artificial para analizar siglos de datos

Salian, Isha. «Sweden’s National Library Turns Page to AI». NVIDIA Blog, 23 de enero de 2023.

Ver completo

La biblioteca está entrenando modelos de IA de última generación en medio milenio de textos suecos para apoyar la investigación en humanidades, historia, lingüística, medios de comunicación y otros campos.

Durante los últimos 500 años, la Biblioteca Nacional de Suecia ha recopilado prácticamente todas las palabras publicadas en sueco, desde manuscritos medievales de incalculable valor hasta menús de pizza actuales.

Gracias a una ley centenaria que obliga a entregar a la biblioteca un ejemplar de todo lo publicado en sueco -también conocida como Kungliga biblioteket, o KB-, sus colecciones abarcan desde lo más obvio a lo más oscuro: libros, periódicos, emisiones de radio y televisión, contenidos de Internet, tesis doctorales, postales, menús y videojuegos. Se trata de una colección muy diversa de casi 26 petabytes de datos, ideal para entrenar la IA más avanzada. «Podemos crear modelos de IA de última generación para la lengua sueca porque tenemos los mejores datos», afirma Love Börjeson, directora de KBLab, el laboratorio de datos de la biblioteca.

Utilizando NVIDIA DGX systems, el grupo ha desarrollado más de dos docenas de modelos de transformadores de código abierto, disponibles en Hugging Face. Los modelos, descargados por hasta 200.000 desarrolladores al mes, permiten la investigación en la biblioteca y otras instituciones académicas.

«Antes de que se creara nuestro laboratorio, los investigadores no podían acceder a un conjunto de datos en la biblioteca, sino que tenían que mirar un solo objeto digital cada vez», explica Börjeson. «Era necesario que la biblioteca creara conjuntos de datos que permitieran a los investigadores realizar investigaciones orientadas a la cantidad».

De este modo, los investigadores pronto podrán crear conjuntos de datos hiperespecializados, por ejemplo, para buscar todas las postales suecas que representen una iglesia, todos los textos escritos en un estilo concreto o todas las menciones de un personaje histórico en libros, artículos de prensa y programas de televisión.

Los conjuntos de datos de la biblioteca representan toda la diversidad de la lengua sueca, incluidas sus variaciones formales e informales, los dialectos regionales y los cambios a lo largo del tiempo. «Nuestro flujo de entrada es continuo y creciente: cada mes recibimos más de 50 terabytes de datos nuevos», explica Börjeson.

Además de los modelos de transformación que comprenden el texto sueco, KBLab cuenta con una herramienta de IA que transcribe sonido a texto, lo que permite a la biblioteca transcribir su vasta colección de emisiones de radio para que los investigadores puedan buscar contenidos específicos en los registros de audio.

KBLab también está empezando a desarrollar modelos de texto generativo y trabaja en un modelo de IA que podría procesar vídeos y crear descripciones automáticas de su contenido.

«También queremos vincular todas las modalidades», afirma Börjeson. «Cuando se busque un término concreto en las bases de datos de la biblioteca, deberíamos ser capaces de devolver resultados que incluyan texto, audio y vídeo».

KBLab se ha asociado con investigadores de la Universidad de Gotemburgo, que están desarrollando aplicaciones que utilizan los modelos del laboratorio para realizar investigaciones lingüísticas, incluido un proyecto de apoyo a la labor de la Academia Sueca para modernizar sus técnicas basadas en datos para crear diccionarios suecos.

Cuando los datos de investigación se comparten libremente

Pileberg, Silje, y University of Oslo. «When Research Data Is Shared Freely». Accedido 24 de enero de 2023. https://phys.org/news/2022-12-freely.html.

En los últimos años, los investigadores han publicado cada vez más sus investigaciones en revistas de acceso abierto. Algunos van un paso más allá y comparten sus datos.

Cuando los investigadores del TIK Lars Wenaas y Magnus Gulbrandsen planeaban publicar un nuevo estudio en otoño de 2022, tenían claro que debía publicarse en una revista de acceso abierto. Sin embargo, ambos fueron más allá. Habían analizado unos 180 documentos. De ellos habían recuperado una gran serie de resúmenes e información que proporcionaban el material en el que basaron su investigación. Decidieron publicarlo al mismo tiempo que el estudio.

El Consejo de Investigación ha seguido la tendencia mundial del acceso abierto y ha dado un pequeño impulso a los investigadores noruegos: publicar en abierto, de una forma u otra, es un requisito previo para la financiación de proyectos, a menos que los investigadores tengan buenas razones para no hacerlo.

En 2017, el Consejo de Investigación también decidió que los investigadores que recibieran su apoyo debían considerar la posibilidad de elaborar un plan de gestión de datos. Este debe, entre otras cosas, mostrar si los datos se compartirán y, en caso afirmativo, cómo.

Permite la verificabilidad

En Noruega, la proporción de investigaciones que se publican en abierto ha aumentado considerablemente en los últimos diez años. Mientras que en 2013 menos del 40% de los artículos de investigación noruegos se publicaban en abierto, en 2021 esa proporción había aumentado hasta cerca del 75%, según el barómetro de OA del proveedor de servicios Sikt.

Compartir datos no es tan habitual.

«Para nosotros, se trata de buenas prácticas científicas. De transparencia. Cuando compartimos los datos abiertamente, los lectores del artículo pueden comprobar si los datos respaldan lo que escribimos. Verificar los resultados de la investigación puede ser muy difícil sin acceso al conjunto de datos», dice Wenaas.

Muchos estudios han señalado las dificultades de verificar las conclusiones de los estudios, lo que se ha dado en llamar la crisis de la replicación.

Los dos investigadores señalan experimentos como el Experimento Marshmallow, en el que un grupo de investigación estadounidense estudió el autocontrol de los niños. Muy pocos niños consiguieron esperar quince minutos por un malvavisco, a pesar de que obtendrían el doble si pudieran. Según el estudio, la capacidad de autocontrol de los niños se mantuvo bastante estable hasta la adolescencia.

Desde entonces, nuevos estudios han cuestionado las conclusiones del Experimento del Malvavisco.

«Las conclusiones son sencillas e intuitivas, aunque no han sido fáciles de replicar, en parte porque el conjunto de datos no ha estado disponible. Esto ocurre con muchas investigaciones», afirma Gulbrandsen.

No todos los datos deben compartirse

Otra ventaja de la transparencia en relación con el material de datos es que éstos pueden, en principio, utilizarse en otros contextos, señala Wenaas.

«No todo es susceptible de reutilización, pero la opción existe», afirma.

Sin embargo, ambos subrayan que hay circunstancias en las que publicar un conjunto de datos no es tan fácil, como los datos de entrevistas que has prometido anonimizar.

«¿Y si primero quieres hacer más uso tú mismo de los datos antes de compartirlos?».

«No es infrecuente querer hacer un uso completo de los conjuntos de datos antes de publicarlos. Sin embargo, puedes optar por compartir partes de los datos, las partes que apoyan lo que estás publicando en primer lugar. Esa es la opción mínima», dice Wenaas.

Cuestión de cultura

Wenaas y Gulbrandsen también creen que compartir datos es una cuestión de cultura. Para muchos es nuevo, para otros puede ser una práctica habitual desde hace mucho tiempo.

Según el servicio de puesta en común de datos de la UiT, la Universidad Ártica de Noruega, que han utilizado personalmente, se han compartido muchos más conjuntos de datos en las ciencias naturales y la salud que en las ciencias sociales. En la medida en que el servicio es representativo, es menos habitual compartir datos dentro de las ciencias sociales y las humanidades.

Asimismo, señalan que compartir datos también requiere tiempo y esfuerzo.

«Es un tipo de trabajo adicional por el que no se obtienen méritos. Para nosotros ha sido un trabajo manejable porque el conjunto de datos es pequeño. Si tienes un conjunto de datos más grande, se convierte en un reto real y costoso», dice Wenaas.

¿Un futuro abierto?

Los dos están convencidos de que las directrices del Consejo de Investigación han sido un factor decisivo en la tendencia de los últimos años a publicar cada vez más en revistas de acceso abierto.

Wenaas y Gulbrandsen creen que el intercambio de datos continuará.

«Creo que compartir datos acabará convirtiéndose en la norma. Forma parte del concepto más amplio de ciencia abierta. Quienes financian la investigación lo exigen cada vez más, al igual que las partes interesadas del sector público. La UE se está centrando mucho en ello. Las revistas también han empezado a exigirlo, así que ahora se nos anima desde varios frentes», afirma Wenaas.

El Consejo de Investigación basa sus directrices en los principios internacionales FAIR, según los cuales los datos deben ser Localizables, Accesibles, Interoperables y Reutilizables.

DataOps: una guía para todo el proceso de análisis de datos

«A Guide to DataOps | IEEE Computer Society». Accedido 24 de enero de 2023. https://www.computer.org/publications/tech-news/trends/what-is-dataops/.

DataOps es un conjunto de prácticas, procesos y tecnologías que combina una perspectiva integrada y orientada a los procesos de datos con la automatización y los métodos de la ingeniería de software ágil para mejorar la calidad, la velocidad y la colaboración y promover una cultura de mejora continua en el ámbito de la analítica de datos

Los datos impulsan todo lo que hacemos. Por este motivo, el análisis de datos se ha convertido en uno de los elementos más importantes de la programación, la ingeniería y las pruebas en todas las organizaciones. Pero las técnicas tradicionales de gestión de datos están fallando a las empresas al ser incapaces de hacer frente a conjuntos de datos enormemente complejos.

Es importante poder procesar estos conjuntos por su uso en la construcción de grandes sistemas técnicos como un mainframe de IBM, sobre el que se construyen muchos sistemas de uso generalizado.

La complejidad de los conjuntos de datos viene dada por su tamaño y diversidad, pero también por el tamaño y la diversidad geográfica y de experiencia de los equipos de tratamiento de datos. El crecimiento de los datos en la industria está provocando, paradójicamente, un caos que se traduce en el fracaso de los proyectos de datos.

Aquí es donde entran en juego las DataOps, como solución potencial al caos de los datos y al fracaso de los proyectos.

DataOps es un conjunto de prácticas y procesos definidos cuyo objetivo es situar los datos en el centro de la optimización fomentando la velocidad, la calidad y la colaboración en el análisis de datos.

Se puede considerar como una cultura o forma de trabajar, centrada en la comunicación entre diferentes profesionales de los datos y en la integración de diversas herramientas y principios de desarrollo en una forma cohesiva de procesar los datos.

DataOps es más que una única herramienta o método. Es un enfoque del procesamiento de datos que pretende reducir los errores y permitir que los sistemas gestionen grandes conjuntos de datos sin pérdidas.

DataOps presenta algunas ventajas clave que lo convierten en un enfoque eficaz para la gestión de datos:

  • Rapidez. Con la reducción de errores y el procesamiento eficaz de grandes conjuntos de datos, los equipos de datos pueden trabajar más rápido sin comprometer la calidad.
  • Fiabilidad. Los datos procesados tradicionalmente tienen un problema de fiabilidad, lo que significa que las decisiones y los proyectos basados en datos fallan en mayor medida que los realizados con técnicas DataOps.
  • Control. Cuando todo un equipo es capaz de trabajar en un conjunto de datos con diferentes herramientas sin comprometer los datos, tienen más control sobre los datos y su capacidad para procesarlos y manipularlos.
  • Colaboración: al utilizar herramientas de colaboración como un almacén de datos, varias personas pueden trabajar en el mismo conjunto de datos y aportar sus propios conocimientos y experiencia a esa información.

Investigación de datos del consumidor.

Cheshire, J., Longley, P., & Singleton, A. (2018). Consumer Data Research. UCL Press.

Texto completo

Los big data recopilados por organizaciones orientadas al cliente -como registros de teléfonos inteligentes, transacciones con tarjetas de fidelización de tiendas, billetes de viaje inteligentes, publicaciones en redes sociales o lecturas de contadores de energía inteligentes- representan la mayor parte de los datos recogidos sobre los ciudadanos en la actualidad. Como resultado, están transformando la práctica de las ciencias sociales.

Los macrodatos de consumo se distinguen de los datos convencionales de las ciencias sociales no sólo por su volumen, variedad y velocidad, sino también por su procedencia y adecuación a cada vez más fines de investigación. Los autores de este libro, todos ellos del Centro de Investigación de Datos de Consumo, ofrecen una primera exposición consolidada del enorme potencial de la investigación de datos de consumo en los sectores académico, comercial y gubernamental, así como una oportuna valoración de las formas en que los datos de consumo desafían las ortodoxias científicas.

Antes de los ordenadores: la tecnología de la información desde la escritura hasta la era de los datos digitales

Robertson, Stephen. B C, Before Computers: On Information Technology from Writing to the Age of Digital Data. Open Book Publishers, 2020.

Texto completo

La idea de que la era digital ha revolucionado nuestra experiencia cotidiana del mundo no es nada nuevo, y ha sido ampliamente reconocida por los historiadores de la cultura. En cambio, «BC: Before Computers» de Stephen Robertson es una obra que cuestiona la idea de que a mediados del siglo XX se produjo un único momento de ruptura. Trata de todo lo que tuvimos que aprender, inventar y comprender -todas las formas en que tuvimos que evolucionar nuestro pensamiento- antes de poder entrar en la revolución de la tecnología de la información de la segunda mitad del siglo XX. Su enfoque abarca desde los inicios del tratamiento de datos hasta formas originarias de la tecnología humana como el desarrollo de los sistemas de escritura, reuniendo toda una historia de momentos revolucionarios en el desarrollo de las tecnologías de la información en una narración única, aunque no lineal.

A caballo entre la filosofía y la historia técnica, Robertson recurre a sus amplios conocimientos técnicos para elaborar un texto que invita a la reflexión y es accesible a un amplio abanico de lectores. El libro tiene un amplio alcance y explora el desarrollo de tecnologías en ámbitos tan diversos como la criptografía, las artes visuales y la música, y el sistema postal. A través de todo ello, no pretende simplemente contar la historia de los avances informáticos, sino mostrar que esos avances se basan en una larga historia de seres humanos que han creado tecnologías para métodos cada vez más sofisticados de manipulación de la información.

A través de una estructura clara y un estilo atractivo, reúne una gran cantidad de exploraciones informativas y conceptuales sobre la historia de las tecnologías humanas, y evita presuponer cualquier conocimiento previo por parte del lector. Como tal, tiene el potencial de ser de interés tanto para el experto como para el lector general.

Datos de la colección de libros digitales de la Library of Congress

Selected Digitized Books collection

Esta es una colección creciente de libros seleccionados y otros materiales de las Colecciones Generales de la Biblioteca del Congreso que se han puesto a disposición abiertamente. La mayoría de los materiales de esta colección se publicaron en los Estados Unidos antes de la década de 1930 y están en inglés. La colección presenta miles de obras de ficción, incluidos libros destinados a niños, adultos jóvenes y otras audiencias. También hay algunos materiales en idiomas extranjeros que se publicaron en otros países.

Este conjunto de datos comprende 166 218 archivos .txt y JSON que contienen texto completo de 90 414 libros en la colección de libros digitalizados seleccionados de loc.gov. El texto se creó como parte de los flujos de trabajo de digitalización utilizando tecnologías de reconocimiento óptico de caracteres (OCR). El conjunto de datos se creó utilizando la API JSON/YAML de loc.gov para obtener los metadatos y una aplicación de gestión de datos y procesamiento de flujo de trabajo interno para extraer el texto completo asociado de un LCCN. Los metadatos comprenden todos los libros digitalizados seleccionados.

Los libros de esta colección son de dominio público y son libres de usar y reutilizar.

Línea de crédito: Biblioteca del Congreso

¿Por qué no compartimos los datos y el código? barreras y beneficios percibidos en las prácticas de archivo público

Gomes, Dylan G. E., Patrice Pottier, Robert Crystal-Ornelas, Emma J. Hudgins, Vivienne Foroughirad, Luna L. Sánchez-Reyes, Rachel Turba, et al. «Why don’t we share data and code? Perceived barriers and benefits to public archiving practices». Proceedings of the Royal Society B: Biological Sciences 289, n.o 1987 (30 de noviembre de 2022): 20221113. https://doi.org/10.1098/rspb.2022.1113.

La comunidad científica reconoce cada vez más el valor de las prácticas de investigación abiertas, reproducibles y transparentes para la ciencia y la sociedad en general. A pesar de este reconocimiento, muchos investigadores no comparten sus datos y códigos públicamente. Este patrón puede surgir de las barreras de conocimiento sobre cómo archivar los datos y el código, las preocupaciones sobre su reutilización y los incentivos profesionales mal alineados. Aquí se define, categoriza y debate los obstáculos a la hora de compartir datos y códigos que son relevantes para muchos campos de investigación. Se explora cómo podrían superarse o reformularse las barreras reales y percibidas a la luz de los beneficios en relación con los costes. Al dilucidar estas barreras y los contextos en los que surgen, se pueden tomar medidas para mitigarlas y alinear nuestras acciones con los objetivos de la ciencia abierta, tanto como científicos individuales como como comunidad científica.

Cómo la ciencia abierta puede responder a las crisis y desafíos mundiales

Impact of Social Sciences. «How Intelligent Open Science Can Inform Our Response to Global Crises, LSE 15 de noviembre de 2022.

Ver completo

Intelligent open science: a case study of viral genomic data sharing during the COVID-19 pandemic Ref: BEIS research paper 2022/026

La pandemia de COVID-19 demostró las fortalezas potenciales y las debilidades existentes de las prácticas de ciencia abierta y el intercambio de datos abiertos para abordar los urgentes desafíos sociales y tecnológicos. En este post, Lucia Loffreda y Rob Johnson presentan un nuevo informe del Departamento de Energía y Estrategia Industrial del Gobierno británico, en el que se destaca cómo el apoyo a las prácticas de ciencia y datos abiertos puede contribuir a aumentar la preparación ante futuras crisis.

La crisis del COVID-19 ha supuesto el despliegue de los datos genómicos de los patógenos en todo el mundo para caracterizar los brotes del virus, rastrear su mutación y propagación, y desarrollar respuestas de salud pública a la pandemia del COVID-19. Al mismo tiempo, ha arrojado luz sobre las prácticas, los incentivos y las infraestructuras que permiten compartir y reutilizar los datos. Ahora que los países se preparan para salir de la crisis, se pueden extraer cinco lecciones clave para estar preparados para futuras pandemias.

En un nuevo informe, encargado por el Ministerio de Empresa, Energía y Estrategia Industrial (BEIS) del Reino Unido, se exploran estas lecciones a través de un estudio de caso en profundidad sobre el intercambio de datos genómicos virales durante COVID-19. El informe responde a un compromiso asumido durante la Presidencia británica del G7, publicado en el Pacto de Investigación del G7, y fue diseñado para añadir profundidad y precisión a las recomendaciones existentes sobre la puesta en común de datos a través de las fronteras, y a las cuestiones culturales y de prácticas de investigación relacionadas. Los resultados presentados en este estudio de caso encargado por el BEIS también están estrechamente alineados con los esbozados en los principios rectores recientemente publicados por la Organización Mundial de la Salud para el intercambio de datos sobre el genoma de los patógenos. Se espera que ambos documentos puedan proporcionar valiosas lecciones para apoyar respuestas equitativas y eficientes en futuras crisis. Nuestro informe completo, que incluye las conclusiones detalladas, puede consultarse aquí.

El informe completo reúne una base de datos de 295 fuentes, los puntos de vista de 24 entrevistados y las opiniones de 18 revisores internacionales, pero aquellos que busquen un resumen de las lecciones aprendidas pueden encontrarlas a continuación.

Invertir a largo plazo

Las respuestas eficaces a las emergencias se basan en inversiones a largo plazo en infraestructuras de datos abiertos, normas, habilidades y salud pública. En otras palabras, si pensamos en la capacidad de secuenciación como una tubería, que requiere inversiones en cada etapa del proceso (adquisición de la financiación necesaria, acceso a las muestras y reactivos pertinentes, aprovechamiento de las últimas tecnologías y despliegue de personal suficientemente capacitado), entonces se puede permitir la creación, el intercambio y el análisis exitosos de los datos de secuenciación.

Desgraciadamente, la pandemia de COVID-19 puso de manifiesto deficiencias fundamentales en la preparación para la pandemia en todos los sistemas sanitarios mundiales que pueden atribuirse a la falta de inversión sostenida en todo el proceso de secuenciación. El acceso inconsistente a los elementos mencionados anteriormente ha llevado a la variabilidad en la capacidad de secuenciación, la disponibilidad y la calidad. A su vez, nos hemos quedado con lagunas en la base de conocimientos global sobre cómo mutó y se propagó el COVID-19.

Para superar estos retos y evitar que resurjan en futuras emergencias, es necesario que los gobiernos y los financiadores se comprometan a largo plazo a invertir en ciencia, investigación e infraestructura de salud pública. Junto a esto, debe reconocerse la importancia crítica de una infraestructura de datos abierta y escalable, así como de los programas informáticos, las normas y las competencias.

«Será muy bueno para el mundo si, incluso en los países en desarrollo, pudiéramos tener una fuente continua de financiación para los estudios sobre enfermedades infecciosas y emergentes… Esto tendrá conexiones con el intercambio de datos, ya que uno de los requisitos [de la financiación] podría ser que tienes que compartir tus datos».


Académico (entrevistado)

Adoptar una perspectiva global

La puesta en común de los datos suele estar más limitada por la falta de capacidad de investigación subyacente y por diversas tensiones políticas, que por la falta de voluntad de adoptar prácticas de puesta en común abiertas. Por tanto, las intervenciones diseñadas para mejorar la disponibilidad de los datos deben asegurarse de que abordan la raíz del problema.

En el estudio, se destaca que no todos los países o regiones tienen suficiente capacidad de generación de datos, o recursos humanos capacitados, para recopilar, difundir y analizar datos genómicos virales. En consecuencia, los conjuntos de datos de secuenciación mundiales están muy sesgados hacia el norte del mundo, lo que, durante la pandemia, provocó puntos oscuros en la capacidad de secuenciación y el seguimiento de los virus. También se observa que las naciones del sur global se consideraron más expuestas a las consecuencias políticas y económicas adversas de la compartición de datos, creando así un desincentivo para compartir los datos a medida que surgen. Se ilustra con el caso de Sudáfrica, donde el intercambio oportuno de la variante Omicron tuvo repercusiones negativas en la industria turística del país.

Teniendo en cuenta estos obstáculos, y entendiendo que la resolución de retos globales como el COVID-19 depende de datos representativos de todas las partes del mundo, los responsables políticos y las infraestructuras internacionales deben esforzarse por conocer y responder a las necesidades de una comunidad de usuarios diversa y en evolución.

«Si el mundo sigue castigando a África por el descubrimiento de Omicron y los «científicos de la salud mundial» siguen quedándose con los datos, ¿quién volverá a compartir los datos tempranos?»


Profesor Tulio de Oliveira (vía Twitter)

Incentivar el intercambio equitativo de datos

A medida que los actores de todo el mundo empezaron a responder a la evolución de la pandemia, se hicieron evidentes las oportunidades de mejorar las culturas de intercambio de datos existentes en el mundo académico y la salud pública. En el centro de la cuestión está la necesidad de reformar los incentivos que promueven el intercambio de datos más allá de las fronteras.

En el caso de los generadores de datos, el reconocimiento y la recompensa son fundamentales. Identificamos la necesidad de continuar con los esfuerzos en curso para recompensar el intercambio de datos reutilizables, códigos, otros objetos de investigación y los metadatos que los acompañan. Además, la pandemia ha supuesto una oportunidad para reevaluar los acuerdos de acceso a los datos con el fin de promover un intercambio de datos equitativo en situaciones de emergencia. Es necesario aclarar las expectativas en torno a la velocidad, la calidad y la transparencia para los generadores de datos en diferentes contextos, como la vigilancia rutinaria en la salud pública.

La pandemia puso de manifiesto que las interacciones entre los actores de las comunidades de investigación y salud pública son fundamentales para maximizar la combinación y reutilización de los datos científicos y clínicos. Para permitir estas colaboraciones en el futuro, deben continuar los esfuerzos en curso en torno a la reforma de los incentivos. Los responsables políticos que pretenden fomentar el intercambio temprano de datos genómicos virales también deben estar preparados para adaptar sus enfoques a las necesidades de las diferentes comunidades, teniendo en cuenta adecuadamente sus diferentes incentivos y prioridades.

«En lo que respecta a los datos genómicos de los patógenos, en concreto, tengo claro que el paradigma predominante es inadecuado. Necesitamos que los datos estén disponibles mucho antes que las publicaciones asociadas».


Responsable político (entrevistado)

Adaptarse a las circunstancias cambiantes

La pandemia de COVID-19 ha creado una oportunidad para reevaluar las normas establecidas para el intercambio de datos. Una parte importante de esta reevaluación puede abordarse mediante los esfuerzos en curso para reformar los incentivos académicos. Esto también debería ir acompañado del correspondiente trabajo para incentivar el intercambio por parte de los actores de la salud pública, con expectativas reforzadas de intercambio de datos por todas las partes en un contexto de emergencia.

El aprovechamiento efectivo de los datos de investigación para la salud pública dependerá además de la captura de metadatos de alta calidad y de la aplicación de soluciones técnicas y legislativas que permitan utilizar conjuntos de datos sensibles para fines de investigación y salud pública a escala.

En general, cualquier esfuerzo en este sentido requerirá una importante colaboración de actores de todos los sectores. Los financiadores, los editores y los responsables políticos tienen un papel que desempeñar a la hora de establecer las expectativas de un intercambio abierto y rápido de resultados de investigación, datos e información en circunstancias de emergencia. Los proveedores de infraestructuras abiertas deben ser capaces de identificar y responder rápidamente a las nuevas necesidades, mientras que los nuevos enfoques deben prever el uso de conjuntos de datos sensibles con fines de investigación en situaciones de emergencia.

«Estamos en esta burbuja de la ciencia abierta y …. [Los laboratorios clínicos están en su propia burbuja. Romper esos silos dentro de la ciencia exige una cantidad tremenda de trabajo, y un asunto mucho más grande de lo que yo había previsto».


Proveedor de infraestructuras (entrevistado)

Ir más allá de los paradigmas actuales de intercambio

En lo que respecta a la puesta en común de datos genómicos virales, COVID-19 puso de manifiesto un panorama fragmentado, poblado por actores con perspectivas y motivaciones divergentes. Por ejemplo, entre las comunidades de investigación y de salud pública, salieron a la luz diferentes perspectivas sobre las ventajas de los modelos abiertos y controlados de acceso a los datos genómicos virales. Y, entre los países de ingresos altos, medios y bajos, hemos visto que también hay diferentes capacidades y prioridades en relación con la generación, el análisis y el intercambio de datos científicos.

Mientras que las infraestructuras de acceso totalmente abierto para compartir datos ofrecen beneficios demostrables mayores que los repositorios de acceso controlado en términos de reutilización e integración de datos a escala, encontramos que estos beneficios no pueden ser realizados en la práctica a menos que estas infraestructuras estén acompañadas por un enfoque transparente y globalizado de la financiación, la gobernanza y la distribución de beneficios.

Por lo tanto, los enfoques más eficaces para equilibrar los intereses contrapuestos en contextos de emergencia serán aquellos que tengan en cuenta las diversas y cambiantes perspectivas de los distintos sectores, dando a todos los actores un asiento en la mesa en dichos debates.

«Creo que la lección más importante que he aprendido de esta situación es que hay que atraer a un conjunto diverso de voces… Tenemos que pensar en cómo se van a beneficiar los más desfavorecidos [de la secuenciación] y por qué les puede interesar. Y si fracasamos en esa tarea, no conseguiremos siempre datos representativos».

Experto académico (entrevistado)

Hacia una ciencia abierta e inteligente

Entonces, ¿qué significan todas estas lecciones aprendidas para futuras pandemias?

Para los responsables de las políticas de ciencia abierta, lo más importante es la necesidad de tener en cuenta diversas perspectivas y el riesgo de consecuencias no deseadas al formular las intervenciones políticas. Para ello, deben ser conscientes de que pueden ser necesarios enfoques diferentes y flexibles para abordar los intereses contrapuestos de los generadores y los usuarios de datos, y de que las soluciones más adecuadas dependen en gran medida del contexto.

En el resto de la comunidad científica, será necesario renovar la atención a los enfoques prosociales, y las estructuras de incentivos y las normas de la comunidad deberían seguir evolucionando. En particular, deben establecerse incentivos que reconozcan y recompensen el intercambio y la reutilización de datos a nivel de individuos, instituciones y naciones.

Aprovechando el impulso de la pandemia de COVID-19, ahora es el momento de ir más allá de los actuales paradigmas de intercambio de datos y de avanzar hacia aplicaciones inteligentes de la ciencia abierta para estar mejor preparados para futuras emergencias.

La era de las plataformas digitales y el desarrollo de los mercados de datos en un contexto de libre competencia.

Comisión Económica para América Latina y el Caribe. La era de las plataformas digitales y el desarrollo de los mercados de datos en un contexto de libre competencia. CEPAL, 2021.

Texto completo

La economía datificada ha planteado retos que van más allá del alcance de las políticas de competencia y marcos regulatorios tradicionales. En el centro del debate se ubica el impacto que generan los modelos de negocio basados en plataformas y las mismas plataformas digitales. En este contexto, muchas empresas, especialmente las pequeñas, deben hacer frente a la competencia desleal de las empresas nativas digitales. Por otro lado, la digitalización de la economía, el modelo de negocio de plataformas y la explotación intensiva de datos también crean oportunidades para las empresas y los gobiernos. La creación de mercados de datos y la eliminación de barreras al libre flujo de datos pueden impulsar las innovaciones y la productividad en la manufactura. Por lo tanto, comprender el papel de los datos y asignarles precios es crucial, desde el punto de vista tributario, para cerrar las brechas y garantizar una competencia en igualdad de condiciones. Asimismo, de la asignación de precios a las bases de datos se beneficiarán principalmente las empresas emergentes y las disruptivas.