Archivo de la etiqueta: Gestión de datos de investigación

Los datos de entrenamiento para plataformas de Inteligencia Artificial podrían escasear si los sitios web restringen los robots rastreadores

«With Robots.Txt, Websites Halt AI Companies’ Web Crawlers – IEEE Spectrum». Accedido 3 de septiembre de 2024. https://spectrum.ieee.org/web-crawling.

El informe de la Data Provenance Initiative, un grupo de investigadores voluntarios especializados en inteligencia artificial (IA), revela una creciente preocupación sobre la disminución de la disponibilidad de datos públicos utilizados para entrenar modelos de IA generativa. Estos modelos, como los desarrollados por empresas líderes como OpenAI y Anthropic, dependen de enormes conjuntos de datos extraídos de la web, que incluyen información recopilada de sitios públicos como blogs, redes sociales y foros. Sin embargo, muchas organizaciones están tomando medidas para proteger sus datos de estos rastreadores, utilizando el archivo robots.txt, que impide que los bots accedan a determinadas partes de sus sitios web.

El informe, tituladoConsent in Crisis: The Rapid Decline of the AI Data Commons destaca que esta tendencia de restringir el acceso a datos es particularmente notable en sitios monetizados como los de noticias, artistas y otros contenidos protegidos por derechos de autor. Estos sitios están preocupados por cómo la IA generativa podría afectar sus ingresos y, por tanto, están implementando barreras para proteger su contenido.

Shayne Longpre, uno de los investigadores principales del informe, explicó que este cambio tiene serias implicaciones para el futuro de la IA. A medida que más sitios bloquean a los rastreadores, los modelos de IA se verán forzados a entrenarse con datos de menor calidad o menos actualizados, lo que podría comprometer su rendimiento y precisión. Además, aunque algunas grandes empresas de IA podrían superar este desafío al negociar acuerdos exclusivos para acceder a datos de alta calidad, esto podría generar problemas de competencia y aumentar la barrera de entrada para nuevas empresas en el campo de la IA.

El informe también menciona la creciente preocupación por el uso de datos sintéticos como alternativa, que aunque tiene potencial, podría llevar a problemas como la «degradación del modelo» si se basa en datos de baja calidad.

Las empresas de IA deben jugar limpio cuando utilizan datos académicos en el entrenamiento de sus modelos

«AI Firms Must Play Fair When They Use Academic Data in Training». Nature 632, n.o 8027 (27 de agosto de 2024): 953-953. https://doi.org/10.1038/d41586-024-02757-z.

Las empresas de inteligencia artificial (IA) deben actuar de manera justa cuando utilizan datos académicos en el entrenamiento de sus modelos. Los investigadores están preocupados por el uso sin restricciones de su propiedad intelectual en la formación de modelos de lenguaje como ChatGPT. Es crucial establecer reglas claras sobre el uso aceptable de estos datos.

Actualmente, no se sabe con precisión qué datos se usaron para entrenar modelos como ChatGPT, pero es probable que se hayan utilizado millones de artículos académicos, incluidos aquellos bajo acceso abierto y posiblemente también artículos protegidos por derechos de autor. Esto plantea preguntas sobre si los creadores de estos datos deberían recibir crédito y cómo.

El tema es complicado por las leyes de propiedad intelectual, que varían según la jurisdicción y no siempre son claras sobre si la recolección de datos o su uso para crear modelos de IA constituye una infracción de derechos de autor. Algunas empresas de IA, para evitar litigios, están comenzando a comprar licencias para los datos utilizados en el entrenamiento.

El uso de materiales bajo licencias como Creative Commons, que promueven la distribución y reutilización libre, también genera ambigüedades. Aunque no siempre se considera una infracción el uso de estos materiales para entrenar IA, hay preocupaciones sobre cómo las IA pueden afectar a los creadores, incluyendo a investigadores cuyo trabajo podría ser reutilizado sin la atribución adecuada.

La atribución es un principio fundamental en la ciencia, y algunos investigadores consideran que el uso de datos científicos por modelos comerciales de IA excede lo que las exenciones legales actuales estaban destinadas a permitir. Dado que es casi imposible atribuir correctamente las contribuciones cuando se usan millones de fuentes, se han sugerido soluciones como la generación aumentada por recuperación, que podría permitir a los modelos citar trabajos relevantes.

Dar a los investigadores la opción de excluir su trabajo del entrenamiento de IA podría aliviar sus preocupaciones, y algunas herramientas ya están emergiendo para facilitar esto. Además, leyes como la Ley de IA de la UE, que exige mayor transparencia sobre los datos utilizados en el entrenamiento, podrían fortalecer el control de los creadores sobre su trabajo.

Es necesario continuar investigando si se requieren soluciones más radicales, como nuevas licencias o cambios en la ley de derechos de autor. Las herramientas de IA, al aprovechar un ecosistema de datos construido por movimientos de código abierto, deben respetar las expectativas de reciprocidad y uso razonable, para evitar desincentivar la creación original y asegurar que los creadores mantengan cierto control sobre su obra.

Anonimización: La ciencia imperfecta de utilizar los datos preservando la privacidad

Gadotti, Andrea, Luc Rocher, Florimond Houssiau, Ana-Maria Creţu, y Yves-Alexandre de Montjoye. «Anonymization: The imperfect science of using data while preserving privacy». Science Advances 10, n.o 29 (17 de julio de 2024): eadn7053. https://doi.org/10.1126/sciadv.adn7053.

La información sobre nosotros, nuestras acciones y nuestras preferencias se crea a escala a través de encuestas o estudios científicos o como resultado de nuestra interacción con dispositivos digitales como teléfonos inteligentes y rastreadores de fitness. La capacidad de compartir y analizar estos datos de forma segura es clave para el progreso científico y social. La anonimización es considerada por científicos y responsables políticos como una de las principales formas de compartir datos minimizando los riesgos para la privacidad. En esta revisión, ofrecemos una perspectiva pragmática de la literatura moderna sobre ataques a la privacidad y técnicas de anonimización. Analizamos las técnicas tradicionales de desidentificación y sus grandes limitaciones en la era de los macrodatos. A continuación, centramos nuestra atención en los enfoques modernos para compartir datos agregados anónimos, como los sistemas de consulta de datos, los datos sintéticos y la privacidad diferencial. Llegamos a la conclusión de que, aunque no existe una solución perfecta, la aplicación de técnicas modernas al tiempo que se auditan sus garantías contra los ataques es el mejor enfoque para utilizar y compartir datos de forma segura hoy en día.

Un nuevo indicador de Ciencia Abierta: medición del registro de estudios

PLOS. (2024, julio 1). A new Open Science Indicator: Measuring study registration. The Official PLOS Blog. https://theplosblog.plos.org/2024/07/a-new-open-science-indicator-measuring-study-registration/

El 1 de julio de 2024, PLOS lanzó un nuevo indicador de registro de estudios, mostrando un crecimiento lento pero constante en su adopción. El conjunto de datos incluye prácticas de Ciencia Abierta como la compartición de datos y códigos, y la publicación de preprints. Se solicita retroalimentación para mejorar el indicador y asegurar su utilidad.

Con el último lanzamiento de los resultados de los Indicadores de Ciencia Abierta (OSI) de PLOS, estamos introduciendo un nuevo indicador para el registro de estudios, también conocido como preregistro. Los resultados de esta versión preliminar del indicador muestran que la adopción es menor en comparación con otros indicadores, pero está creciendo, aunque lentamente. Con el tiempo, más investigadores pueden descubrir cómo registrar y compartir públicamente el diseño de un estudio antes de conocer los resultados puede aumentar la confianza en su trabajo.

Este lanzamiento también proporciona un primer vistazo a las prácticas de Ciencia Abierta para artículos publicados en 2024, actualizando los resultados de compartición de datos, compartición de código y publicación de preprints hasta el primer trimestre de este año. El conjunto de datos completo, que se remonta a 2018 y ahora comprende 135.214 artículos, está siempre disponible de forma gratuita para acceso y reutilización.


Desarrollo del nuevo indicador

El registro de estudios ha sido identificado como una práctica prioritaria de Ciencia Abierta para monitorear en la investigación biomédica. También es un indicador de interés para los pilotos organizados por la Red de Reproducibilidad del Reino Unido, en los cuales PLOS y DataSeer están participando. Para los fines de OSI, definiendo el registro de estudios como “el plan para un estudio de investigación, incluyendo preguntas/hipótesis de investigación, detalles sobre el diseño de la investigación y/o planes para el análisis de datos, que se ha puesto a disposición para compartir públicamente con el fin de asegurar un resultado imparcial y apoyar la diferenciación de direcciones de investigación planificadas y no planificadas”.

Desde ahí, se trabaja para desarrollar un enfoque para medir el registro de estudios en la literatura científica publicada. Inicialmente se enfoca en detectar referencias a registros que recogen información estructurada sobre el diseño de un estudio, incluyendo registros de ensayos clínicos, registros de revisiones sistemáticas, registros de estudios en animales y otros registros de propósito general como Open Science Framework. Posteriormente, se emparejan identificadores persistentes y otros enlaces con los registros correspondientes.

Este enfoque—que cubre más de 30 registros—es el más completo que se ha desarrollado e implementado a escala. Pero, debido a que se basa en una lista permitida predefinida de registros (ver la declaración de métodos del indicador de registro de estudios para más información), es posible que haya registros que se pasen por alto.


¿Qué tan común es el registro de estudios?

En los últimos cinco años, las tasas de registro de estudios en PLOS han aumentado lenta pero constantemente, del 5% de los artículos en 2018 al 7% en 2023. La misma tendencia general se puede observar en el corpus comparador, con tasas que aumentan del 6% en 2018 al 7% en 2023.

El registro más utilizado por los autores de PLOS es Clinicaltrials.gov, seguido por el registro de revisiones sistemáticas PROSPERO. Pero también se puede observar por primera vez con este nuevo indicador la prevalencia de registros usando el Open Science Framework y otros registros, que cubren una amplia variedad de diseños de estudio. Los datos que se están publicando actualmente no están optimizados para segmentar por disciplina, aunque una versión anterior del conjunto de datos de OSI incluye campos de investigación para la mayoría de los artículos relevantes y planeamos compartir un análisis de los datos de registro de estudios por campo más adelante este año. Otras características que estamos considerando para este indicador incluyen detectar registros en el texto de archivos suplementarios y capturar las fechas en que se registraron y compartieron los registros.


Otros resultados y refinamientos

Los principales archivos de datos en el último conjunto de datos de OSI incluyen todos los 112,229 artículos de investigación de PLOS publicados entre el 1 de enero de 2018 y el 31 de marzo de 2024, así como un corpus comparador más pequeño. Para los artículos de PLOS, los últimos resultados muestran:

  • 31% de todos los artículos de investigación compartieron datos de investigación en un repositorio en el primer trimestre de 2024 (sin cambios desde el cuarto trimestre de 2023).
  • 17% de todos los artículos de investigación compartieron código en el primer trimestre de 2024 (un 1% más que en el cuarto trimestre de 2023).
  • 22% de todos los artículos de investigación estuvieron asociados con un preprint en el primer trimestre de 2024 (un 2% menos que en el cuarto trimestre de 2023).

La tasa de adopción de preprints en los comparadores ha sido mayor que en PLOS desde 2023, impulsada por editores con servidores de preprints internos, pero esta tasa también disminuyó en los comparadores en el primer trimestre de 2024, lo que sugiere una tendencia más amplia. Mientras tanto, se han aplicado mejoras al indicador de preprints y se han aplicado retroactivamente a todo el corpus. Se ha eliminado una fuente menor de falsos positivos y, de manera más significativa, se han eliminado los preprints publicados después de que se publicó el artículo de investigación asociado (también conocidos como “postprints”). Este cambio afecta desproporcionadamente a los artículos más antiguos, que han tenido más tiempo para acumular un postprint.

También se ha actualizado el enfoque de emparejamiento de artículos comparadores. Para esta última versión, los términos de encabezados de materias médicas (MeSH) para el nuevo trimestre de datos se han actualizado según la distribución de términos MeSH para los artículos de PLOS publicados entre el 1 de enero de 2022 y el 31 de diciembre de 2023. Se espera actualizar la distribución de términos MeSH anualmente para asegurar que la comparativa siga siendo comparable a la composición cambiante de los artículos de PLOS.

Documento de opinión sobre la digitalización avanzada de la investigación

European Commission, Directorate-General for Research and Innovation, Opinion paper on advanced digitalisation of research, Publications Office of the European Union, 2024, https://data.europa.eu/doi/10.2777/932733

El documento discute cómo la digitalización avanzada en la recolección, validación, análisis y simulación de datos puede mejorar la reproducibilidad de la investigación y la usabilidad de los datos. Resalta que, al aplicar principios y políticas de Ciencia Abierta, se puede crear una masa crítica de Datos FAIR evaluados por calidad (QAFAIRD) y objetos de investigación. Esto permitirá el desarrollo confiable y seguro de la Inteligencia Artificial, el Aprendizaje Automático y los Entornos Virtuales de Investigación.

El documento identifica el estado actual de la digitalización avanzada en la investigación y señala los cuellos de botella que deben abordarse para cumplir con estos objetivos. Además, busca contribuir a la plena operatividad del EOSC (European Open Science Cloud).

Percepciones sobre Alfabetización en Datos y Educación en Alfabetización en Datos

Ghodoosi, B., Torrisi-Steele, G., West, T., & Heidari, M. (2024). Perceptions of data literacy and data literacy education. Journal of Librarianship and Information Science0(0). https://doi.org/10.1177/09610006241246789

En la era de la transformación digital, la alfabetización en datos ha surgido como una competencia crítica para las organizaciones, impulsando una demanda de profesionales capacitados. A pesar de la escasez de talento con alfabetización en datos, las universidades luchan por alinear sus planes de estudio con las necesidades de la industria, lo que ha llevado a pedir una mejora en la educación en alfabetización en datos. Reconociendo los matices contextuales de este conjunto de habilidades, un enfoque de talla única no es suficiente. Para abordar esta brecha, los autores abogan por una exploración exhaustiva de las perspectivas de partes interesadas clave como asesores comerciales, estudiantes, profesores e investigadores. Comprender las diversas necesidades y expectativas de las partes interesadas es crucial para identificar deficiencias en la educación en alfabetización en datos, allanando el camino para mejoras en los programas universitarios.

El estudio es la fase preliminar de un proyecto más grande en curso en el que se utiliza la metodología de teoría fundamentada para explorar la pregunta «¿cómo se puede mejorar la educación en alfabetización en datos?». Los autores informan sobre un estudio a pequeña escala (ocho entrevistas) dirigido a explorar las perspectivas sobre la definición de alfabetización en datos, competencias y desafíos con dos representantes de cada uno de los cuatro grupos de partes interesadas en educación en alfabetización en datos: estudiantes, asesores comerciales, educadores e investigadores. Un desafío común identificado entre los participantes es la falta de habilidades de pensamiento crítico y alfabetización en datos, así como la falta de conciencia sobre la importancia del análisis de datos. Aunque los participantes eran conscientes de que diferentes empresas pueden necesitar diferentes habilidades de alfabetización en datos, no pudieron articular cuáles podrían ser esas diferencias. El estudio subraya la necesidad de desarrollar marcos para ayudar a guiar y avanzar en la educación en alfabetización en datos.

Impacto de los datos abiertos: perspectivas del Use Case Observatory de Data Europe

«Unveiling the impact of open data: Insights from the Use Case Observatory | data.europa.eu». Accedido 29 de abril de 2024.

Texto completo


Un seguimiento de tres años de los casos de reutilización de datos abiertos para comprender los aspectos económicos, gubernamentales, sociales y impacto ambiental de los datos abiertos

Use Case Observatory es una iniciativa liderada por data.europa.eu, se encarga de realizar una investigación exhaustiva para evaluar el impacto de los datos abiertos en Europa entre 2022 y 2025. Este proyecto se centra en analizar 30 casos de reutilización y tiene como objetivo contribuir con ideas valiosas a los objetivos más amplios de data.europa.eu, al tiempo que arroja luz sobre los desafíos y éxitos de la reutilización de datos abiertos y las metodologías de evaluación de impacto.

Ampliando los hallazgos del primer volumen, este segundo volumen seleccionó 13 casos de reutilización de los 30 iniciales y los clasificó según las cuatro dimensiones de impacto de datos abiertos, utilizadas en los estudios de Madurez de Datos Abiertos: económica, gubernamental, social y ambiental. Estos casos fueron monitoreados de cerca para evaluar cómo los datos abiertos crean impacto en diferentes sectores.

Los aprendizajes son variados e ilustrativos. Estos casos no solo demuestran cómo los datos abiertos facilitan el desarrollo económico, la creación de empleo y el emprendimiento, sino que también subrayan el papel de los datos abiertos en mejorar la toma de decisiones, la transparencia y la rendición de cuentas en los procesos políticos. En la dimensión social, el uso de datos abiertos mejora la salud pública, fomenta la inclusión y mejora los servicios públicos. Finalmente, los casos de uso muestran el impacto de los datos abiertos en el medio ambiente, contribuyendo a abordar los desafíos ambientales y apoyar los esfuerzos de conservación.

Si bien el segundo volumen del Use Case Observatory destaca el papel significativo de la reutilización de datos abiertos en la creación de numerosas organizaciones y aplicaciones, también destaca la importancia de desbloquear un impacto potencial aún mayor en diversos sectores. Esto implica brindar un apoyo continuo a la comunidad de reutilización para identificar oportunidades de crecimiento financiero y fomentar una comprensión más profunda de cómo crear y medir efectivamente el impacto de los datos abiertos.

Los efectos de compartir datos de investigación, códigos y preprints en las citas

Colavizza, Giovanni, Lauren Cadwallader, Marcel LaFlamme, Grégory Dozot, Stéphane Lecorney, Daniel Rappo, y Iain Hrynaszkiewicz. «An Analysis of the Effects of Sharing Research Data, Code, and Preprints on Citations». arXiv.org, 24 de abril de 2024. https://arxiv.org/abs/2404.16171v1.


La liberación temprana de una publicación como preprints muestra una ventaja significativa en las citas, con un aumento promedio del 20.2%. Compartir datos en un repositorio en línea también está asociado con una ventaja de citas positiva, aunque menor, del 4.3% en promedio. Sin embargo, no se observa una ventaja significativa en las citas para compartir código.


Las llamadas para hacer la investigación científica más abierta han ganado fuerza con una variedad de actores sociales interesados. Las prácticas de Ciencia Abierta incluyen, pero no se limitan a, el intercambio temprano de resultados a través de preprints y compartir abiertamente productos como datos y código para hacer que la investigación sea más reproducible y extensible. La evidencia existente muestra que adoptar prácticas de Ciencia Abierta tiene efectos en varios ámbitos. En este estudio, se investiga si adoptar una o más prácticas de Ciencia Abierta conduce a un número significativamente mayor de citas para una publicación asociada, que es una forma de impacto académico.

Se utiliza un conjunto de datos novedoso conocido como Indicadores de Ciencia Abierta, producido por PLOS y DataSeer, que incluye todas las publicaciones de PLOS desde 2018 hasta 2023, así como un grupo de comparación muestreado del Subconjunto de Acceso Abierto de PMC. En total, se analizan alrededor de 122,000 publicaciones. Se calculan indicadores de citas a nivel de publicación y autor y se utilizan un amplio conjunto de variables de control para aislar el efecto de los Indicadores de Ciencia Abierta en las citas recibidas. Se muestra que las prácticas de Ciencia Abierta se adoptan en diferentes grados en disciplinas científicas.

Se descubre que la liberación temprana de una publicación como preprints se correlaciona con una ventaja significativa de citas positivas de aproximadamente 20.2% de promedio. También se encuentra que compartir datos en un repositorio en línea se correlaciona con una ventaja de citas más pequeña pero aún positiva de 4.3% de promedio. Sin embargo, no se encuentra una ventaja de citas significativa para compartir código. Se necesita más investigación sobre medidas de impacto adicionales o alternativas más allá de las citas. Estos resultados probablemente sean de interés para los investigadores, así como para los editores, financiadores de investigación y responsables de políticas.

Monitoreo de casos de reutilización de datos abiertos para comprender el impacto económico, gubernamental, social y ambiental de los datos abiertos.

The use case observatory – A 3-year monitoring of open data reuse cases to understand the economic, governmental, social and environmental impact of open data. Volume II, Publications Office of the European Union, 2024, https://data.europa.eu/doi/10.2830/073480

Vol 1


El observatorio de casos de uso: Un monitoreo de 3 años de casos de reutilización de datos abiertos para comprender el impacto económico, gubernamental, social y ambiental de los datos abiertos. Volumen II. Metadatos de publicación.

El Observatorio de Casos de Uso, iniciado y llevado a cabo por data.europa.eu, el portal oficial para datos europeos gestionado por la Oficina de Publicaciones de la Unión Europea, sirve como un proyecto de investigación integral para evaluar el impacto económico, gubernamental, social y ambiental de los datos abiertos en toda Europa desde 2022 hasta 2025. El Observatorio de Casos de Uso se centra en monitorear y analizar casos de reutilización, con el objetivo de contribuir con ideas valiosas a los objetivos más amplios de data.europa.eu.

Hacia una infraestructura nacional de datos del siglo XXI: Gestión de los riesgos de privacidad y confidencialidad con datos combinados

Reiter, Jerome P., y Jennifer Park, eds. Toward a 21st Century National Data Infrastructure: Managing Privacy and Confidentiality Risks with Blended Data. Washington, D.C.: National Academies Press, 2024. https://doi.org/10.17226/27335.

Proteger la privacidad y garantizar la confidencialidad de los datos es un componente crítico de la modernización de nuestra infraestructura nacional de datos. El uso de datos combinados -que combinan fuentes de datos recogidas previamente- plantea nuevas consideraciones para la gestión responsable de los datos. Hacia una infraestructura nacional de datos del siglo XXI: Managing Privacy and Confidentiality Risks with Blended Data proporciona un marco para la gestión de los riesgos de divulgación que tiene en cuenta los atributos únicos de los datos combinados y plantea una serie de preguntas para orientar la toma de decisiones.

Los enfoques técnicos para gestionar el riesgo de divulgación han avanzado. La legislación, la reglamentación y las orientaciones federales recientes han descrito ampliamente las funciones y responsabilidades de la administración de los datos combinados. El informe, basado en la revisión de los enfoques técnicos y políticos realizada por el panel, aborda estas oportunidades emergentes y los nuevos retos y responsabilidades que plantean. El informe subraya que las compensaciones entre los riesgos de divulgación, los perjuicios de la divulgación y la utilidad de los datos son inevitables y constituyen consideraciones centrales a la hora de planificar las estrategias de divulgación de datos, especialmente en el caso de los datos combinados.