Archivo de la etiqueta: Gestión de datos de investigación

Estado de los datos 2025: IA en el presente, desafíos y perspectivas

Interactive Advertising Bureau (IAB), BWG Global, y Transparent Partners. 2025. State of Data 2025: The Now, the Near, and the Next Evolution of AI for Media Campaigns. Nueva York: Interactive Advertising Bureau

Texto completo

El informe State of Data 2025 del Interactive Advertising Bureau (IAB), elaborado en colaboración con BWG Global y Transparent Partners, analiza en profundidad el estado actual y las perspectivas de la inteligencia artificial en el ciclo completo de las campañas de medios digitales. Basado en una encuesta a más de 500 expertos de agencias, marcas y editores, el estudio sostiene que la industria publicitaria se encuentra en un punto de inflexión: aunque la IA lleva años utilizándose para optimizar procesos concretos, su integración plena y transversal sigue siendo limitada. El documento subraya que la irrupción de nuevas formas de IA —especialmente la generativa y la agentic— está transformando su papel, pasando de ser una herramienta de apoyo a convertirse en un sistema capaz de planificar, ejecutar y evaluar campañas de forma casi autónoma.

Uno de los principales hallazgos del informe es que el 70 % de las organizaciones aún no ha logrado una adopción integral de la IA en las fases de planificación, activación y análisis de campañas. No obstante, esta situación es percibida como transitoria: más de la mitad de quienes no han alcanzado ese nivel esperan hacerlo antes de 2026. Las agencias y los editores lideran el proceso de adopción, impulsados por la necesidad de generar eficiencias operativas y escalar soluciones para múltiples clientes, mientras que las marcas avanzan con mayor cautela, condicionadas por restricciones presupuestarias y la exigencia de demostrar retornos claros de la inversión.

El informe destaca que los usos más consolidados de la IA se concentran en la segmentación de audiencias, la agregación y el análisis de datos, la optimización en tiempo real de pujas y presupuestos, y la automatización de tareas repetitivas. Estas aplicaciones son valoradas positivamente por su eficiencia, efectividad y fiabilidad, especialmente en contextos de alto volumen de datos y decisiones operativas rápidas. Sin embargo, el estudio también señala que la IA todavía presenta limitaciones significativas en ámbitos donde se requiere juicio estratégico, visión a largo plazo o consideraciones éticas complejas, como la gestión de contratos, la seguridad de marca o la prevención del sesgo.

Entre los principales obstáculos para la adopción a gran escala, el informe identifica problemas estructurales relacionados con la calidad y la seguridad de los datos, la fragmentación de herramientas tecnológicas, la complejidad de implementación y la falta de conocimientos especializados. De forma reveladora, el temor a la sustitución de empleos aparece como una preocupación secundaria frente a estos desafíos técnicos y organizativos. Además, el documento subraya que solo alrededor de la mitad de las organizaciones está desarrollando estrategias claras —como hojas de ruta, programas de formación o marcos de gobernanza— para afrontar estos retos, lo que podría agrandar la brecha competitiva en el sector.

Frontiers FAIR² Data Management recupera la ciencia perdida: cómo la IA transforma los datos invisibles en conocimiento reutilizable

Frontiers. “90% of Science Is Lost. This New AI Just Found It.” ScienceDaily, October 13, 2025. https://www.sciencedaily.com/releases/2025/10/251013040314.htm

Una gran cantidad de datos de investigación valiosos permanecen sin utilizar, atrapados en laboratorios o perdidos en el tiempo. Frontiers pretende cambiar esta situación con FAIR Data Management, un innovador sistema impulsado por IA que hace que los conjuntos de datos sean reutilizables, verificables y citables. Al unir la curación, el cumplimiento, la revisión por pares y la visualización interactiva en una sola plataforma, FAIR² permite a los científicos compartir su trabajo de forma responsable y obtener reconocimiento.

La gran mayoría de los datos generados nunca se reutilizan ni contribuyen de forma significativa a nuevos descubrimientos. Según la evaluación citada, una proporción abrumadora de datos —hasta un 90 %— queda atrapada en laboratorios, no se comparte adecuadamente o se pierde en archivos inaccesibles, lo que frena el progreso en áreas críticas como la medicina, el cambio climático y la tecnología. Este desperdicio de información no solo reduce la eficiencia de la investigación global, sino que también limita la reproducibilidad de los estudios y la capacidad de construir sobre trabajos previos, una componente fundamental del método científico moderno.

Para enfrentar este desafío, la editorial y organización científica Frontiers ha desarrollado un sistema innovador denominado Frontiers FAIR² Data Management, que combina herramientas avanzadas de inteligencia artificial con principios sólidos de gestión de datos. El objetivo principal de esta plataforma es aplicar de manera automatizada y a gran escala los principios FAIR (findable, accessible, interoperable, reusable — en español: localizable, accesible, interoperable y reutilizable) y expandirlos en un marco que garantice la compatibilidad con sistemas de IA y la integridad ética de los conjuntos de datos. Al integrar procesos de curación, revisión por pares, visualización interactiva y certificación dentro de un único sistema impulsado por IA, FAIR² pretende transformar conjuntos de datos “perdidos” en recursos útiles y citables que puedan impulsar nuevas investigaciones, acelerar descubrimientos y reconocer adecuadamente el trabajo de los investigadores.

El funcionamiento práctico de FAIR² va más allá de simplemente archivar datos. Cuando un científico somete sus resultados a este sistema, no solo se asegura de que los datos sean estructurados y completos, sino que también recibe una salida múltiple: un paquete de datos certificado, un artículo de datos revisado y citable, herramientas de visualización interactiva y un certificado FAIR² que respalda la calidad y reutilización del conjunto. Esta estrategia integral busca eliminar las barreras tradicionales para el intercambio de datos y fomentar una cultura científica en la que cada conjunto de datos tenga el potencial de generar conocimiento adicional, reducir el tiempo entre descubrimiento y aplicación práctica, y asegurar que las inversiones en investigación rindan un impacto mucho mayor del que logran actualmente.

Impulso europeo a los datos abiertos y su continuidad en el programa Digital Europe

European Health and Digital Executive Agency; European Commission (2025). Public open data: CEF Telecom projects at a glance. Publications Office of the European Union. ISBN 978-92-95239-44-9.

Texto completo

Se ofrece una visión general de los proyectos de datos públicos abiertos financiados en el marco del programa CEF Telecom (2014-2020) y los sectores o ámbitos en los que se desarrolló cada proyecto, mostrando algunos proyectos y su impacto. Además, esta ficha informativa tiene por objeto describir cómo el programa Europa Digital tomó el relevo y apoya los espacios comunes europeos de datos. Los datos públicos abiertos son un servicio que facilita y armoniza el acceso a conjuntos de datos creados y gestionados por organismos públicos de toda la UE. El objetivo general es la mejora de las infraestructuras de servicios digitales y el desarrollo de productos y servicios de información basados en la reutilización y la combinación de datos en poder de actores públicos y comerciales de toda la UE. Los datos públicos son toda la información que los organismos públicos producen, recopilan o pagan. Esta información es importante para su reutilización en nuevos productos y servicios. Al abrir los datos públicos, se promovió la participación de los ciudadanos y los expertos en la vida política y social.

La avalancha de bots de inteligencia artificial desafía la sostenibilidad de los repositorios académicos

Washington, Jamie. “AI bots swarm UDSpace for information.” Library, Museums and Press, University of Delaware, 29 de septiembre de 2025. https://library.udel.edu/news/2025/09/29/ai-bots-swarm-udspace/

La Universidad de Delaware ha detectado un fenómeno inesperado en su repositorio institucional, UDSpace: una avalancha de bots de inteligencia artificial que acceden masivamente a su contenido.

Estos bots, diseñados para recopilar información y entrenar modelos de lenguaje, realizan miles de consultas automatizadas que han llegado a ralentizar el sistema y, en algunos casos, a dejarlo temporalmente inaccesible.

El atractivo de UDSpace radica en la gran cantidad de materiales académicos de alta calidad que alberga —tesis, artículos científicos, informes y otros documentos de investigación—, lo que lo convierte en una fuente muy valiosa para las empresas que desarrollan inteligencia artificial. Sin embargo, el patrón de comportamiento de los bots ha resultado extremadamente agresivo: generan peticiones a una velocidad imposible para los usuarios humanos y saturan el servidor, desbordando las capacidades de respuesta del repositorio.

Ante esta situación, el equipo técnico de la biblioteca probó inicialmente medidas básicas como bloquear direcciones IP o responder a los bots fingiendo que los documentos no existían. Pero estas estrategias solo sirvieron para que los ataques se intensificaran. En mayo de 2025, se optó por una solución más avanzada: un sistema que identifica las solicitudes automatizadas y las bloquea en la capa de entrada, antes de que lleguen al servidor. De esta forma, los usuarios legítimos pueden seguir accediendo sin problema mientras los bots reciben un mensaje de acceso prohibido.

Aunque esta estrategia ha logrado reducir la presión sobre UDSpace, el problema refleja una tendencia global. Cada vez más repositorios académicos y bibliotecas digitales se enfrentan a un dilema entre mantener el acceso abierto al conocimiento y proteger sus sistemas de un uso automatizado que amenaza con colapsar sus infraestructuras. El caso de la Universidad de Delaware muestra hasta qué punto el auge de la inteligencia artificial está obligando a las instituciones académicas a repensar la gestión y defensa de sus recursos digitales.

Asta DataVoyager, una nueva herramienta de IA para el análisis de datos estructurados sin necesidad de amplios conocimientos de programación

Allen Institute for AI. “Asta DataVoyager: Data-Driven Discovery and Analysis.” Allen Institute for AI (blog), 26 de septiembre de 2025. https://allenai.org/blog/asta-datavoyager

Ai2 presenta Asta DataVoyager, una herramienta diseñada para facilitar el análisis de datos estructurados sin necesidad de amplios conocimientos de programación. La plataforma permite a científicos y usuarios hacer preguntas en lenguaje natural sobre archivos de datos (CSV, JSON, Excel, Parquet, etc.) y recibir respuestas bien fundamentadas, acompañadas de visualizaciones, código reproducible y explicaciones de los métodos utilizados.

DataVoyager transforma la forma de interactuar con los datos al generar salidas estructuradas y coherentes que pueden compartirse como parte de un informe científico o cuaderno de trabajo. Además, permite seguir con preguntas de aclaración o nuevos análisis (“filtra por tal variable”, “haz test no paramétrico”, etc.), añadiendo nuevas secciones al reporte y conservando la trazabilidad del análisis.

Un caso de uso temprano se da con la Cancer AI Alliance (CAIA), que ha desplegado una versión federada de DataVoyager: investigadores de varios centros oncológicos pueden hacer consultas sobre datos clínicos federados sin que la información sensible abandone las instalaciones de cada institución. Con esto se busca extraer conclusiones agregadas y útiles para la investigación sin comprometer la privacidad de pacientes.

La propuesta subraya que el control y manejo de los datos permanece en manos del usuario: DataVoyager puede instalarse en infraestructura propia (servidores locales, nubes privadas, etc.), y los investigadores pueden borrar sus datos en cualquier momento. La idea central es acortar el tiempo entre una duda científica y una conclusión fiable, proporcionando transparencia en cada paso analítico y fortaleciendo la confianza en los resultados.

Datos listos para la IA: consideraciones clave para la ciencia abierta y responsable

McBride, Vanessa; Natalia Norori; Denisse Albornoz. Data and AI for Science: Key Considerations. Working Paper, International Science Council, septiembre de 2025. DOI: 10.24948/2025.11

Texto completo

El informe ofrece una visión amplia y crítica del cruce entre inteligencia artificial, datos y ciencia, destacando que solo mediante la combinación de apertura, responsabilidad y cooperación internacional se podrá aprovechar plenamente el potencial de la IA en beneficio del conocimiento y la sociedad.

El informe explora cómo la inteligencia artificial está transformando la práctica científica y qué condiciones deben cumplirse para que los datos puedan aprovecharse de manera efectiva, ética y sostenible. La noción central es la de datos “AI-ready”, es decir, conjuntos de datos preparados para ser procesados y reutilizados por sistemas de IA en beneficio de la investigación. Este concepto implica que los datos no solo deben estar disponibles, sino también estructurados, limpios, interoperables y documentados de manera adecuada.

Una parte importante del documento se centra en la calidad e interoperabilidad de los datos. La ciencia abierta ha impulsado normas como FAIR (Findable, Accessible, Interoperable, Reusable), pero el uso de IA añade nuevas exigencias. Por ejemplo, los algoritmos requieren datos con metadatos consistentes, esquemas comunes y estándares de anotación que permitan la reutilización automática. Además, se subraya que la preparación de datos para IA debe considerar la reducción de sesgos y garantizar la inclusión de voces y contextos diversos, para evitar reproducir inequidades existentes en los resultados científicos.

Otro eje del informe son las dimensiones éticas, sociales y ambientales. Los autores advierten que el entrenamiento y uso de grandes modelos de IA conlleva altos costes energéticos y huellas de carbono significativas, por lo que la sostenibilidad debe integrarse en la planificación de infraestructuras científicas. En paralelo, se examinan los riesgos para la privacidad, la seguridad y la soberanía de los datos, especialmente en campos sensibles como la biomedicina o las ciencias sociales. Estos retos requieren marcos sólidos de gobernanza que equilibren apertura y protección.

El informe también vincula la preparación de datos para IA con la agenda de la ciencia abierta. Se argumenta que los principios de transparencia, accesibilidad y colaboración resultan esenciales para garantizar que la IA potencie la ciencia de manera inclusiva y global. Se destacan casos prácticos en los que repositorios, proyectos colaborativos y consorcios internacionales han logrado implementar buenas prácticas de datos AI-ready, sirviendo como ejemplos para otras disciplinas.

Finalmente, se presentan recomendaciones estratégicas:

  • Consolidar marcos normativos y estándares internacionales, como FAIR-R y Croissant.
  • Invertir en infraestructuras digitales y capacidad de cómputo adecuadas para la investigación con IA.
  • Fortalecer la capacitación en gestión de datos e inteligencia artificial.
  • Reconocer institucionalmente la labor de quienes trabajan en la preparación y curación de datos.
  • Garantizar la equidad y la inclusividad en las políticas sobre datos e IA, evitando que el acceso desigual a recursos tecnológicos aumente las brechas entre regiones y comunidades científicas.

Marcos de políticas de datos de investigación de revistas

“Journal Research Data Policy Frameworks – The Value of RDA for Policy”

Research Data Alliance. 2025. Journal Research Data Policy Frameworks: The Value of RDA for Policy. White Paper Series. Agosto. Research Data Alliance. https://www.rd-alliance.org/wp-content/uploads/2025/08/Journal_Research_Data_Policy_Frameworks_The-Value-of-RDA-for-Policy.pdf

“Journal Research Data Policy Frameworks – The Value of RDA for Policy” forma parte de la serie de white papers de la Research Data Alliance (RDA) y fue publicado en agosto de 2025. Surge de los talleres organizados en mayo del mismo año, cuyo objetivo era mostrar el impacto de las recomendaciones de la RDA en la formulación de políticas de investigación, particularmente en lo relativo a la gestión de datos en revistas académicas.

El Journal Research Data Policy Framework se presenta como una herramienta estandarizada para ayudar a revistas y editores a crear o mejorar sus políticas de datos. Este marco ofrece claridad sobre las expectativas de publicación, refuerza prácticas ya asentadas en diversas disciplinas y favorece la reproducibilidad, visibilidad y citación de los resultados científicos. Además, simplifica la implementación para los editores, al proporcionar una estructura común pero adaptable a las necesidades de cada área del conocimiento.

Su valor radica en que las políticas de datos en revistas integran normas consistentes dentro de las instrucciones para autores, alineándose con los requisitos de financiadores e instituciones en momentos clave del ciclo de investigación. Entre los beneficios que aporta destacan: la definición clara de cuándo y cómo compartir datos, la extensión de buenas prácticas disciplinares, el aumento del impacto científico gracias a la reutilización y revisión de datos, y la reducción de la carga administrativa al contar con un marco estándar y flexible.

El marco fue elaborado en 2020 por el Interest Group on Data Policy Standards for Journals de la RDA. Define 14 características de una política de datos y establece seis niveles de aplicación (tiers), desde los más básicos hasta los más exigentes, que incluyen requerimientos como la declaración de disponibilidad de datos, el uso de estándares reconocidos o la revisión por pares de los conjuntos de datos. Gracias a este enfoque escalonado, revistas de distintas disciplinas pueden adoptar políticas acordes a su madurez y contexto.

El white paper también recoge ejemplos de implementación en distintos entornos. En Eslovenia, el archivo de datos de ciencias sociales (ADP) adaptó el marco y desarrolló guías para revistas locales, lo que permitió impulsar la ciencia abierta a nivel nacional, aunque con dificultades iniciales de recursos y apoyo institucional. En el ámbito internacional, la asociación STM, que agrupa a editores científicos, técnicos y médicos, lo utilizó para diseñar políticas coherentes en áreas sensibles como salud y medicina, logrando mayor credibilidad y alineación con estándares globales. Finalmente, el proyecto BRIDGE en Francia, liderado por instituciones como IRD, INRAE y CIRAD, empleó el marco para armonizar la gestión de datos en unidades mixtas de investigación, desarrollando repositorios FAIR y guías prácticas que refuerzan la gobernanza de datos.

Las conclusiones del informe subrayan que el marco de la RDA es práctico, flexible y aplicable a distintos sectores, desde revistas académicas hasta instituciones farmacéuticas o colaboraciones internacionales. Su éxito depende de la adopción temprana, la consulta a todas las partes interesadas, el apoyo técnico e institucional y la evaluación continua de los resultados. Asimismo, se recomienda avanzar hacia políticas más exigentes (niveles 03 en adelante) para consolidar una cultura de datos abierta, reproducible y sostenible en la investigación científica.

Cómo puede la inteligencia artificial (IA) mejorar la gestión de datos de investigación?

Exploring How AI Can Help Research Data Management.” UC3 Blog, August 21, 2025. https://uc3.cdlib.org/2025/08/21/exploring-how-ai-can-help-research-data-management/

El artículo de UC3 explora cómo la inteligencia artificial (IA) puede mejorar la gestión de datos de investigación, enfocándose en tres áreas clave: la mejora de metadatos, la generación automatizada de planes de gestión de datos (DMPs) y la conexión de estos planes con los resultados de investigación

Mejora de metadatos con IA

UC3 utiliza IA para optimizar la calidad y escala de la curaduría de metadatos, especialmente en el Registro de Organizaciones de Investigación (ROR). La IA ayuda a transformar entradas de usuarios en salidas estructuradas y estandarizadas, acelerando el procesamiento de más de 1.000 solicitudes mensuales. Este enfoque híbrido combina la eficiencia de la IA con el juicio humano para mantener la calidad y coherencia de los datos.

Generación automatizada de DMPs con DMP Chef

UC3 está desarrollando «DMP Chef», una herramienta basada en modelos de lenguaje que permite a los investigadores generar borradores de DMPs a partir de descripciones simples de sus estudios. Actualmente, se está probando con plantillas del Instituto Nacional de la Salud (NIH), con planes de expandir a otras agencias como la Fundación Nacional de Ciencias (NSF). El objetivo es facilitar la creación de DMPs de alta calidad que los investigadores puedan personalizar según sus necesidades.uc3.cdlib.org

Conexión de DMPs con resultados de investigación

UC3 también está desarrollando herramientas para vincular automáticamente los DMPs con los resultados de investigación que describen, como conjuntos de datos, artículos y software. Estas conexiones mejoran la visibilidad y accesibilidad de los datos de investigación, facilitando su descubrimiento y uso por parte de la comunidad científica.

Alerta sobre los datos oficiales: las estadísticas federales de EE. UU. en riesgo

American Statistical Association. Assessing the Health of the Federal Statistical Agencies: The Nation’s Data at a Crossroads, Year Two Status Report. 2025. https://www.amstat.org/docs/default-source/amstat-documents/nations-data-at-crossroads.pdf

El informe ofrece una evaluación detallada y crítica del estado actual de las agencias estadísticas federales en Estados Unidos durante el año 2025. En él se señala que estas agencias, fundamentales para la recopilación y análisis de datos fiables, se encuentran en un momento decisivo. Se han registrado reducciones en la disponibilidad de datos, retrasos en la publicación de informes clave e incluso casos preocupantes de posible interferencia política. Estas circunstancias amenazan con erosionar no solo la objetividad real de las estadísticas federales, sino también la percepción pública de su imparcialidad. A pesar de estas advertencias, el informe sostiene que, por ahora, los usuarios pueden seguir confiando en los datos producidos por estas agencias.

El documento también subraya los desafíos estructurales que se ciernen sobre el futuro de la estadística federal: la caída en las tasas de respuesta a encuestas oficiales, la creciente desconfianza en las instituciones públicas, las restricciones presupuestarias crónicas, el auge de bases de datos privadas de calidad incierta y la pérdida de credibilidad de los expertos ante la opinión pública. Estos factores configuran un panorama complejo que pone en riesgo la continuidad y la credibilidad de programas estadísticos esenciales. Para contrarrestar este deterioro, el informe propone medidas urgentes, como una inversión decidida en infraestructuras estadísticas, una apuesta sostenida por la investigación y la innovación metodológica, y el firme compromiso político con los principios de integridad e independencia estadística. De no tomarse medidas inmediatas, Estados Unidos podría ver no solo el debilitamiento de sus programas estadísticos fundamentales, sino también la pérdida de su liderazgo internacional como referente en la producción de datos confiables y de alta calidad.

Una filtración revela los sitios web usados para entrenar modelos de Anthropic sin supervisión directa

Rollet, C. (2025, 23 de julio). Here’s the list of websites gig workers used to fine‑tune Anthropic’s AI models. Its contractor left it wide open. Business Insider. Recuperado de Business Insider: https://www.businessinsider.com/anthropic-surge-ai-leaked-list-sites-2025-7

Se ha publicado un documento interno, filtrado de Surge AI (contratista de Anthropic), que detallaba qué sitios web estaban permitidos y cuáles estaban prohibidos para el entrenamiento mediante fine‑tuning de modelos de IA. Esta hoja de cálculo estaba expuesta de forma pública en Google Drive hasta que fue eliminada tras la consulta de Business Insider

La hoja incluía más de 120 sitios autorizados, entre ellos fuentes de prestigio como Harvard, Mayo Clinic, Bloomberg, Cornell University o el New England Journal of Medicine. En cambio, se bloqueaban más de 50 fuentes comunes como The New York Times, The Wall Street Journal, Reddit, Wiley, Stanford University y Harvard Business Review.

Los trabajadores de Surge utilizaban estos sitios aprobados para realizar tareas de RLHF (Reinforcement Learning from Human Feedback): copiaban fragmentos de texto, pedían al modelo que los resumiera y seleccionaban las mejores respuestas. La hoja de cálculo se empleaba como guía tanto para contenidos permitidos como para evitar aquellos no autorizados.

Anthropic aseguró que no estaba al tanto del documento, afirmando que había sido creado de forma independiente por Surge. Surge, por su parte, declaró que la filtración fue un error y que ya tomó medidas para restringir el acceso a esos materiales.

Varias de las fuentes bloqueadas, como Reddit, han presentado acciones legales contra Anthropic o competidores, acusando uso de datos sin permiso. Aunque algunos argumentan que la RLHF podría entrar en uso justo, expertos legales advierten que esa distinción entre pre-entrenamiento y RLHF puede no ser significativa en tribunales. Además, este incidente se suma a ejemplos precedentes, como en Scale AI, donde se filtraron documentos internos similares al caer expuestos en Google Drive

Esta filtración revela cómo una empresa externa pudo influir directamente en qué fuentes alimentaron el entrenamiento de un modelo sofisticado, poniendo en evidencia vulnerabilidades en la seguridad de datos y decisiones de proveedores. El incidente refuerza el debate sobre la transparencia en las prácticas de entrenamiento de IA, el uso justo de datos web y el manejo responsable de información sensible por parte de terceros.