Archivo de la etiqueta: Big Data

El papel cambiante de los DATOS en la era de la IA

The evolving role of DATA in the AI era. David Worlock, 21 de septiembre de 2023 https://www.davidworlock.com/2023/09/the-evolving-role-of-data-in-the-ai-era/

Los datos son el pilar fundamental en la era de la IA. Su calidad, cantidad y diversidad son esenciales para el éxito y la efectividad de los sistemas de IA en una amplia gama de aplicaciones y sectores. La gestión adecuada de los datos, incluyendo la privacidad y la seguridad, es un aspecto crítico para aprovechar al máximo el potencial de la IA.

El evento «“The evolving role of DATA in the AI era “» se llevó a cabo el 18 de septiembre de 2023 en Leiden durante el Foro de la Fundación FAIR – CCC. La conferencia abordó cuestiones clave relacionadas con los datos en la era de la inteligencia artificial (IA) y exploró el enfoque de FAIR (Localizables, Accesibles, Interoperables y Reutilizables) en la gestión de datos científicos.

El evento comenzó con una declaración desafiante que enfatizaba la importancia de regular la IA correctamente para evitar que el futuro de la IA estuviera dominado por China. Esto estableció el tono para un día de discusiones significativas sobre el papel fundamental de los datos en la IA y cómo se pueden aprovechar mejor para el beneficio de la sociedad.

Se resaltó que, aunque un porcentaje considerable de científicos estaba familiarizado con FAIR y su objetivo de hacer que los datos sean más accesibles y utilizables, aún persiste la tendencia de presentar hallazgos científicos en narrativas tradicionales en lugar de priorizar la creación de datos en formatos y estructuras que las máquinas puedan comprender y utilizar. Se argumentó que en un mundo de IA, la inteligencia de las máquinas es esencial para aprovechar plenamente el conocimiento disponible.

Se discutió la necesidad de que los datos sean «FAIR por diseño» y se presentó la idea de la «nano publicación», que implicaba la identificación única y la codificación de afirmaciones y declaraciones, lo que permitiría una comunicación más efectiva y con indicadores de procedencia incorporados. Esta forma de comunicación se consideró como una posible evolución de la revisión por pares.

Se debatió intensamente sobre cómo incorporar la interoperabilidad de las máquinas desde el inicio del procesamiento de la comunicación, y se mencionó la experimentación con Editorial Manager para implantar la «nano publicación» en flujos de trabajo existentes. Se consideró esencial que FAIR se convierta en un proceso incrustado y protocolario, como TCP-IP, para lograr un cambio efectivo.

La última parte del evento se centró en el valor y el retorno de la inversión (ROI) de FAIR, destacando beneficios en costos, tiempo y otros factores. Se subrayó la importancia de garantizar la certeza en términos de identidad, procedencia, versiones y relaciones en un entorno donde el significado y la aceptación de los hallazgos científicos pueden cambiar con el tiempo.

En conclusión, el evento resaltó la importancia de los datos en la era de la IA y cómo FAIR está trabajando para mejorar la gestión de datos científicos para un beneficio más amplio. Se enfocó en la necesidad de una comunicación más efectiva con las máquinas y la importancia de abordar los desafíos regulatorios en la IA para aprovechar al máximo su potencial.

Se crea una herramienta de medición de CO2 para calcular las emisiones causadas por los datos digitales almacenados

«World First: Researchers Create CO2 Measurement Tool to Calculate Emissions Caused by Stored Digital Data». Newswise  Accedido 6 de junio de 2023.

Ver noticia

Un grupo de investigadores ha creado una herramienta de medición del CO2 que permite calcular las emisiones causadas por el almacenamiento de datos digitales. En un mundo en el que la cantidad de datos generados y almacenados en línea está en constante crecimiento, es crucial comprender el impacto ambiental de estas actividades.

La herramienta de medición del CO2 desarrollada por los investigadores podría ser útil para calcular y evaluar las emisiones de gases de efecto invernadero generadas por los centros de datos y la infraestructura digital. Esto puede ayudar a comprender mejor el impacto ambiental de las actividades digitales y fomentar la adopción de prácticas más sostenibles en la gestión de datos.

Se calcula que en 2025 los datos mundiales superarán los 180 zettabytes

  • La cantidad de datos digitales se duplica cada dos años
  • Una empresa típica impulsada por los datos que emplee a 100 trabajadores a tiempo completo generará aproximadamente 2.203 toneladas de emisiones de CO2 al año debido a los nuevos datos
  • La inclusión de la huella de CO2 de los datos es un factor crucial que falta en las políticas globales de descarbonización
  • Los centros de datos son responsables de entre el 2,5% y el 3,7% de todo el dióxido de carbono de origen humano. Más que la industria aeronáutica (2,1%)

Cada día, una persona media genera 10 DVD de datos a través de sus teléfonos, pulsómetros, correos electrónicos… cualquier cosa que utilice unos y ceros para procesar información. Todos estos bytes son recogidos por las empresas y almacenados en diversos centros de datos de todo el mundo. Se calcula que en 2025 habrá 180 zettabytes de datos almacenados, el equivalente a 6.800 millones de años de streaming continuo de Netflix.

Con esta herramienta, considerada la primera de su clase, las empresas pueden tomar decisiones basadas en datos que beneficien al medio ambiente y ahorren dinero al reducir la necesidad de compensar las emisiones de carbono. Sus creadores afirman que es la primera herramienta disponible públicamente que calcula la huella de CO2 de los datos a lo largo de todo su recorrido, desde el origen de un conjunto de datos hasta su uso final (por ejemplo, análisis de IA).

Bibliotecas digitales: La era del Big Data y la ciencia de datos

Ceci, Michelangelo, Stefano Ferilli, y Antonella Poggi, eds. Digital Libraries: The Era of Big Data and Data Science 16th Italian Research Conference on Digital Libraries, IRCDL 2020. Springer Nature, 2020.

Texto completo

PDF

ePub

Este libro constituye las actas exhaustivas de la 16ª Conferencia Italiana de Investigación sobre Bibliotecas Digitales, IRCDL 2020, celebrada en Bari, Italia, en enero de 2020. Las 12 ponencias completas y 6 breves presentadas fueron cuidadosamente seleccionadas entre 26 propuestas. Los artículos están organizados en secciones temáticas sobre recuperación de información, datos de licitación y ciencia de datos en DL; patrimonio cultural; ciencia abierta.

Datos masivos en bibliotecas

Voutssas Marquez, JuanDatos masivos en bibliotecas. México: Universidad Nacional Autónoma de México. Instituto de Investigaciones Bibliotecológicas y de la Información, 2022. 

Texto completo

En años recientes el fenómeno conocido como Big Data o Datos Masivos ha ido creciendo y hoy representa una herramienta nueva y válida en el análisis de información para la toma de decisiones en las organizaciones; entre ellas, las bibliotecas. Muchas nuevas actividades y proyectos pueden realizarse en las bibliotecas con esta metodología. Pero como todo avance tecnológico, éste tiene sus ventajas y desventajas, las cuales deben ser conocidas y estudiadas. Por lo mismo, es conveniente que el personal dedicado a la gestión de la información –especialmente en las bibliotecas– se introduzca en el conocimiento de esos conceptos, herramientas y procedimientos, ya que sin duda es un elemento de valor agregado tanto para la organización como para el personal que se dedica a esas actividades.

DataOps: una guía para todo el proceso de análisis de datos

«A Guide to DataOps | IEEE Computer Society». Accedido 24 de enero de 2023. https://www.computer.org/publications/tech-news/trends/what-is-dataops/.

DataOps es un conjunto de prácticas, procesos y tecnologías que combina una perspectiva integrada y orientada a los procesos de datos con la automatización y los métodos de la ingeniería de software ágil para mejorar la calidad, la velocidad y la colaboración y promover una cultura de mejora continua en el ámbito de la analítica de datos

Los datos impulsan todo lo que hacemos. Por este motivo, el análisis de datos se ha convertido en uno de los elementos más importantes de la programación, la ingeniería y las pruebas en todas las organizaciones. Pero las técnicas tradicionales de gestión de datos están fallando a las empresas al ser incapaces de hacer frente a conjuntos de datos enormemente complejos.

Es importante poder procesar estos conjuntos por su uso en la construcción de grandes sistemas técnicos como un mainframe de IBM, sobre el que se construyen muchos sistemas de uso generalizado.

La complejidad de los conjuntos de datos viene dada por su tamaño y diversidad, pero también por el tamaño y la diversidad geográfica y de experiencia de los equipos de tratamiento de datos. El crecimiento de los datos en la industria está provocando, paradójicamente, un caos que se traduce en el fracaso de los proyectos de datos.

Aquí es donde entran en juego las DataOps, como solución potencial al caos de los datos y al fracaso de los proyectos.

DataOps es un conjunto de prácticas y procesos definidos cuyo objetivo es situar los datos en el centro de la optimización fomentando la velocidad, la calidad y la colaboración en el análisis de datos.

Se puede considerar como una cultura o forma de trabajar, centrada en la comunicación entre diferentes profesionales de los datos y en la integración de diversas herramientas y principios de desarrollo en una forma cohesiva de procesar los datos.

DataOps es más que una única herramienta o método. Es un enfoque del procesamiento de datos que pretende reducir los errores y permitir que los sistemas gestionen grandes conjuntos de datos sin pérdidas.

DataOps presenta algunas ventajas clave que lo convierten en un enfoque eficaz para la gestión de datos:

  • Rapidez. Con la reducción de errores y el procesamiento eficaz de grandes conjuntos de datos, los equipos de datos pueden trabajar más rápido sin comprometer la calidad.
  • Fiabilidad. Los datos procesados tradicionalmente tienen un problema de fiabilidad, lo que significa que las decisiones y los proyectos basados en datos fallan en mayor medida que los realizados con técnicas DataOps.
  • Control. Cuando todo un equipo es capaz de trabajar en un conjunto de datos con diferentes herramientas sin comprometer los datos, tienen más control sobre los datos y su capacidad para procesarlos y manipularlos.
  • Colaboración: al utilizar herramientas de colaboración como un almacén de datos, varias personas pueden trabajar en el mismo conjunto de datos y aportar sus propios conocimientos y experiencia a esa información.

Investigación de datos del consumidor.

Cheshire, J., Longley, P., & Singleton, A. (2018). Consumer Data Research. UCL Press.

Texto completo

Los big data recopilados por organizaciones orientadas al cliente -como registros de teléfonos inteligentes, transacciones con tarjetas de fidelización de tiendas, billetes de viaje inteligentes, publicaciones en redes sociales o lecturas de contadores de energía inteligentes- representan la mayor parte de los datos recogidos sobre los ciudadanos en la actualidad. Como resultado, están transformando la práctica de las ciencias sociales.

Los macrodatos de consumo se distinguen de los datos convencionales de las ciencias sociales no sólo por su volumen, variedad y velocidad, sino también por su procedencia y adecuación a cada vez más fines de investigación. Los autores de este libro, todos ellos del Centro de Investigación de Datos de Consumo, ofrecen una primera exposición consolidada del enorme potencial de la investigación de datos de consumo en los sectores académico, comercial y gubernamental, así como una oportuna valoración de las formas en que los datos de consumo desafían las ortodoxias científicas.

Big Data en salud digital

Big Data en salud digital” a Fundación Vodafone España y Red.es. 2017

Texto completo

Big data se basa en el procesamiento, análisis y visualización de grandes bases de datos, no necesariamente estructuradas, para la toma de decisiones. Este enfoque, relativamente reciente, está adquiriendo una gran relevancia gracias a la acumulación masiva de datos favorecida por la implantación generalizada de las tecnologías de la información y la comunicación.

Concretamente, 2002 fue el año en que el volumen de información digitalizada superó por primera vez la cantidad de información almacenada de forma analógica y puede ser considerado, por tanto, como el inicio de la era digital de la información (Hilbert, 2011). Actualmente, sobre todo desde la generalización del uso de las redes sociales y los smartphones, esta cantidad de información digitalizada crece de forma exponencial. Algunos sectores, como el comercial y financiero, han sido los principales impulsores de esta tecnología, teniendo a las grandes empresas tecnológicas como las principales pioneras. Éstas integran de forma estratégica en su negocio los avances y descubrimientos que van realizando, a los que, de forma pública, se tiene difícil acceso. Por otro lado, los datos relacionados con la salud también han estado siguiendo esta tendencia.

Así, gracias a Internet, la popularización de los smartphones y la aparición de multitud de sensores y redes sociales, los datos masivos, que incluyen no sólo registros clínicos y operacionales sino también texto, audio o vídeo y multitud de registros biométricos, son susceptibles de ser analizados para proporcionar información nueva y útil para los sistemas de salud.

En este sentido, Big Data abre una nueva era para mejorar la prestación de servicios de salud. Se abren nuevas oportunidades, tanto para el diagnóstico y el tratamiento de multitud de problemas de salud y la capacidad, aún incipiente, de proporcionar nuevos servicios personalizados mediante su detección en tiempo real y la adecuación de los tratamientos desde una perspectiva hipersegmentada.

Ciencia de los datos, computación centrada en el ser humano y tecnologías inteligentes

Hajian, Aram, et al., editores. Data Science, Human-Centered Computing, and Intelligent Technologies. Logos Verlag Berlin, 2022.

Texto completo

En agosto de 2022, investigadores y desarrolladores de Armenia, Chile, Alemania y Japón se reunieron en la Universidad Americana de Armenia para la tercera edición del Taller CODASSCA sobre Tecnologías Colaborativas y Ciencia de Datos en Aplicaciones de Ciudades Inteligentes, coorganizado con una Escuela de Verano sobre Redes Neuronales Artificiales y Aprendizaje Profundo. Este libro presenta sus contribuciones sobre tecnologías inteligentes en ciencia de datos y computación centrada en el ser humano.

Los datos están en todas partes, pero convertirlos en información no es gratis.

Los datos están en todas partes, pero convertirlos en información no es gratis. Requiere concentración, esfuerzo, consulta y tiempo.

Seth Godin «Data, information and decisions Data is everywhere, but turning it into information isn’t free».

https://seths.blog/

Más información sólo es útil si te ayuda a tomar una decisión. Saber la temperatura de Saturno no es útil. Saberla con más precisión aún es menos útil. Eso es porque no tomamos ninguna decisión que tenga que ver con la temperatura de otro planeta.

Estamos rodeados de datos que nuestras hojas de cálculo o redes o cohortes parecen querer que conozcamos. Cuánta gente hizo clic ayer, o lo que alguien escribió en un comentario, lo que vendió un libro de la lista de éxitos o el tráfico de personas en esa tienda frente a esta otra.

Pero si no vas a utilizar los datos para tomar una decisión, no inviertas el tiempo en exponerte a ellos. Es la resistencia en el trabajo.

Si no puedes hacer nada con los datos, nunca serán información.

Big Data. Hablemos de datos

Big Data. Hablemos de datos. Madrid: Fundación Telefónica, 2022

Texto completo

El reto del big data consiste en poder gestionar la avalancha de información en bruto que nos rodea para darle una utilidad, debido a que en esta era es fundamental tener claro cuál es la importancia de los datos. La data science es una disciplina basada en métodos matemáticos, estadísticos y de programación informática, que permite responder a preguntas relacionadas con la estrategia de una empresa u organización.