Archivo de la etiqueta: Aprendizaje automático

New York Times está utilizando Google Cloud para encontrar historias no contadas en millones de fotos archivadas

 

morgue7.max-2200x2200-1

 

Sam Greenfield. Picture what the cloud can do: How the New York Times is using Google Cloud to find untold stories in millions of archived photos. Google Cloud Blog, 2019

Ver completo

Durante más de 100 años, The Times ha archivado aproximadamente de cinco a siete millones de sus fotos antiguas en cientos de archivadores tres pisos debajo del nivel de la calle cerca de sus oficinas de Times Square en un lugar llamado “morgue”. Muchas de las fotos han sido almacenadas en carpetas y no se habían visto en años. Aunque un catálogo de tarjetas proporciona una visión general del contenido del archivo, hay muchos detalles en las fotos que no se capturan en forma indexada.

El depósito contiene fotos de finales del siglo XIX, y muchos de sus contenidos tienen un gran valor histórico, algunos que no se almacenan en ningún otro lugar del mundo. En 2015, una tubería rota inundó la biblioteca de archivos, poniendo en riesgo toda la colección. Afortunadamente, solo se causaron daños menores, pero el evento planteó la pregunta: ¿cómo pueden almacenarse de manera segura algunos de los activos físicos más preciados de la compañía?

Google Cloud se ha asociado con The New York Times para ayudarlos a digitalizar su vasta colección de fotos. Está haciendo uso de numerosas herramientas dentro de Google Cloud Platform que les permiten almacenar de forma segura sus imágenes, proporcionarles una mejor interfaz para encontrar fotos y encontrar nuevos conocimientos incluso de los datos que aparecen en el reverso de las imágenes. No solo las imágenes de las fotos contienen información valiosa. En muchos casos, el reverso de las fotos incluye la hora y el lugar donde se tomó la foto.

Para preservar esta historia invaluable, y para darle a The Times la capacidad de mejorar sus informes con una historia visual y un contexto histórico aún más, The Times está digitalizando su archivo, utilizando Cloud Storage para almacenar escaneos de alta resolución de todas las imágenes del archivo.

Cloud Storage es un sistema duradero para almacenar objetos, y proporciona a los clientes como The Times una gestión automática del ciclo de vida, almacenamiento en regiones geográficamente distintas y una interfaz de administración y API fáciles de usar. Simplemente almacenar imágenes de alta resolución no es suficiente para crear un sistema que los editores de fotos puedan usar fácilmente. Un sistema de gestión de activos que funcione debe permitir que los usuarios puedan navegar y buscar fotos fácilmente. The Timesconstruyó una tubería de procesamiento que almacena y procesa las fotos y utilizará tecnología en la nube para procesar y reconocer texto, escritura a mano.

Así es como funciona. Una vez que una imagen se ingresa en el almacenamiento en la nube, The Times usa Cloud Pub / Sub para iniciar la canalización de procesamiento para realizar varias tareas. Las imágenes se redimensionan a través de servicios que se ejecutan en Google Kubernetes Engine (GKE) y los metadatos de la imagen se almacenan en una base de datos PostgreSQL que se ejecuta en Cloud SQL , la oferta de base de datos está totalmente administrada de Google.

En el caso de The Times, uno de los mayores desafíos en el escaneo de su archivo fotográfico ha sido agregar datos sobre el contenido de las imágenes. La API de Cloud Vision puede ayudar a llenar ese vacío. Si la parte posterior de las fotos contiene una gran cantidad de información útil, la API de Cloud Vision puede ayudarnos a procesarla, almacenarla y leerla. Este es solo el comienzo de lo que es posible para las empresas con archivos físicos. Pueden usar la API de Vision para identificar objetos, lugares e imágenes.

La API de lenguaje natural en la nube podría usarse para agregar información semántica adicional al texto reconocido. Por ejemplo, si pasamos el texto “The New York Time THE WAY IT WAY – Crowded Penn Station en 1942, una era en la que solo los valientes volaban – a Washington, Miami y varias estaciones de ruta” a través de Cloud Natural Language API, identifica correctamente “Penn Station”, “Washington” y “Miami” como ubicaciones, y clasifica la oración completa en la categoría “viajes” y la subcategoría “autobús y ferrocarril”. Es decir, utiliza un sistema de aprendizaje automático para obtener información adicional, de modo que es capaz a través de los datos obtenidos en la foto y de los contenidos en el sistema o web datos sobre la imagen que no estaban recogidos en la foto original a través de los datos masivos y la inteligencia artificial.

 

Inteligencia artificial y aprendizaje automático en bibliotecas

51czkfcxw-l._sx258_bo1204203200_

 

Griffey, JasonM ed. ‘Artificial Intelligence and Machine Learning in Libraries,”. Library Technology Reports (vol. 55, no. 1), 2019

Texto completo

 

En este número de Library Technology Reports se sostiene que el futuro cercano del trabajo en las bibliotecas se verá enormemente afectado y quizás cambie para siempre como resultado de que la inteligencia artificial (IA) y los sistemas de aprendizaje automático se conviertan en algo común. Lo hará a través de ensayos sobre la teoría y las predicciones del futuro de estos sistemas en las bibliotecas y también a través de ensayos sobre los acontecimientos actuales y los sistemas que se están desarrollando actualmente en y para las bibliotecas. Una variedad de bibliotecarios discutirán sus propios proyectos de IA y aprendizaje automático, cómo implementaron la IA y con qué fines, y qué ven como útil para el futuro de las bibliotecas al considerar los sistemas y servicios de IA. Este informe concluye con una discusión sobre las posibilidades y potenciales de usar la IA en las bibliotecas y la biblioteconomía.

 

 

 

Ciencia de Datos, Aprendizaje automático e Inteligencia Artificial en Bibliotecas

 

machine-learning-and-ai-libraries

 

Padilla, Thomas.  “Responsible Operations: Data Science, Machine Learning, and AI in Libraries”. Ohio: OCLC Research, 2019

Texto completo

El informe tiene por objeto ayudar a trazar el compromiso de la comunidad bibliotecaria con la ciencia de datos, el aprendizaje automático y la inteligencia artificial (IA), y fue desarrollado en asociación con un grupo asesor compuesto por más de 70 bibliotecarios y profesionales de universidades, bibliotecas, museos, archivos y otras organizaciones.

Esta agenda de investigación presenta un conjunto interdependiente de desafíos técnicos, organizativos y sociales que deben abordarse en el camino hacia el compromiso de la biblioteca con la gestión de los datos de investigación, el aprendizaje automático y la inteligencia artificial.

Los desafíos se organizan en siete áreas de investigación:

  • Compromiso con las operaciones responsables
  • Descripción y descubrimiento
  • Métodos y datos compartidos
  • Colecciones de Máquinas-Accionables
  • Desarrollo de la Fuerza Laboral
  • Servicios de ciencias de la información
  • Mantener la colaboración interprofesional e interdisciplinaria

Las organizaciones pueden utilizar el informe para argumentar a favor de abordar los desafíos, y las recomendaciones proporcionan un excelente punto de partida para la discusión y la acción.

 

Aprendizaje automático: una máquina lee 3.5 millones de libros para caracterizar los adjetivos asociados a hombres y mujeres

medium_jsrnhtviwvejrnvmer-gfv20pekaqivvqa3p7akuqxw

Alexander Hoyle , Lawrence Wolf-Sonkin , Hanna Wallach , Isabelle Augenstein , Ryan Cotterell. Unsupervised Discovery of Gendered Language through Latent-Variable Modeling. In Proceedings of the Annual Meeting of the Association for Computational Linguistics, 2019

Texto completo

 

Estudiar en qué medida el lenguaje que utilizamos es específico de género ha sido durante mucho tiempo un área de interés en sociolingüística. En este trabajo se analiza este fenómeno, para cuantificar el grado en que el lenguaje utilizado para describir a hombres y mujeres es diferente, y además, diferente de manera positiva o negativa. Encontramos que existen diferencias significativas entre la forma en que se describen los sustantivos masculinos y femeninos, lo que está en consonancia con los estereotipos de género más comunes: Los adjetivos positivos usados para describir a las mujeres tienen más probabilidades de estar relacionados con el cuerpo de una persona que los adjetivos que describen a los hombres.

 

Una máquina leyó 3.5 millones de libros y luego contó lo que pensaba sobre hombres y mujeres para descubrir que los adjetivos atribuidos a las mujeres tienden a describir la apariencia física, mientras que las palabras que se refieren al comportamiento se atribuyen a los hombres.

“Hermoso” y “sexy” son dos de los adjetivos más utilizados para describir a las mujeres. Los descriptores de uso común para los hombres incluyen justos, racionales y valientes.

Los investigadores revisaron una enorme cantidad de libros en un esfuerzo por descubrir si hay una diferencia entre los tipos de palabras que describen a hombres y mujeres en la literatura. Utilizando un nuevo modelo de computadora, los investigadores analizaron un conjunto de datos de 3.5 millones de libros, todos publicados en inglés entre 1900 y 2008. Los libros incluyen una mezcla de literatura de ficción y no ficción.

Podemos ver claramente que las palabras utilizadas para las mujeres se refieren mucho más a sus apariencias que las palabras utilizadas para describir a los hombres. Por lo tanto, hemos podido confirmar una percepción generalizada, solo que ahora a nivel estadístico ”, dice la científica informática y profesora asistente Isabelle Augenstein, del departamento de informática de la Universidad de Copenhague.

En la frontera del aprendizaje automático

 

43995052035_56d7d1d07c_o_d

The Frontiers of Machine Learning: Raymond and Beverly Sackler U.S.-U.K. Scientific Forum. Washington DC, National Academy of Sciences, 2018.

Texto completo

El campo del aprendizaje automático continúa avanzando a un ritmo acelerado debido al aumento de la potencia de cálculo, mejores algoritmos y herramientas, y una mayor disponibilidad de datos. El aprendizaje automático ahora se utiliza en una variedad de aplicaciones, incluido el transporte y el desarrollo de vehículos automáticos, la atención médica y la comprensión de la base genética de las enfermedades, y la justicia penal y la predicción de la reincidencia. A medida que avanza la tecnología, promete aplicaciones adicionales que pueden contribuir al bienestar individual y social.

 

 

 

Aprendizaje automático, mejores prácticas

43620129672_997aa34c1c_o_d

Nevala, K. (2018). [e-Book] The Machine Learning Primer: A SAS Best Practices E-Book, SAS, 2018.

Texto completo

Con la llegada de los grandes datos, tanto la cantidad de datos disponibles como nuestra capacidad para procesarlo ha aumentado exponencialmente. La capacidad de las máquinas para aprender ha aumentado proporcionalmente. Con toda la atención puesta en el aprendizaje automático, muchos están buscando una mejor comprensión de este tema candente y de los beneficios que podría proporcionar a sus organizaciones. El aprendizaje automático -así como el aprendizaje profundo, el procesamiento del lenguaje natural y la computación cognitiva- están impulsando innovaciones en la identificación de imágenes, la personalización de campañas de marketing, la genómica y la navegación en el automóvil autopropulsado. Este libro proporciona una introducción a estas técnicas innovadoras, así como 10 buenas prácticas y una lista de comprobación para la preparación para el aprendizaje automático.

Los procesos que las máquinas utilizan para aprender se conocen como algoritmos. Diferentes algoritmos aprenden de diferentes maneras. A medida que se proporcionan nuevos datos sobre las respuestas observadas o los cambios en el entorno a la “máquina”, el rendimiento del algoritmo mejora. Esto resulta en un aumento de la “inteligencia” con el tiempo. Un algoritmo de aprendizaje de una máquina es totalmente dependiente en los datos a los que está expuesto. Modificar los datos, modificar el resultado

El aprendizaje automático puede identificar oportunidades no identificadas previamente o problemas por resolver. Pero la máquina no es autónomamente creativa. El la máquina no desarrollará espontáneamente nuevas hipótesis a partir de hechos (datos) no como prueba. Tampoco puede la máquina determinar una nueva forma de responder a estímulos emergentes.

¿Cuáles son los beneficios y riesgos del desarrollo de la inteligencia artificial?

https3a2f2fblogs-images-forbes-com2frobertadams2ffiles2f20162f032fartificial-intelligence-is-it-dangerous-1200x1000

Risks and rewards: Scenarios around the economic impact of machine learning. [Report] The Economist, Intelligence Unit y Google, 2018.

Texto completo

Existe cierta incertidumbre en torno a los avances de la inteligencia artificial (IA) y uno de sus principales subconjuntos, el aprendizaje automático, de lo que sugiere el debate actual, en particular con respecto al impacto de la tecnología en la sociedad y la economía. Sin duda, los avances han sido increíbles y los defensores tienen razón al destacarlos. Sin embargo, no todo el mundo ve esto como un bien. De hecho, existe una gran preocupación por el hecho de que la IA represente una amenaza para el empleo, la privacidad y, con el tiempo, incluso para la humanidad.

El problema es que ambos bandos -los partidarios de la IA y sus oponentes, los partidarios y los detractores- a menudo utilizan la hipérbole para promover su punto de vista. Como resultado, gran parte del debate actual sobre IA se ha convertido en una propuesta de uno u otro tipo. O bien conducirá inexorablemente hacia un futuro utópico o será la causa de nuestra desaparición.

La verdad probablemente se encuentra en algún punto intermedio y The Economist Intelligence Unit, con el patrocinio de Google, ha llevado a cabo una investigación para identificar el punto medio mediante el desarrollo de escenarios cuantitativos y cualitativos sobre el impacto del aprendizaje automático para un número selecto de países e industrias. Los resultados se basan en modelos econométricos, investigación documental y entrevistas con expertos académicos e industriales.