Archivo de la etiqueta: Lenguaje natural

Amazon presenta el modelo de inteligencia artificial de texto a voz más grande jamás creado

Łajszczak, Mateusz, Guillermo Cámbara, Yang Li, Fatih Beyhan, Arent van Korlaar, Fan Yang, Arnaud Joly, et al. «BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data». arXiv, 15 de febrero de 2024. https://doi.org/10.48550/arXiv.2402.08093.

Un equipo de investigadores de inteligencia artificial en Amazon AGI anunció el desarrollo de lo que describen como el modelo de texto a voz más grande jamás creado. Por «más grande», se refieren a tener la mayor cantidad de parámetros y utilizar el conjunto de datos de entrenamiento más grande. Han publicado un artículo en el servidor de preimpresión arXiv describiendo cómo se desarrolló y entrenó el modelo.

Los LLMs (modelos de lenguaje de largo alcance) como ChatGPT han llamado la atención por su capacidad parecida a la humana para responder preguntas inteligentemente y crear documentos de alto nivel. Pero la IA todavía está abriéndose paso en otras aplicaciones convencionales también. En este nuevo esfuerzo, los investigadores intentaron mejorar la capacidad de una aplicación de texto a voz aumentando su número de parámetros y agregando a su base de entrenamiento.

El nuevo modelo, llamado Big Adaptive Streamable TTS with Emergent abilities (BASE TTS para abreviar), tiene 980 millones de parámetros y fue entrenado utilizando 100.000 horas de voz grabada (encontrada en sitios públicos), la mayoría de las cuales estaba en inglés. El equipo también le dio ejemplos de palabras y frases habladas en otros idiomas para permitir que el modelo pronunciara correctamente frases conocidas cuando las encuentre, como «au contraire», por ejemplo, o «adiós, amigo».

El equipo en Amazon también probó el modelo en conjuntos de datos más pequeños, con la esperanza de aprender dónde desarrolla lo que se ha conocido en el campo de la IA como una calidad emergente, en la que una aplicación de IA, ya sea un LLM o una aplicación de texto a voz, parece repentinamente alcanzar un nivel más alto de inteligencia. Descubrieron que para su aplicación, un conjunto de datos de tamaño mediano fue donde ocurrió el salto a un nivel más alto, a 150 millones de parámetros.

También señalaron que el salto involucraba una serie de atributos lingüísticos, como la capacidad de usar sustantivos compuestos, expresar emociones, usar palabras extranjeras, aplicar paralingüística y puntuación, y hacer preguntas con énfasis en la palabra correcta en una oración.

El equipo dice que BASE TTS no será lanzado al público, temen que pueda ser utilizado de manera poco ética, en cambio, planean usarlo como una aplicación de aprendizaje. Esperan aplicar lo que han aprendido hasta ahora para mejorar la calidad de sonido humano de las aplicaciones de texto a voz en general.

Google plantea un nuevo buscador que proporcionará respuestas en lenguaje natural como si se tratara de un experto en la materia a partir de fuentes fiables y fidedignas.

Ejemplo de búsqueda en la web (izquierda), modelo lingüístico (centro) y respuestas de expertos (sistema previsto)

Metzler, D., Tay, Y., Bahri, D., & Najork, M. Rethinking Search: Making Experts out of Dilettantes. arXiv:2105.02274 [cs], 2021. http://arxiv.org/abs/2105.02274

Un nuevo artículo de cuatro investigadores de Google propone un sistema «experto» capaz de responder con autoridad a las preguntas de los usuarios en lugar de presentar una lista de posibles resultados de búsqueda, basado en el algoritmo GPT-3 presentado el año pasado. Este enfoque podría cambiar no sólo el funcionamiento de los motores de búsqueda, sino también lo que hacen, y la forma en que interactuamos con ellos.

El documento, titulado Rethinking Search: Making Experts out of Dilettantes, sugiere que la forma actual de presentar al usuario una lista de resultados de búsqueda en respuesta a una consulta es una «carga cognitiva», y propone mejoras en la capacidad de un sistema de procesamiento del lenguaje natural (PLN) para dar una respuesta autorizada y definitiva que sustituya el enfoque de clasificación por un modelo de respuesta experta en lenguaje de inteligencia artificial (IA).

La mayoría de los motores de búsqueda siguen funcionando de la misma manera que hace 20 años: las páginas web son indexadas por rastreadores (software que lee la web sin parar y mantiene una lista de todo lo que encuentra), los resultados que coinciden con la consulta de un usuario se recogen de este índice, y los resultados se clasifican por relevancia. Hasta ahora las búsquedas en Google se han basado en el algoritmo Page Rank para arrojar los resultados de búsqueda a partir de la calidad y cantidad de los enlaces que le dan otras páginas a una página determinada. El problema es que los motores de búsqueda actuales siguen respondiendo con una lista de documentos que incluyen la información solicitada, no con la información en sí, si no con una lista de referencias. Según Metzler, es como si pidieras consejo a tu médico y recibieras una lista de artículos para leer en lugar de una respuesta directa. Por ello, Google se está replanteando este método por el de una búsqueda basada en un nuevo algoritmo de lenguaje denominado GPT-3. El nuevo algoritmo extrae información de múltiples fuentes para responder a las preguntas en lenguaje natural. Lo que proporcionará al usuario de una búsqueda, no la lista de los resultados más relevantes como ocurre ahora, si no una respuesta en lenguaje natural como si se tratara de un experto en la materia a partir de fuentes fiables y fidedignas.

Metzler y sus colegas están interesados en un motor de búsqueda que se comporte como un experto humano «Debería producir respuestas en lenguaje natural, sintetizadas a partir de más de un documento, y respaldar sus respuestas con referencias a pruebas de apoyo, como pretenden hacer los artículos de Wikipedia». Y añade: «Cuando existe una necesidad de información, los usuarios desearían preguntar a un experto, pero a menudo recurren a un sistema de recuperación de información, como un motor de búsqueda. Los sistemas clásicos de recuperación de información no responden directamente a las necesidades de información, sino que proporcionan referencias a respuestas (que se espera sean autorizadas). Los sistemas de respuesta a preguntas de éxito ofrecen un corpus limitado creado a la carta por expertos humanos, que no es ni oportuno ni escalable». En cambio, los grandes modelos lingüísticos pre entrenados son capaces de generar directamente una prosa que puede responder a una necesidad de información, pero en la actualidad son más aficionados que expertos: no tienen una verdadera comprensión del mundo; y lo que es más importante, son incapaces de justificar sus enunciados haciendo referencia a documentos de apoyo en el corpus sobre el que fueron entrenados (ver imagen). El artículo examina cómo las ideas de la recuperación de información clásica y los grandes modelos lingüísticos pueden sintetizarse y evolucionar hacia sistemas que realmente cumplan la promesa del asesoramiento experto.

Aprendizaje de representación para el procesamiento del lenguaje natural.

Zhiyuan LiuYankai LinMaosong Sun. Representation Learning for Natural Language Processing. Berlin: Springer, 2020

Texto completo

PDF

ePub

Este libro de acceso abierto proporciona una visión general de los recientes avances en la teoría del aprendizaje de la representación, los algoritmos y las aplicaciones para el procesamiento del lenguaje natural (PNL). Está dividido en tres partes. La primera parte presenta las técnicas de aprendizaje de la representación para múltiples entradas en el lenguaje, incluyendo palabras, frases, oraciones y documentos. En la segunda parte se presentan las técnicas de representación para los objetos que están estrechamente relacionados con el PNL, incluidos los conocimientos mundiales basados en entidades, los conocimientos lingüísticos basados en sememas, las redes y las entradas intermodales. Por último, en la tercera parte se ofrecen herramientas de recursos abiertos para las técnicas de aprendizaje de la representación, y se examinan los problemas restantes y las orientaciones futuras de la investigación.

Las teorías y los algoritmos de aprendizaje de la representación que se presentan también pueden beneficiar a otros ámbitos conexos como el aprendizaje automático, el análisis de redes sociales, la web semántica, la recuperación de información, la minería de datos y la biología computacional. Este libro está destinado a estudiantes avanzados de licenciatura y posgrado, becarios de posdoctorado, investigadores, profesores e ingenieros industriales, así como a cualquier persona interesada en el aprendizaje de la representación y el procesamiento del lenguaje natural.

Elsevier OA CC-BY Corpus: 40.000 artículos abiertos y sus metadatos

 

how-parse-trees-work

Elsevier OA CC-BY Corpus

Noticia y corpus

 

Este es el primer corpus abierto de artículos de investigación científica que tiene una muestra representativa de todas las disciplinas científicas. Este corpus no solo incluye el texto completo del artículo, sino también los metadatos de los documentos, junto con la información bibliográfica de cada referencia.

Este conjunto de datos se publicó para respaldar el desarrollo de modelos de  aprendizaje automático (ML) y procesamiento del lenguaje natural (NLP)  dirigidos a artículos científicos de todos los dominios de investigación. Si bien la versión se basa en otros conjuntos de datos diseñados para dominios y tareas específicos, permitirá derivar conjuntos de datos similares o desarrollar modelos que se puedan aplicar y probar en todos los dominios.

La voz. La lengua hablada es patrimonio de la humanidad

telos111

 

La Voz. Telos 111. Fundación Telefónica, 2019

Texto completo

El número 111 de TELOS está dedicado a la voz. La lengua hablada es patrimonio de la humanidad y su poder se extiende a la tecnología, a las máquinas y a los robots. La tecnología, a su vez, nos permite recuperar y difundir los valores de las lenguas, muchas olvidadas e incluso maltratadas, para evitar que se pierdan definitivamente y puedan contribuir en cambio al desarrollo, la consolidación de la paz y la reconciliación, como señala la asamblea de Naciones Unidas en la proclamación de 2019 como el Año Internacional de las Lenguas Indígenas.La oralidad ha distinguido a los seres humanos desde el principio de sus días y hoy, al inicio de un cambio de era comandado por la tecnología, la voz recobra relevancia gracias a los sistemas de procesamiento del lenguaje natural, de la inteligencia artificial y de los asistentes virtuales con voz, capaces de interactuar con la lengua humana y de aprender de nosotros para entender –también las máquinas- el contexto en que vivimos.En la portada de este número aparece Juliana Rueda, maestra de música e ingeniera de sonido, es directora y propietaria del estudio de sonido miut, especializado en audiolibros y proyectos audiovisuales.