Archivo de la etiqueta: Lenguaje natural

Google plantea un nuevo buscador que proporcionará respuestas en lenguaje natural como si se tratara de un experto en la materia a partir de fuentes fiables y fidedignas.

Ejemplo de búsqueda en la web (izquierda), modelo lingüístico (centro) y respuestas de expertos (sistema previsto)

Metzler, D., Tay, Y., Bahri, D., & Najork, M. Rethinking Search: Making Experts out of Dilettantes. arXiv:2105.02274 [cs], 2021. http://arxiv.org/abs/2105.02274

Un nuevo artículo de cuatro investigadores de Google propone un sistema «experto» capaz de responder con autoridad a las preguntas de los usuarios en lugar de presentar una lista de posibles resultados de búsqueda, basado en el algoritmo GPT-3 presentado el año pasado. Este enfoque podría cambiar no sólo el funcionamiento de los motores de búsqueda, sino también lo que hacen, y la forma en que interactuamos con ellos.

El documento, titulado Rethinking Search: Making Experts out of Dilettantes, sugiere que la forma actual de presentar al usuario una lista de resultados de búsqueda en respuesta a una consulta es una «carga cognitiva», y propone mejoras en la capacidad de un sistema de procesamiento del lenguaje natural (PLN) para dar una respuesta autorizada y definitiva que sustituya el enfoque de clasificación por un modelo de respuesta experta en lenguaje de inteligencia artificial (IA).

La mayoría de los motores de búsqueda siguen funcionando de la misma manera que hace 20 años: las páginas web son indexadas por rastreadores (software que lee la web sin parar y mantiene una lista de todo lo que encuentra), los resultados que coinciden con la consulta de un usuario se recogen de este índice, y los resultados se clasifican por relevancia. Hasta ahora las búsquedas en Google se han basado en el algoritmo Page Rank para arrojar los resultados de búsqueda a partir de la calidad y cantidad de los enlaces que le dan otras páginas a una página determinada. El problema es que los motores de búsqueda actuales siguen respondiendo con una lista de documentos que incluyen la información solicitada, no con la información en sí, si no con una lista de referencias. Según Metzler, es como si pidieras consejo a tu médico y recibieras una lista de artículos para leer en lugar de una respuesta directa. Por ello, Google se está replanteando este método por el de una búsqueda basada en un nuevo algoritmo de lenguaje denominado GPT-3. El nuevo algoritmo extrae información de múltiples fuentes para responder a las preguntas en lenguaje natural. Lo que proporcionará al usuario de una búsqueda, no la lista de los resultados más relevantes como ocurre ahora, si no una respuesta en lenguaje natural como si se tratara de un experto en la materia a partir de fuentes fiables y fidedignas.

Metzler y sus colegas están interesados en un motor de búsqueda que se comporte como un experto humano «Debería producir respuestas en lenguaje natural, sintetizadas a partir de más de un documento, y respaldar sus respuestas con referencias a pruebas de apoyo, como pretenden hacer los artículos de Wikipedia». Y añade: «Cuando existe una necesidad de información, los usuarios desearían preguntar a un experto, pero a menudo recurren a un sistema de recuperación de información, como un motor de búsqueda. Los sistemas clásicos de recuperación de información no responden directamente a las necesidades de información, sino que proporcionan referencias a respuestas (que se espera sean autorizadas). Los sistemas de respuesta a preguntas de éxito ofrecen un corpus limitado creado a la carta por expertos humanos, que no es ni oportuno ni escalable». En cambio, los grandes modelos lingüísticos pre entrenados son capaces de generar directamente una prosa que puede responder a una necesidad de información, pero en la actualidad son más aficionados que expertos: no tienen una verdadera comprensión del mundo; y lo que es más importante, son incapaces de justificar sus enunciados haciendo referencia a documentos de apoyo en el corpus sobre el que fueron entrenados (ver imagen). El artículo examina cómo las ideas de la recuperación de información clásica y los grandes modelos lingüísticos pueden sintetizarse y evolucionar hacia sistemas que realmente cumplan la promesa del asesoramiento experto.

Aprendizaje de representación para el procesamiento del lenguaje natural.

Zhiyuan LiuYankai LinMaosong Sun. Representation Learning for Natural Language Processing. Berlin: Springer, 2020

Texto completo

PDF

ePub

Este libro de acceso abierto proporciona una visión general de los recientes avances en la teoría del aprendizaje de la representación, los algoritmos y las aplicaciones para el procesamiento del lenguaje natural (PNL). Está dividido en tres partes. La primera parte presenta las técnicas de aprendizaje de la representación para múltiples entradas en el lenguaje, incluyendo palabras, frases, oraciones y documentos. En la segunda parte se presentan las técnicas de representación para los objetos que están estrechamente relacionados con el PNL, incluidos los conocimientos mundiales basados en entidades, los conocimientos lingüísticos basados en sememas, las redes y las entradas intermodales. Por último, en la tercera parte se ofrecen herramientas de recursos abiertos para las técnicas de aprendizaje de la representación, y se examinan los problemas restantes y las orientaciones futuras de la investigación.

Las teorías y los algoritmos de aprendizaje de la representación que se presentan también pueden beneficiar a otros ámbitos conexos como el aprendizaje automático, el análisis de redes sociales, la web semántica, la recuperación de información, la minería de datos y la biología computacional. Este libro está destinado a estudiantes avanzados de licenciatura y posgrado, becarios de posdoctorado, investigadores, profesores e ingenieros industriales, así como a cualquier persona interesada en el aprendizaje de la representación y el procesamiento del lenguaje natural.

Elsevier OA CC-BY Corpus: 40.000 artículos abiertos y sus metadatos

 

how-parse-trees-work

Elsevier OA CC-BY Corpus

Noticia y corpus

 

Este es el primer corpus abierto de artículos de investigación científica que tiene una muestra representativa de todas las disciplinas científicas. Este corpus no solo incluye el texto completo del artículo, sino también los metadatos de los documentos, junto con la información bibliográfica de cada referencia.

Este conjunto de datos se publicó para respaldar el desarrollo de modelos de  aprendizaje automático (ML) y procesamiento del lenguaje natural (NLP)  dirigidos a artículos científicos de todos los dominios de investigación. Si bien la versión se basa en otros conjuntos de datos diseñados para dominios y tareas específicos, permitirá derivar conjuntos de datos similares o desarrollar modelos que se puedan aplicar y probar en todos los dominios.

La voz. La lengua hablada es patrimonio de la humanidad

telos111

 

La Voz. Telos 111. Fundación Telefónica, 2019

Texto completo

El número 111 de TELOS está dedicado a la voz. La lengua hablada es patrimonio de la humanidad y su poder se extiende a la tecnología, a las máquinas y a los robots. La tecnología, a su vez, nos permite recuperar y difundir los valores de las lenguas, muchas olvidadas e incluso maltratadas, para evitar que se pierdan definitivamente y puedan contribuir en cambio al desarrollo, la consolidación de la paz y la reconciliación, como señala la asamblea de Naciones Unidas en la proclamación de 2019 como el Año Internacional de las Lenguas Indígenas.La oralidad ha distinguido a los seres humanos desde el principio de sus días y hoy, al inicio de un cambio de era comandado por la tecnología, la voz recobra relevancia gracias a los sistemas de procesamiento del lenguaje natural, de la inteligencia artificial y de los asistentes virtuales con voz, capaces de interactuar con la lengua humana y de aprender de nosotros para entender –también las máquinas- el contexto en que vivimos.En la portada de este número aparece Juliana Rueda, maestra de música e ingeniera de sonido, es directora y propietaria del estudio de sonido miut, especializado en audiolibros y proyectos audiovisuales.