Archivo de la etiqueta: Recuperación de la información

Google plantea un nuevo buscador que proporcionará respuestas en lenguaje natural como si se tratara de un experto en la materia a partir de fuentes fiables y fidedignas.

Ejemplo de búsqueda en la web (izquierda), modelo lingüístico (centro) y respuestas de expertos (sistema previsto)

Metzler, D., Tay, Y., Bahri, D., & Najork, M. Rethinking Search: Making Experts out of Dilettantes. arXiv:2105.02274 [cs], 2021. http://arxiv.org/abs/2105.02274

Un nuevo artículo de cuatro investigadores de Google propone un sistema “experto” capaz de responder con autoridad a las preguntas de los usuarios en lugar de presentar una lista de posibles resultados de búsqueda, basado en el algoritmo GPT-3 presentado el año pasado. Este enfoque podría cambiar no sólo el funcionamiento de los motores de búsqueda, sino también lo que hacen, y la forma en que interactuamos con ellos.

El documento, titulado Rethinking Search: Making Experts out of Dilettantes, sugiere que la forma actual de presentar al usuario una lista de resultados de búsqueda en respuesta a una consulta es una “carga cognitiva”, y propone mejoras en la capacidad de un sistema de procesamiento del lenguaje natural (PLN) para dar una respuesta autorizada y definitiva que sustituya el enfoque de clasificación por un modelo de respuesta experta en lenguaje de inteligencia artificial (IA).

La mayoría de los motores de búsqueda siguen funcionando de la misma manera que hace 20 años: las páginas web son indexadas por rastreadores (software que lee la web sin parar y mantiene una lista de todo lo que encuentra), los resultados que coinciden con la consulta de un usuario se recogen de este índice, y los resultados se clasifican por relevancia. Hasta ahora las búsquedas en Google se han basado en el algoritmo Page Rank para arrojar los resultados de búsqueda a partir de la calidad y cantidad de los enlaces que le dan otras páginas a una página determinada. El problema es que los motores de búsqueda actuales siguen respondiendo con una lista de documentos que incluyen la información solicitada, no con la información en sí, si no con una lista de referencias. Según Metzler, es como si pidieras consejo a tu médico y recibieras una lista de artículos para leer en lugar de una respuesta directa. Por ello, Google se está replanteando este método por el de una búsqueda basada en un nuevo algoritmo de lenguaje denominado GPT-3. El nuevo algoritmo extrae información de múltiples fuentes para responder a las preguntas en lenguaje natural. Lo que proporcionará al usuario de una búsqueda, no la lista de los resultados más relevantes como ocurre ahora, si no una respuesta en lenguaje natural como si se tratara de un experto en la materia a partir de fuentes fiables y fidedignas.

Metzler y sus colegas están interesados en un motor de búsqueda que se comporte como un experto humano “Debería producir respuestas en lenguaje natural, sintetizadas a partir de más de un documento, y respaldar sus respuestas con referencias a pruebas de apoyo, como pretenden hacer los artículos de Wikipedia”. Y añade: “Cuando existe una necesidad de información, los usuarios desearían preguntar a un experto, pero a menudo recurren a un sistema de recuperación de información, como un motor de búsqueda. Los sistemas clásicos de recuperación de información no responden directamente a las necesidades de información, sino que proporcionan referencias a respuestas (que se espera sean autorizadas). Los sistemas de respuesta a preguntas de éxito ofrecen un corpus limitado creado a la carta por expertos humanos, que no es ni oportuno ni escalable”. En cambio, los grandes modelos lingüísticos pre entrenados son capaces de generar directamente una prosa que puede responder a una necesidad de información, pero en la actualidad son más aficionados que expertos: no tienen una verdadera comprensión del mundo; y lo que es más importante, son incapaces de justificar sus enunciados haciendo referencia a documentos de apoyo en el corpus sobre el que fueron entrenados (ver imagen). El artículo examina cómo las ideas de la recuperación de información clásica y los grandes modelos lingüísticos pueden sintetizarse y evolucionar hacia sistemas que realmente cumplan la promesa del asesoramiento experto.

Motores de búsqueda: una mecánica de técnicas algorítmicas

Rieder, B. [e-Book] Engines of Order : A Mechanology of Algorithmic Techniques, Amsterdam University Press, 2020.

Texto completo

El software se ha convertido en un componente clave de la vida contemporánea y los algoritmos que ordenan, clasifican o recomiendan están por todas partes. Partiendo de la filosofía de Gilbert Simondon y de la tradición de las técnicas culturales, este libro examina el carácter constructivo y acumulativo del software y recorre las trayectorias históricas de una serie de técnicas algorítmicas que se han convertido en los bloques de construcción de las prácticas contemporáneas de ordenación. Desarrolladas en oposición a siglos de tradición bibliotecaria, estas técnicas instancian formas de conocimiento dinámicas, perspectivistas e interesadas. Incrustadas en infraestructuras técnicas y lógicas económicas, se han convertido en motores de orden que transforman el modo en que organizamos la información, las ideas y las personas.

En las últimas décadas, y en particular desde la adopción generalizada de Internet, los encuentros con los procedimientos algorítmicos para la “recuperación de información” -la actividad de obtener alguna pieza de información de una colección o repositorio de algún tipo- se han convertido en experiencias cotidianas para la mayoría de las personas en grandes partes del mundo.

Entorno a la recuperación de la información en Internet. Plagio y Noticias Falsas

Entorno a la recuperación de la información en Internet. Plagio y Noticias Falsas

Julio Alonso Arévalo. Cajamarca (Perú). 7 nov. 2020

Conferencia – Julio Alonso Arévalo. La alfabetización digital es el conjunto de competencias necesarias para la plena participación en la sociedad del conocimiento. Incluye conocimientos, habilidades y comportamientos para propósitos de comunicación, creación y colaboración. La mayoría de los jóvenes han estado expuestos a más tecnología que las generaciones anteriores. Sin embargo eso no lesa de expertos en recuperación de la información. En la conferencia hacemos una serie de recomendaciones en torno a cómo recuperar información fiable en el entorno digital, hablamos de noticias falsas y de cómo detectar el plagio y también como evitarlo utilizando herramientas de gestión de referencias.

Metadata 2020 Proyectos de evaluación de metadatos

 

8t-c4tza_400x400

 

Habermann, Ted. Metadata 2020 Metadata Evaluation Projects. Research Ideas and Outcome (RIO) 6: e54176.
DOI: 10.3897/rio.6.e54176

Texto completo

Metadata 2020: una colaboración intercomunitaria que aboga por metadatos más ricos, conectados, reutilizables y abiertos para todos los resultados de la investigación para avanzar en las actividades académicas en beneficio de la sociedad. Un grupo de voluntarios que trabajan juntos tratando de alentar y facilitar el progreso hacia este objetivo desafiante. El gurú de la gestión Peter Druker dijo: “Si no puedes medirlo, no puedes mejorarlo”. Con esto en mente, varios proyectos de Metadata 2020 examinaron los enfoques para la evaluación de metadatos y las conexiones entre evaluación y orientación. Lograr este progreso en la amplia extensión del panorama de Metadata 2020 requiere conectar dialectos de metadatos y recomendaciones de la comunidad y análisis de múltiples cuerpos de metadatos. Este documento describe un marco para abordar esa tarea y algunos ejemplos potenciales.

 

Los fundamentos del descubrimiento: Informe sobre la evaluación de los efectos del programa de catalogación de colecciones ocultas, 2008-2019

 

unnamed-1jpg__600x0_q85_subsampling-2.jpg__600x0_q85_subsampling-2

 

The Foundations of Discovery: A Report on the Assessment of the Impacts of the Cataloging Hidden Collections Program, 2008–2019. ouncil on Library and Information Resources (CLIR), September 2019

Texto completo

Informe

Datos

De 2008 a 2014, el CLIR administró el programa de Catalogación de Colecciones y Archivos Especiales Ocultos, que concedió fondos para catalogar colecciones “ocultas” de alto valor académico. Con el generoso apoyo de la Fundación Andrew W. Mellon, el programa otorgó más de 27,4 millones de dólares a instituciones académicas, de patrimonio cultural y otras instituciones coleccionistas.

Este informe describe los métodos y hallazgos del análisis, incluyendo los resultados de la catalogación, así como el impacto en la contratación, las políticas y procedimientos, las herramientas de comunicación, y la investigación y la divulgación.

 

Ontologías posiblemente imperfectas para la recuperación efectiva de la información.

 

417ece92ojl._sx352_bo1204203200_

Nagypál, G. (2007). [e-Book] Possibly imperfect ontologies for effective information retrieval. Karlsruhe, KIT Scientific Publishing, 2007.

Texto completo

 

Las ontologías y los metadatos semánticos pueden resolver teóricamente todos los problemas de los motores de búsqueda de texto completo tradicionales. En la práctica, sin embargo, siempre son imperfectos. Este trabajo se analizó si el efecto negativo de la imperfección de la ontología es mayor que el efecto positivo de la explotación de las características de la ontología para la recuperación de la información. Para responder a esta pregunta, se implementó y evaluó exhaustivamente un sistema completo de recuperación de información basado en la ontología.

 

Las metáforas en los sistemas de información de las bibliotecas

 

xmoving-stacks-L1_500x500.png.pagespeed.ic_.G8Wqq7JUH1

Cruz-Vázquez, Alfredo Las metáforas en los sistemas de información de las bibliotecas: aproximaciones comunicacionales a la búsqueda de información, Tesis de maestría, Maestría en Comunicación de la Ciencia y la Cultura. Tlaquepaque, Jalisco: ITESO. 2009

Texto completo

Esta investigación gira en torno a las Interfaces de Recuperación de Información (IRI). Una interfaz de este tipo se refiere a un buscador, un motor de búsqueda, o cualquier dispositivo que haya sido inventado con la intención de recuperar información previamente almacenada. Particularmente, las que interesan a esta investigación son aquellas que están relacionadas con Internet y las bibliotecas. Se indaga en los sentidos que se han construido en torno a estas tecnologías desde la perspectiva de las personas que hacen uso de ellos y en lo que representa un buscador/motor de búsqueda/buscar información para una persona. Se hace una recuperación y análisis de los conceptos metafóricos sobre las IRI, a partir del discurso de los sujetos y de la interpretación enmarcada en la teoría metafórica, las ciencias computacionales y los programas de lectura, y se reinsertan las metáforas en un contexto comunicacional en torno a modelos comunicantes, la búsqueda de información, y aspectos sobre la actividad bibliográfica relacionada con la indización y clasificación.

Cómo descubren los lectores el contenido de las publicaciones académicas

45548331604_2c7108c757_d

 

Gardner,Tracy and Inger, Simon. How Readers Discover Content in Scholarly Publications: Trends on reader behaviour 2015-2018. Publishers Consults, 2018

Texto completo

 

Este informe es el resultado de una encuesta a gran escala de lectores de publicaciones académicas (n=10977) y su comportamiento. en el descubrimiento de artículos de revistas, libros en línea y videos. La encuesta se llevó a cabo durante los meses de febrero, marzo y abril. Abril de 2018.

Esta encuesta se basa en encuestas anteriores realizadas por los autores en 2005, 2008, 2012 y 2015. permite el análisis longitudinal a lo largo de los trece años para realizar análisis de tendencias entre 2012, 2015 y 2018. Los sutiles cambios en el tiempo en el lector las preferencias proporcionan una visión valiosa de la navegación del lector, las características que encuentran útiles en la web del editor y el papel y la eficacia de las tecnologías bibliotecarias. Por primera vez, la encuesta de 2018 incluye nuevos preguntas sobre el descubrimiento de contenido de vídeo.

 

ODI: Open Discovery Initiative. Promocionando la transparencia en el descubrimiento de información en los sistemas de bibliotecas

odi_logo_sm

NISO RP-19-2014 Open Discovery Initiative:
Promoting Transparency in Discovery

Texto completo

La Open Discovery Initiative (ODI) tiene como objetivo la definición de estándares y / o mejores prácticas para la nueva generación de servicios de descubrimiento de bibliotecas que se basan en búsquedas indexadas. Estos servicios de descubrimiento se basan principalmente en índices derivados de revistas, libros electrónicos y otra información electrónica de carácter académico. El contenido proviene de una gama de proveedores y productos de información: comercial, de acceso abierto, institucional, etc.

¿Qué es ODI?

Las directrices de prácticas recomendadas de ODI que se describen ofrecen orientación a los proveedores de contenido y a los proveedores de servicios de detección.

  • Una recomendación técnica para el intercambio de datos que incluye formatos de datos, método de entrega, informes de uso, frecuencia de actualizaciones y derechos de uso
  • Una forma para que las bibliotecas evalúen la participación de los proveedores de contenido en los servicios de descubrimiento
  • Un modelo mediante el cual los proveedores de contenido trabajan con proveedores de servicios de descubrimiento a través de una indexación y con enlaces justos e imparciales.

Las razones de su uso son:

  • Simplifica el proceso de intercambio de datos entre proveedores de descubrimiento participantes y proveedores de contenido.
  • Asegura que los proveedores de descubrimiento participantes sigan prácticas de indexación y vinculación equitativas e imparciales
  • Mitiga los problemas técnicos y legales que podrían obstaculizar una mayor participación de los proveedores de contenido o los posibles creadores de servicios de descubrimiento
  • Permite a las bibliotecas entender cómo se incluye su contenido con licencia en los sistemas de descubrimiento.

 

 

Las herramientas de la cooperación en red: del catálogo automatizado a los sistemas de investigación interdisciplinarios

 

42013467135_50c5dbf254_o_d

Weston, Paul Gabriele. [e-Book]  Gli strumenti della cooperazione in rete: Dal catalogo elettronico ai sistemi della ricerca interdisciplinare, FedOA – Federico II University Press

Texto completo

 

Términos como “metadatos”, “estrategias web”, “interoperabilidad” se utilizan habitualmente cuando se investigan las perspectivas de las memorias del patrimonio cultural en la web. Se está evaluando el riesgo de que métodos bien establecidos para preservar y publicar la producción de las actividades intelectuales y artísticas puedan obstaculizar los procedimientos de intercambio de datos, así como la creación de los sistemas de descubrimiento multidisciplinarios necesarios para llevar a cabo la investigación, incluso en el ámbito de las humanidades. Los primeros proyectos adoptaron el mismo formato electrónico y las mismas reglas de catalogación compartidas entre clases de elementos de naturaleza muy diferente. Lejos de ser la solución ideal, ha alimentado un animado debate mundial. Sin embargo, gracias a esta estrategia las instituciones norteamericanas han creado en poco más de una década esos archivos digitales masivos que son la columna vertebral de la Memoria Americana. Mientras tanto, se llevó a cabo una investigación sobre interoperabilidad con el fin de crear dispositivos de enlace entre dominios y herramientas de búsqueda más potentes. Estas últimas deberían constituir la base de las redes destinadas a apoyar adecuadamente la investigación en los ámbitos de los estudios históricos y bibliográficos.