Archivo de la etiqueta: Motores de búsqueda

El lado oscuro de Google: historia y futuro de la industria de los metadatos

Macchia, María Grazia, Giuseppe Mai, y colectivo Ippolita. El lado oscuro de Google: Historia y futuro de la industria de los metadatos. Barcelona : Virus Editorial, 2010., 2010

Texto completo

Entre las bondades que Google difunde de sí misma no están las 133 webs censuradas en Europa, el sometimiento a las presiones censoras del Gobierno chino o la cancelación de la publicidad del grupo ecologista Oceana 36 para evitar problemas con uno de sus inversores: la Royal Caribbean Cruise Lines. Solo tres ejemplos de como Google Corporation viola los principios de neutralidad y libertad de acceso y expresión en la Red para salvaguardar sus propios intereses. La imagen sobria y luminosa de su página principal oculta un reverso más prosaico y turbio en el que se adentra El lado oscuro de Google. «Don’t be evil» (no seas malo), el lema de cabecera de la multinacional que quiso ser un «gigante bueno», entra en abierta contradicción con la agresividad de su política empresarial. El fichaje multimillonario del directivo de Microsoft Kai Fu-Lee, depositario de importantes secretos industriales, o la oferta de 50 millones de dólares a AOL a cambio de romper su contrato con Yahoo!, muestran hasta qué punto Google ha asimilado las reglas de juego de las grandes corporaciones. Pero en su estrategia de expansión, Google también se aprovecha de la filosofía del software libre para su propio beneficio. Hace un uso selectivo del código abierto para modificar programas cuyas mejoras no hace públicas, pone a disposición libre de los programadores herramientas que le permiten controlar y apropiarse del trabajo realizado con ellas, y ofrece a sus trabajadores un 20% del tiempo de trabajo para investigaciones propias, que pasan a ser propiedad exclusiva de la empresa. Desde que en 1996 Larry Page y Sergei Brin desarrollaron uno de los algoritmos más famosos y mejor guardados del mundo, el Page Rank(TM), Google ha consolidado su carácter de gran empresa hasta convertirse en el principal aspirante al monopolio de la información en la era digital. Esto, en parte, ha sido posible gracias a los gigantescos ingresos proporcionados por un modelo de publicidad personalizada, basada en los perfiles que la máquina Google dibuja de los usuarios, utilizando el rastro que éstos dejan con el empleo diario del buscador y otros servicios de uso gratuito. El colectivo Ippolita muestra la clara ambición hegemónica de Google y, con ella, uno de los principales peligros de nuestra era: la concentración en unas pocas manos del acceso a la información y la tecnología, poniendo en riesgo un sinfín de derechos ya coartados en el mundo material y seriamente amenazados en el espacio virtual.

Google plantea un nuevo buscador que proporcionará respuestas en lenguaje natural como si se tratara de un experto en la materia a partir de fuentes fiables y fidedignas.

Ejemplo de búsqueda en la web (izquierda), modelo lingüístico (centro) y respuestas de expertos (sistema previsto)

Metzler, D., Tay, Y., Bahri, D., & Najork, M. Rethinking Search: Making Experts out of Dilettantes. arXiv:2105.02274 [cs], 2021. http://arxiv.org/abs/2105.02274

Un nuevo artículo de cuatro investigadores de Google propone un sistema “experto” capaz de responder con autoridad a las preguntas de los usuarios en lugar de presentar una lista de posibles resultados de búsqueda, basado en el algoritmo GPT-3 presentado el año pasado. Este enfoque podría cambiar no sólo el funcionamiento de los motores de búsqueda, sino también lo que hacen, y la forma en que interactuamos con ellos.

El documento, titulado Rethinking Search: Making Experts out of Dilettantes, sugiere que la forma actual de presentar al usuario una lista de resultados de búsqueda en respuesta a una consulta es una “carga cognitiva”, y propone mejoras en la capacidad de un sistema de procesamiento del lenguaje natural (PLN) para dar una respuesta autorizada y definitiva que sustituya el enfoque de clasificación por un modelo de respuesta experta en lenguaje de inteligencia artificial (IA).

La mayoría de los motores de búsqueda siguen funcionando de la misma manera que hace 20 años: las páginas web son indexadas por rastreadores (software que lee la web sin parar y mantiene una lista de todo lo que encuentra), los resultados que coinciden con la consulta de un usuario se recogen de este índice, y los resultados se clasifican por relevancia. Hasta ahora las búsquedas en Google se han basado en el algoritmo Page Rank para arrojar los resultados de búsqueda a partir de la calidad y cantidad de los enlaces que le dan otras páginas a una página determinada. El problema es que los motores de búsqueda actuales siguen respondiendo con una lista de documentos que incluyen la información solicitada, no con la información en sí, si no con una lista de referencias. Según Metzler, es como si pidieras consejo a tu médico y recibieras una lista de artículos para leer en lugar de una respuesta directa. Por ello, Google se está replanteando este método por el de una búsqueda basada en un nuevo algoritmo de lenguaje denominado GPT-3. El nuevo algoritmo extrae información de múltiples fuentes para responder a las preguntas en lenguaje natural. Lo que proporcionará al usuario de una búsqueda, no la lista de los resultados más relevantes como ocurre ahora, si no una respuesta en lenguaje natural como si se tratara de un experto en la materia a partir de fuentes fiables y fidedignas.

Metzler y sus colegas están interesados en un motor de búsqueda que se comporte como un experto humano “Debería producir respuestas en lenguaje natural, sintetizadas a partir de más de un documento, y respaldar sus respuestas con referencias a pruebas de apoyo, como pretenden hacer los artículos de Wikipedia”. Y añade: “Cuando existe una necesidad de información, los usuarios desearían preguntar a un experto, pero a menudo recurren a un sistema de recuperación de información, como un motor de búsqueda. Los sistemas clásicos de recuperación de información no responden directamente a las necesidades de información, sino que proporcionan referencias a respuestas (que se espera sean autorizadas). Los sistemas de respuesta a preguntas de éxito ofrecen un corpus limitado creado a la carta por expertos humanos, que no es ni oportuno ni escalable”. En cambio, los grandes modelos lingüísticos pre entrenados son capaces de generar directamente una prosa que puede responder a una necesidad de información, pero en la actualidad son más aficionados que expertos: no tienen una verdadera comprensión del mundo; y lo que es más importante, son incapaces de justificar sus enunciados haciendo referencia a documentos de apoyo en el corpus sobre el que fueron entrenados (ver imagen). El artículo examina cómo las ideas de la recuperación de información clásica y los grandes modelos lingüísticos pueden sintetizarse y evolucionar hacia sistemas que realmente cumplan la promesa del asesoramiento experto.

Búsquedas efectivas en internet: motores de búsqueda, metadatos y SEO

Visualizar video Facebook Live

Programa Noches de Biblioteca – Búsquedas efectivas en internet: motores de búsqueda, metadatos y SEO Invitado especial: Julio Alonso Arévalo, Jefe de Biblioteca de la Facultad de Traducción y Documentación de la Universidad de Salamanca.

Hubo un tiempo en que lo que más tarde se conoció como Internet no era más
que un oscuro experimento para conectar computadoras. Un tiempo antes de
que Internet se convirtiera en un elemento omnipresente de la vida cotidiana de
miles de millones de personas. Un tiempo antes de que casi todos los dispositivos
imaginables pudieran conectarse con todo tipo de otros dispositivos a través de
Internet. Y una época en la que las conexiones entre personas las definíamos por
el espacio físico y la interacción física. Un tiempo antes de que nos consideráramos
ciudadanos de la web social. Ese tiempo se acabó para siempre
.”


Jacques Raubenheimer

¿Cómo funciona internet y los motores de búsqueda? Planeta Biblioteca 2021/05/19.

¿Cómo funciona internet y los motores de búsqueda?

Planeta Biblioteca 2021/05/19.

ESUCHAR EL PROGRAMA

Ir a descargar

Presentación PPS

Los buscadores web funcionan mediante la “orden” de búsqueda con palabras clave, imágenes o voz. Primero el usuario introduce los datos, acto seguido, los motores de búsqueda responden con un listado de páginas web relacionado con el contenido buscado. Para ello la herramienta utiliza los comúnmente denominados “robots”, o “spiders”, que rastrean todas las páginas web para crear una gran base de datos con la que proporcionar toda la información al usuario

Microsoft está cerrando Microsoft Academic Search y los servicios relacionados

Next Steps for Microsoft Academic – Expanding into New Horizons

Complete Blog Post

Microsoft está planeando cerrar el maravilloso y poderoso Microsoft Academic Search (que utiliza el también maravilloso Microsoft Academic Graph) a finales de 2021

En algunos casos Microsoft Academic Search proporciona/proporciona mejores resultados que Google Scholar junto con una serie de características que GS no proporciona en absoluto. La conclusión es que tener una variedad de herramientas entre las que elegir siempre es algo bueno.

Desde su relanzamiento a principios de 2016, este recurso de búsqueda gratuito ha demostrado ser increíblemente útil, no solo como herramienta de búsqueda independiente, sino también como un corpus de material que se puede buscar a través de otras herramientas, como Lens.org.

Motores de búsqueda: una mecánica de técnicas algorítmicas

Rieder, B. [e-Book] Engines of Order : A Mechanology of Algorithmic Techniques, Amsterdam University Press, 2020.

Texto completo

El software se ha convertido en un componente clave de la vida contemporánea y los algoritmos que ordenan, clasifican o recomiendan están por todas partes. Partiendo de la filosofía de Gilbert Simondon y de la tradición de las técnicas culturales, este libro examina el carácter constructivo y acumulativo del software y recorre las trayectorias históricas de una serie de técnicas algorítmicas que se han convertido en los bloques de construcción de las prácticas contemporáneas de ordenación. Desarrolladas en oposición a siglos de tradición bibliotecaria, estas técnicas instancian formas de conocimiento dinámicas, perspectivistas e interesadas. Incrustadas en infraestructuras técnicas y lógicas económicas, se han convertido en motores de orden que transforman el modo en que organizamos la información, las ideas y las personas.

En las últimas décadas, y en particular desde la adopción generalizada de Internet, los encuentros con los procedimientos algorítmicos para la “recuperación de información” -la actividad de obtener alguna pieza de información de una colección o repositorio de algún tipo- se han convertido en experiencias cotidianas para la mayoría de las personas en grandes partes del mundo.

Internet Archive Scholar: buscar entre 25 millones de artículos de investigación

https://scholar.archive.org/

Este motoe de búsqueda de texto completo incluye más de 25 millones de artículos de investigación y otros documentos científicos conservados en el Archivo de Internet. La colección abarca desde copias digitalizadas de revistas del siglo XVIII hasta las últimas actas de conferencias de acceso abierto y preimpresiones rastreadas desde la World Wide Web.

El acceso del lector al contenido se proporciona siempre y cuando sea posible. A veces este acceso es a una “preimpresión” u otra versión de la obra, y esto se indica en los resultados de la búsqueda.  En otros casos, dependiendo de los filtros de búsqueda, se incluyen resultados para los que solo existe una entrada en el catálogo bibliográfico. Puede ser posible obtener acceso a través de una biblioteca pública o directamente del editor.

Además de las opciones básicas de filtrado y clasificación, esta interfaz de búsqueda también permite el uso de la sintaxis de consulta Lucene en el campo de búsqueda. Se puede restringir las consultas de términos en múltiples campos de metadatos utilizando formulas de dos puntos como journal:Science, establecer filtros como lang:es, y aplicar consultas de rango como year:>1989 year:<2000.

Semantic Scholar: una herramienta de búsqueda de investigación gratuita para la literatura científica impulsada por la IA

Ochsner Journal Content Available at Semantic Scholar | Ochsner Journal Blog

Semantic Scholar

El proyecto utiliza una combinación de aprendizaje automático, procesamiento de lenguaje natural y visión artificial para añadir una capa de análisis semántico a los métodos tradicionales de análisis de citas, y para extraer figuras, entidades y lugares relevantes de los artículos.En comparación con Google Scholar y PubMed, Semantic Scholar está diseñado para destacar los artículos más importantes e influyentes, e identificar las conexiones entre ellos.

Semantic Scholar tiene por objetivo el acceso oportuno y abierto a la investigación científica relevante, el proyecto fue lanzado en 2015 como un proyecto innovador en el Instituto Allen para la IA, un instituto de investigación sin fines de lucro fundado por el filántropo Paul G. Allen para desarrollar IA que beneficie el bien común. La herramienta aplica la inteligencia artificial para extraer el significado de la literatura científica permitiendo a los estudiosos navegar en la investigación mucho más eficientemente que un motor de búsqueda tradicional. Escanea rápidamente la investigación con la extracción automática de resúmenes, tablas, figuras y citas. Otra de las tareas de Semantic Scholar es comprender el impacto de un trabajo con estadísticas que resalten el volumen y la intención de las citas del trabajo, destacando la influencia de la investigación.

Cuando buscamos entre los 180 millones de artículo de Semantic Scholar encontramso datos relativos al impacto de la investigación tales como citas, indice h, citas de alta influencia, coautores, alertas, cita, texto completo, editor, PDF, TLDR... ) y la posibilidad de filtrar la búsqueda por diferentes criterios como co-autor, con PDF, área de conocimiento o tipo de publicación.

Además de las herramientas de búsqueda y descubrimiento disponibles en semanticscholar.org, proporcionamos una API y un Open Research Corpus como servicios gratuitos para la comunidad investigadora. En la actualidad tiene más de180 millones de documentos

OpenTexts.World ofrece acceso a 8 millones de libros y documentos digitalizados

OpenTexts.World es un servicio experimental que brinda acceso gratuito a colecciones de texto digitalizadas de todo el mundo. Un motor de búsqueda de libros.

Cada año, las bibliotecas de todo el mundo digitalizan cientos de miles de libros. Open Texts reúne algunas de estas colecciones, lo que le permite buscar en una multitud de bibliotecas diferentes en todo el mundo.

Que hay en Open Text World

8 millones de artículos.
Si los coloca todos en una estantería muy larga, ¡seguirán avanzando durante más de 100 millas! (62 km.)

85 idiomas
Desde el alemán medio al tagalo, si alguien lo ha escrito, probablemente esté aquí.

Siglo XV en adelante
Incluye registros desde 1455 hasta muchos libros más modernos .

De donde proceden los registros

OpenTexts.World busca actualmente contenido digitalizado de las siguientes bibliotecas:

El servicio se basa en una investigación realizada por Global Digitized Data Network , una colaboración de investigación angloamericana, financiada por el Arts and Humanities Research Council

Google cambia su algoritmo de búsqueda hacia el“emparejamiento neuronal” para comprender mejor los conceptos de búsqueda

 

google-rankbrain-neural-matching-1553258600

 

Google acaba de anunciar recientemente que está utilizando un algoritmo de “emparejamiento neuronal” para comprender mejor los conceptos que transformará el futuro escenario de resultados de búsqueda, técnicas de optimización de motores de búsqueda y estrategias. El anterior algoritmo “RankBrain” relacionaba las páginas con los conceptos y el emparejamiento neuronal relaciona las palabras con las búsquedas

 

Google está utilizando la tecnología AI para generar diversos resultados de búsqueda analizando mejor los términos de la consulta. El Algoritmo de Correspondencia o emparejamiento Neural (Neural Matching) de Google es una mezcla perfecta de técnicas de optimización de motores de búsqueda y motores artificiales. Ahora, Google se centrará en los sinónimos y el concepto que hay detrás del término de búsqueda.

El nuevo algoritmo de Google va a influir en las antiguas técnicas de optimización de motores de búsqueda y proporcionará resultados más completos. Porque Google se centrará en entender el concepto de la página a partir del contenido en lugar de basarse en las palabras clave. Anteriormente Google solía recoger las palabras clave de la página para entender el concepto.

El último trabajo de investigación se titula Deep Relevance Ranking, que utiliza la Enhanced Document Query Instruction (Instrucción de consulta de documentos mejorada). cuyo objetivo es eliminar el spam y los resultados irrelevantes y rastrear los resultados de búsqueda relevantes. Con todo ello, la búsqueda en línea va a ser la más personalizada que nunca, ya que Google podrá entender las preguntas y los términos de búsqueda exactos. En septiembre de 2018, Google declaró que el emparejamiento neuronal ya se utiliza en el 30% de las búsquedas.

RankBrain relaciona las páginas con los conceptos y el emparejamiento neural relaciona las palabras con las búsquedas. El algoritmo RankBrain ayuda a Google a relacionar las páginas con conceptos, incluso cuando las páginas no incluyen las palabras exactas utilizadas en una consulta. También es un sistema basado en la IA que ha estado en uso desde 2016, dos años antes de que Google implementara el emparejamiento neuronal.