WARC-GPT: Una herramienta de código abierto para explorar archivos web utilizando IA

WARC-GPT: An Open-Source Tool for Exploring Web Archives Using AI | Library Innovation Lab. (2024, febrero 12). https://lil.law.harvard.edu/blog/2024/02/12/warc-gpt-an-open-source-tool-for-exploring-web-archives-with-ai/

WARC-GPT: una herramienta de generación aumentada de recuperación [RAG] de código abierto y altamente personalizable que la comunidad de archivos web puede usar para explorar la intersección entre los archivos web y la inteligencia artificial. La herramienta permite crear chatbots personalizados que utilizan un conjunto de archivos de archivo web como base de conocimiento, lo que permite a los usuarios explorar colecciones a través de conversaciones.

Con WARC-GPT, se pueden hacer preguntas específicas en lenguaje natural sobre una colección de archivos WARC. En lugar de depender de búsquedas por palabras clave y filtros de metadatos para ordenar los resultados de búsqueda,

Este proyecto es parte de nuestra serie en curso que explora cómo la inteligencia artificial cambia nuestra relación con el conocimiento. El lanzamiento de este software experimental ayudará a comprender si y cómo la IA puede ayudar a acceder y descubrir el contenido de los archivos web.

WARC-GPT permite a los usuarios ingerir y traducir una colección de archivos WARC en una configuración de RAG que se puede utilizar con una variedad de LLMs, lo que permite a los archiveros e investigadores usar un chatbot que tiene conocimiento de sus colecciones. WARC-GPT es especialmente útil para explorar colecciones privadas de WARCs o aquellas que no formaron parte de los datos de entrenamiento para un LLM. Aunque los LLMs generalmente se entrenan con datos de fuentes como Common Crawl, un repositorio abierto de datos de rastreo web que consta de más de 250 mil millones de páginas, no es posible verificar qué datos se han incluido. Al fundamentar el conocimiento de un LLM con una colección de WARCs, se proporciona información contextual relevante que es especialmente útil para consultas específicas o especializadas dentro de un dominio particular.