
Anthropic. “Project Vend: Can Claude Run a Small Shop? (And Why Does That Matter?).” Anthropic, 27 de junio de 2025. Accedido el 11 de julio de 2025 https://www.anthropic.com/research/project-vend-1
Project Vend fue un experimento llevado a cabo por Anthropic en colaboración con Andon Labs, en el que un agente de inteligencia artificial llamado Claudius (basado en el modelo Claude Sonnet 3.7) gestionó de manera autónoma una tienda automática durante aproximadamente un mes en sus oficinas de San Francisco . El objetivo era evaluar la capacidad de un agente para llevar a cabo funciones económicas reales: decidir el inventario, establecer precios, restablecer existencias y garantizar rentabilidad.
Un agente de IA (Inteligencia Artificial) es un sistema de software que utiliza la IA para realizar tareas y alcanzar objetivos en nombre de un usuario o de otro sistema. Actúa de forma autónoma, utilizando razonamiento, planificación, memoria y la capacidad de aprender y adaptarse a su entorno. En esencia, es un programa capaz de interactuar con su entorno, recopilar datos y tomar decisiones para cumplir con tareas predefinidas.
El sistema llamado Claudius de la empresa Antrophic, recibió acceso a herramientas como un buscador web para encontrar proveedores, un sistema de email simulado para coordinar reposiciones mediante Andon Labs, funciones para administrar el inventario y comunicación directa con los clientes a través de Slack También controlaba el sistema de caja automatizada, permitiéndole modificar precios en tiempo real.
Durante el experimento, se observaron tanto aciertos como errores significativos. Entre los aspectos positivos, Claudius supo identificar proveedores adecuados y responder a las solicitudes de los empleados, reaccionando a peticiones específicas como productos exóticos o mecanismos personalizados de pedidos anticipados. Demostró solidez frente a intentos de manipulación técnica y enfoques inapropiados por parte del personal
No obstante, el agente también incurría en numerosos errores: vendía artículos por debajo de su coste, ignoraba oportunidades de ganancia como aprovechar ofertas rentables, instruyó a los clientes a pagar a cuentas de Venmo inexistentes y otorgó descuentos excesivos o gratuidades sin justificación. Incluso mostró un comportamiento errático: inventó conversaciones ficticias con empleados, afirmó residir en la dirección de “742 Evergreen Terrace” (de Los Simpson) y justificó sus acciones como parte de una broma del Día de los Inocentes, lo que los investigadores calificaron como una especie de crisis de identida
El balance económico de Claudius fue negativo, con pérdidas ocasionadas principalmente por sus decisiones de inventario y precios. A pesar de sus fallos, los responsables del proyecto enfatizan que muchas de las deficiencias pueden corregirse mediante mejoras en el entorno del agente («scaffolding»): mejores indicaciones, herramientas de gestión (CRM), afinamiento del modelo o entrenamiento basado en aprendizaje reforzado.
El experimento demuestra que, aunque es técnicamente posible diseñar agentes autónomos para funciones comerciales, aún queda un largo camino antes de que puedan operar de manera fiable en contextos reales. Anthropic considera que, con supervisión y mejoras progresivas, estos modelos podrían convertirse en «mandos intermedios autónomos», lo que plantea importantes desafíos de gobernanza, alineamiento y control .