The AI Enterprise. “When Microphones Replace Mice.” The AI Enterprise, 2025. https://theaienterprise.com/when-microphones-replace-mice (consultado el 12 de agosto de 2025).
Las herramientas de voz y visión impulsadas por inteligencia artificial están transformando radicalmente la forma en que se realiza el trabajo en las organizaciones. Ejemplos como técnicos de campo que apuntan con su móvil a un equipo averiado y reciben instrucciones inmediatas, o equipos comerciales que dictan notas de clientes y generan automáticamente tareas de seguimiento, ilustran cómo la IA multimodal —capaz de procesar voz, imágenes, texto, vídeo y datos de sensores simultáneamente— está reemplazando el teclado y el ratón como interfaz principal.
Según investigaciones de McKinsey, los sistemas multimodales logran tasas de finalización de tareas un 40 % superiores a las interfaces solo de texto, con ganancias de productividad de entre el 35 % y el 60 %. Las empresas que adoptan estas tecnologías reportan un retorno de inversión promedio del 280 % en 18 meses, gracias a la reducción de tiempos y la mejora en la toma de decisiones. La entrada por voz procesa información cuatro veces más rápido que escribir, y el contexto visual elimina hasta el 70 % de los errores de comunicación en la resolución de problemas técnicos.
Casos como Siemens, que ha reducido en un 60 % el tiempo de resolución de incidencias de servicio de campo, o clientes de Salesforce que triplican la información capturada en interacciones con clientes, muestran el potencial competitivo de esta transición. Gartner prevé que en tres años la IA multimodal será parte integral de todas las aplicaciones empresariales, y que para 2027, el 75 % de los trabajadores del conocimiento utilizarán interfaces principalmente por voz para sus tareas clave.
Pingback: La inteligencia artificial multimodal transforma el trabajo: de teclados y ratones a voz y visión - Hemeroteca KillBait