Archivo de la etiqueta: Asistentes de voz

La revolución de la IA multimodal: cuando la voz y la visión sustituyen al teclado y el ratón

The AI Enterprise. “When Microphones Replace Mice.The AI Enterprise, 2025. https://theaienterprise.com/when-microphones-replace-mice (consultado el 12 de agosto de 2025).

Las herramientas de voz y visión impulsadas por inteligencia artificial están transformando radicalmente la forma en que se realiza el trabajo en las organizaciones. Ejemplos como técnicos de campo que apuntan con su móvil a un equipo averiado y reciben instrucciones inmediatas, o equipos comerciales que dictan notas de clientes y generan automáticamente tareas de seguimiento, ilustran cómo la IA multimodal —capaz de procesar voz, imágenes, texto, vídeo y datos de sensores simultáneamente— está reemplazando el teclado y el ratón como interfaz principal.

Según investigaciones de McKinsey, los sistemas multimodales logran tasas de finalización de tareas un 40 % superiores a las interfaces solo de texto, con ganancias de productividad de entre el 35 % y el 60 %. Las empresas que adoptan estas tecnologías reportan un retorno de inversión promedio del 280 % en 18 meses, gracias a la reducción de tiempos y la mejora en la toma de decisiones. La entrada por voz procesa información cuatro veces más rápido que escribir, y el contexto visual elimina hasta el 70 % de los errores de comunicación en la resolución de problemas técnicos.

Casos como Siemens, que ha reducido en un 60 % el tiempo de resolución de incidencias de servicio de campo, o clientes de Salesforce que triplican la información capturada en interacciones con clientes, muestran el potencial competitivo de esta transición. Gartner prevé que en tres años la IA multimodal será parte integral de todas las aplicaciones empresariales, y que para 2027, el 75 % de los trabajadores del conocimiento utilizarán interfaces principalmente por voz para sus tareas clave.

OpenAI lleva el vídeo al modo de voz avanzado de ChatGPT

Mauran, Cecily. «OpenAI Brings Video to ChatGPT Advanced Voice ModeMashable, December 12, 2024. https://mashable.com/article/openai-brings-video-to-chatgpt-advanced-voice-mode.

A partir del 12 de diciembre de 2024, OpenAI ha incorporado nuevas capacidades visuales al Modo de Voz Avanzado (AVM) de ChatGPT, que ahora incluye funciones de video y compartición de pantalla. Ahora, los usuarios pueden interactuar con ChatGPT utilizando la cámara de su teléfono, permitiendo que el modelo «vea» lo que ellos ven en tiempo real.

la actualización de Advanced Voice Mode (AVM) se había anticipado en mayo con el lanzamiento de GPT-4o, pero hasta ahora solo estaba disponible la modalidad de audio.Durante una demostración en vivo, el equipo de OpenAI, encabezado por el CPO Kevin Weil, mostró cómo ChatGPT puede asistir en tareas como preparar café con un filtro de goteo. Al apuntar la cámara hacia el proceso, ChatGPT comprendió el principio de la máquina y guió al equipo paso a paso en la preparación del café. También se mostró cómo la función de compartición de pantalla permite que ChatGPT entienda lo que aparece en la pantalla de un teléfono, como un mensaje abierto.

Este anuncio se produjo justo después de que Google presentara la próxima generación de su modelo insignia Gemini 2.0, que también tiene la capacidad de procesar entradas visuales y auditivas, con mayores capacidades de agente, permitiendo realizar tareas complejas en nombre del usuario.

En cuanto a la demostración de OpenAI, se destacó cómo ChatGPT, con su modalidad visual, pudo identificar objetos con precisión e incluso ser interrumpido en medio de la interacción. Además, se añadió una opción de voz de Santa Claus en el Modo de Voz, con una voz profunda y alegre que decía «ho-ho-ho». Esta función se activa tocando el ícono de copo de nieve en la aplicación de ChatGPT, aunque los usuarios son advertidos de que está destinada solo a mayores de 13 años. Aún no se ha confirmado si la voz de Santa Claus fue proporcionada por el propio Santa o si OpenAI la utilizó sin su consentimiento previo.

A partir de hoy, las funciones de video y compartición de pantalla están disponibles para los usuarios de ChatGPT Plus y Pro, y se espera que estén disponibles para Enterprise y Edu en enero de 2025.

ChatGPT permite usar la cámara del móvil para que la IA analice lo que ve y responda en tiempo real.

Advanced Voice Mode

Con la incorporación reciente de visión (Advanced Voice Mode con visión), ahora también puede interpretar lo que ve a través de la cámara del dispositivo o lo que aparece en la pantalla mediante el uso compartido de pantalla.

OpenAI ha lanzado una nueva función para ChatGPT llamada Advanced Voice Mode con visión, que permite usar la cámara del móvil para que la IA analice lo que ve y responda en tiempo real. Por ejemplo, puedes apuntar a un objeto y ChatGPT te dirá qué es. Además, ahora puede entender lo que aparece en la pantalla de tu dispositivo mediante el uso compartido de pantalla, ayudándote con configuraciones o incluso con problemas matemáticos.

Esta función está disponible para los usuarios de las suscripciones Plus, Team y Pro de ChatGPT. Para usarla, solo hay que tocar el icono de video en la app o activar la opción de «compartir pantalla» desde el menú. Sin embargo, no todos tendrán acceso inmediato: los usuarios de la UE, Suiza, Islandia, Noruega y Liechtenstein tendrán que esperar, al igual que los suscriptores de ChatGPT Enterprise y Edu, que lo recibirán en enero.

Durante las pruebas, ChatGPT mostró habilidades interesantes, como interpretar dibujos anatómicos en tiempo real, aunque también cometió errores en problemas de geometría. Esto demuestra que la función aún puede fallar, pero marca un gran avance en el uso de inteligencia artificial para interactuar con el mundo real.

¿Qué es Advanced Voice Mode de OpenAI?
Advanced Voice Mode es una función de ChatGPT que permite interactuar de manera más natural con la inteligencia artificial utilizando la voz. Esta tecnología hace que ChatGPT sea capaz de responder en tiempo real con una voz humanizada y mantener conversaciones más fluidas, como si estuvieras hablando con otra persona.

Con la incorporación reciente de visión (Advanced Voice Mode con visión), ahora también puede interpretar lo que ve a través de la cámara del dispositivo o lo que aparece en la pantalla mediante el uso compartido de pantalla.


¿Qué se puede hacer con Advanced Voice Mode?

  1. Conversaciones por voz:
    Habla con ChatGPT en lugar de escribir, y recibe respuestas habladas de forma natural. Ideal para cuando necesitas manos libres o quieres una interacción más directa.
  2. Reconocimiento visual en tiempo real:
    Apunta la cámara del móvil hacia un objeto y ChatGPT puede identificarlo o describirlo. Por ejemplo, podría reconocer un utensilio de cocina, una planta o un dispositivo tecnológico.
  3. Interacción con la pantalla del dispositivo:
    Al compartir la pantalla, ChatGPT puede interpretar menús, configuraciones o aplicaciones, y ayudarte a navegar por ellas o resolver problemas. Por ejemplo:
    • Explicar opciones en la configuración del teléfono.
    • Dar sugerencias para resolver problemas matemáticos que se muestran en la pantalla.
  4. Asistencia en tareas visuales:
    ChatGPT puede analizar dibujos o imágenes en tiempo real. Por ejemplo, puede evaluar un boceto, identificar formas o sugerir mejoras.
  5. Experiencia personalizada:
    Gracias a su capacidad de comprensión multimodal, combina texto, voz y visión para ofrecer respuestas adaptadas y ricas en contexto.

OpenAI también lanzó una función adicional llamada  “Santa Mode,”, que permite cambiar la voz de ChatGPT a la de Santa Claus, agregando un toque festivo para esta temporada navideña. Mientras tanto, otras empresas como Google y Meta trabajan en funciones similares para sus propios asistentes de IA.

Lectores de voz impulsados por Inteligencia Artificial

La tecnología de texto a voz (TTS) impulsada por IA se está convirtiendo rápidamente en una de las mejores alternativas a la lectura tradicional, ofreciendo una forma conveniente y natural de consumir contenido, ya sea mientras te desplazas, realizas varias tareas a la vez o simplemente prefieres escuchar en lugar de leer.

Aunque algunas voces de IA aún suenan un poco robóticas, aplicaciones como Reader de ElevenLabs están cambiando eso. Reader puede leer texto en voz alta en cientos de voces diferentes en iOS y Android, y recientemente ha expandido su acceso a más de 30 idiomas, incluyendo portugués, español, francés, hindi, alemán, japonés y árabe.

Cómo empezar con Reader:

  1. Descargar e instalar: Obtén la aplicación en tu computadora o teléfono.
  2. Crear una cuenta: Regístrate y accede.
  3. Personalizar: Selecciona tu voz predeterminada y ajusta la aplicación a tus necesidades.
  4. Agregar contenido: Desde la pantalla de inicio, puedes cargar texto, añadir una URL, subir un archivo o escanear un documento.

Reader es gratuito durante los primeros tres meses, con planes que van desde una versión gratuita (10.000 créditos al mes) hasta una versión Pro de 99 $/mes (500.000 créditos).

Sin embargo, Reader enfrenta fuerte competencia, especialmente de Speechify, que ofrece características adicionales como escaneo de documentos, integraciones con Gmail y Canvas, y la capacidad de clonar tu voz para la lectura de texto.

A medida que la tecnología TTS avanza, más empresas de medios planean introducir sus propias voces personalizadas, aumentando la competencia por la atención de los usuarios. Reader deberá seguir innovando para mantenerse a la vanguardia.

¿Están capacitadas las herramientas de inteligencia artificial generativa para responder a preguntas de referencia en bibliotecas?


Wheatley, Amanda, y Sandy Hervieux. «Comparing generative artificial intelligence tools to voice assistants using reference interactions». The Journal of Academic Librarianship 50, n.o 5 (1 de septiembre de 2024): 102942. https://doi.org/10.1016/j.acalib.2024.102942.

Para responder a las preguntas de investigación, los autores crearon 25 preguntas de referencia basadas en consultas recibidas a través del servicio de referencia virtual de la biblioteca de su universidad. Luego, plantearon estas preguntas a los asistentes de voz y a dos versiones de ChatGPT, registrando las respuestas en una hoja de cálculo.

Los resultados muestran que las herramientas comprenden bien las preguntas de referencia y ofrecen respuestas relevantes, pero la calidad de las referencias proporcionadas y la precisión de las respuestas pueden ser insuficientes.

Uno de los problemas principales es que algunas herramientas no proporcionan referencias o estas son de baja calidad. Los asistentes de voz, como Google Assistant, Siri y Alexa, destacaron en este aspecto, con Google Assistant ofreciendo las mejores respuestas en términos de relevancia, precisión y calidad de las referencias. Esto se debe a que los asistentes de voz buscan en internet en lugar de depender de modelos de lenguaje masivo, lo que reduce el riesgo de citar fuentes falsas. ChatGPT, por su parte, tiene problemas conocidos de «alucinaciones» y citas falsas o inexistentes, lo cual es preocupante para los profesionales de la información.

Aunque estas herramientas pueden ofrecer respuestas relevantes y precisas, ninguna iguala la calidad que un bibliotecario académico podría brindar. Google Assistant fue el que más se acercó, con un 40 % de sus respuestas siendo recomendadas por un bibliotecario, mientras que ChatGPT falló en más del 50 % de los casos.

En términos generales, Google Assistant fue la herramienta que mejor respondió a las preguntas de referencia, seguido por Alexa y Siri. Aunque las herramientas de IA generativa como ChatGPT comprenden bien las preguntas, sus respuestas carecen de la precisión y la autoridad necesarias para competir con los asistentes de voz en este contexto.

El estudio concluye que, si bien los asistentes de voz y herramientas como ChatGPT pueden ser útiles para iniciar una investigación, deben utilizarse en combinación con los servicios tradicionales de referencia. El uso de IA generativa puede ser más adecuado para tareas como la lluvia de ideas o la explicación de conceptos, en lugar de responder preguntas de referencia de manera fiable. El estudio también sugiere que futuras investigaciones podrían explorar cómo las herramientas de IA pueden colaborar con los bibliotecarios para mejorar los servicios de referencia.

OpenAI presenta Voice Engine: una nueva herramienta de audio capaz de clonar tu voz con solo 15 segundos de audio

«Navigating the Challenges and Opportunities of Synthetic Voices». Accedido 30 de marzo de 2024. https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices.

OpenAI ha compartido resultados preliminares de una prueba para una función que puede leer palabras en voz alta con una voz humana convincente, resaltando una nueva frontera para la inteligencia artificial y planteando el espectro de los riesgos de deepfake.

La compañía está compartiendo demos y casos de uso tempranos de una vista previa a pequeña escala del modelo de texto a voz, llamado Voice Engine, que ha compartido con aproximadamente 10 desarrolladores hasta ahora, según un portavoz. OpenAI decidió no ampliar el lanzamiento de la función, sobre la cual informó a los periodistas a principios de este mes.

Voice Engine de OpenAI tiene la capacidad de crear una réplica sintética de una voz después de escucharla durante solo 15 segundos, ya sea en tiempo real o a través de una grabación. Esta reproducción sintética imita el tono y las características distintivas de la voz original, permitiendo que cualquier frase se pueda «hablar» con una imitación fiel de la voz original.

Un portavoz de OpenAI dijo que la compañía decidió no hacer el lanzamiento después de recibir comentarios de partes interesadas como legisladores, expertos de la industria, educadores y creativos. Según la presentación de prensa anterior, la compañía había planeado inicialmente lanzar la herramienta a hasta 100 desarrolladores a través de un proceso de solicitud.

«Reconocemos que generar voz que se asemeje a las voces de las personas tiene riesgos serios, que están especialmente en primer plano en un año electoral», escribió la compañía en una publicación de blog el viernes. «Estamos interactuando con socios de EE. UU. e internacionales de todo el gobierno, medios de comunicación, entretenimiento, educación, sociedad civil y más allá para asegurarnos de que estamos incorporando sus comentarios mientras construimos».

Otra tecnología de IA ya se ha utilizado para falsificar voces en algunos contextos. En enero, una llamada telefónica falsa pero realista que pretendía ser del presidente Joe Biden alentó a las personas en New Hampshire a no votar en las primarias, un evento que avivó los temores de IA antes de elecciones globales críticas.

A diferencia de los esfuerzos anteriores de OpenAI para generar contenido de audio, Voice Engine puede crear voz que suena como personas individuales, completa con su cadencia e inflexiones específicas. Todo lo que necesita el software es 15 segundos de audio grabado de una persona hablando para recrear su voz.

Durante una demostración de la herramienta, Bloomberg escuchó un clip del CEO de OpenAI, Sam Altman, explicando brevemente la tecnología con una voz que sonaba indistinguible de su habla real, pero fue completamente generada por IA.

«Si tienes la configuración de audio correcta, es básicamente una voz de calidad humana», dijo Jeff Harris, líder de producto en OpenAI. «Es una calidad técnica bastante impresionante». Sin embargo, Harris dijo: «Obviamente, hay mucha delicadeza de seguridad en torno a la capacidad de imitar con precisión el habla humana».

Uno de los actuales socios desarrolladores de OpenAI que usa la herramienta, el Instituto de Neurociencias Norman Prince en el sistema de salud sin fines de lucro Lifespan, está utilizando la tecnología para ayudar a los pacientes a recuperar su voz. Por ejemplo, la herramienta se usó para restaurar la voz de una joven paciente que perdió su capacidad para hablar claramente debido a un tumor cerebral replicando su habla de una grabación anterior para un proyecto escolar, dijo la publicación del blog de la compañía.

El modelo de voz personalizado de OpenAI también puede traducir el audio que genera a diferentes idiomas. Eso lo hace útil para empresas en el negocio de audio, como Spotify Technology SA. Spotify ya ha utilizado la tecnología en su propio programa piloto para traducir los podcasts de presentadores populares como Lex Fridman. OpenAI también destacó otras aplicaciones beneficiosas de la tecnología, como crear una gama más amplia de voces para contenido educativo para niños.

En el programa de pruebas, OpenAI está exigiendo a sus socios que acepten sus políticas de uso, obtengan el consentimiento del hablante original antes de usar su voz y divulguen a los oyentes que las voces que están escuchando son generadas por IA. La compañía también está instalando una marca de agua de audio inaudible para permitirle distinguir si una pieza de audio fue creada por su herramienta.

Antes de decidir si lanzar más ampliamente la función, OpenAI dijo que está solicitando comentarios de expertos externos. «Es importante que las personas de todo el mundo entiendan hacia dónde se dirige esta tecnología, ya sea que finalmente la despleguemos ampliamente nosotros mismos o no», dijo la compañía en la publicación del blog.

OpenAI también expresó su esperanza de que la presentación preliminar de su software impulse la necesidad de fortalecer la resiliencia social frente a los desafíos planteados por las tecnologías de IA más avanzadas. Como ejemplo, la empresa instó a los bancos a eliminar la autenticación de voz como medida de seguridad para acceder a cuentas bancarias e información sensible. Además, está abogando por una mayor educación pública sobre el contenido engañoso generado por IA y el desarrollo de técnicas adicionales para detectar si el contenido de audio es auténtico o generado por IA.

Un pin asistente interactivo basado en Inteligencia Artificial sorprende en el en el MWC de Barcelona

HUMANE AI PIN

Ver video

La demostración más impactante en el Mobile World Congress (MWC) de Barcelona sorprendió a muchos al ser presentada por una marca inesperada. Humane, con su Ai Pin, hizo otra aparición pública destacada en esta feria comercial móvil. El Humane AI Pin es un nuevo wearable que es una especie de asistente personal con inteligencia artificial. Se comunica con los modelos de IA y responde a nuestras preguntas y pedidos a través de la voz, sin pantallas.

Durante la demostración, la Ai Pin mostró su capacidad para responder rápidamente a preguntas directas con su comando de voz básico. Además, destacó su característica estrella: la proyección de una pantalla de tinta láser en la palma del usuario, lo que permite una interacción discreta y práctica.

El pin, diseñado para ser un asistente de inteligencia artificial portátil, llamó la atención por su singularidad y funcionalidades. Al no contar con una pantalla, se apoya en el uso de vibraciones y un láser proyector para interactuar con el usuario. Esta propuesta de «desconexión parcial» del mundo digital mientras se mantiene conectado generó opiniones encontradas entre los observadores.

Durante la demostración, se destacaron tanto sus puntos fuertes como sus debilidades. Por un lado, la capacidad del Pin para responder rápidamente a preguntas y comandos básicos impresionó a muchos. Además, su función de visión, que utiliza la cámara para describir el entorno del usuario, recibió elogios por su precisión.

Sin embargo, no faltaron los desafíos. La dependencia de una conexión a Internet sólida para el procesamiento de la IA, junto con la posibilidad de sobrecalentamiento del dispositivo, generó preocupaciones sobre su fiabilidad en entornos diversos. Además, la proyección láser en la palma de la mano, aunque innovadora, planteó preguntas sobre su comodidad y utilidad práctica en situaciones cotidianas.

Aunque el precio y la suscripción mensual pueden ser considerados como una barrera para algunos, la Ai Pin de Humane ofrece una experiencia única con un asistente de inteligencia artificial siempre presente, especialmente útil en situaciones donde la accesibilidad y el contexto son fundamentales.

Amazon presenta el modelo de inteligencia artificial de texto a voz más grande jamás creado

Łajszczak, Mateusz, Guillermo Cámbara, Yang Li, Fatih Beyhan, Arent van Korlaar, Fan Yang, Arnaud Joly, et al. «BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data». arXiv, 15 de febrero de 2024. https://doi.org/10.48550/arXiv.2402.08093.

Un equipo de investigadores de inteligencia artificial en Amazon AGI anunció el desarrollo de lo que describen como el modelo de texto a voz más grande jamás creado. Por «más grande», se refieren a tener la mayor cantidad de parámetros y utilizar el conjunto de datos de entrenamiento más grande. Han publicado un artículo en el servidor de preimpresión arXiv describiendo cómo se desarrolló y entrenó el modelo.

Los LLMs (modelos de lenguaje de largo alcance) como ChatGPT han llamado la atención por su capacidad parecida a la humana para responder preguntas inteligentemente y crear documentos de alto nivel. Pero la IA todavía está abriéndose paso en otras aplicaciones convencionales también. En este nuevo esfuerzo, los investigadores intentaron mejorar la capacidad de una aplicación de texto a voz aumentando su número de parámetros y agregando a su base de entrenamiento.

El nuevo modelo, llamado Big Adaptive Streamable TTS with Emergent abilities (BASE TTS para abreviar), tiene 980 millones de parámetros y fue entrenado utilizando 100.000 horas de voz grabada (encontrada en sitios públicos), la mayoría de las cuales estaba en inglés. El equipo también le dio ejemplos de palabras y frases habladas en otros idiomas para permitir que el modelo pronunciara correctamente frases conocidas cuando las encuentre, como «au contraire», por ejemplo, o «adiós, amigo».

El equipo en Amazon también probó el modelo en conjuntos de datos más pequeños, con la esperanza de aprender dónde desarrolla lo que se ha conocido en el campo de la IA como una calidad emergente, en la que una aplicación de IA, ya sea un LLM o una aplicación de texto a voz, parece repentinamente alcanzar un nivel más alto de inteligencia. Descubrieron que para su aplicación, un conjunto de datos de tamaño mediano fue donde ocurrió el salto a un nivel más alto, a 150 millones de parámetros.

También señalaron que el salto involucraba una serie de atributos lingüísticos, como la capacidad de usar sustantivos compuestos, expresar emociones, usar palabras extranjeras, aplicar paralingüística y puntuación, y hacer preguntas con énfasis en la palabra correcta en una oración.

El equipo dice que BASE TTS no será lanzado al público, temen que pueda ser utilizado de manera poco ética, en cambio, planean usarlo como una aplicación de aprendizaje. Esperan aplicar lo que han aprendido hasta ahora para mejorar la calidad de sonido humano de las aplicaciones de texto a voz en general.

Acusan a Amazon de violar la ley de privacidad infantil al conservar para siempre las grabaciones de voz de los niños con «Alexa» y socavar las peticiones de borrado de los padres

«FTC and DOJ Charge Amazon with Violating Children’s Privacy Law by Keeping Kids’ Alexa Voice Recordings Forever and Undermining Parents’ Deletion Requests | Federal Trade Commission». Accedido 1 de junio de 2023.

Ver noticia

La Comisión Federal de Comercio y el Departamento de Justicia exigirán a Amazon que revise sus prácticas de supresión de datos y aplique estrictas salvaguardias de privacidad para resolver las acusaciones de que la empresa infringió la norma COPPA (Children’s Online Privacy Protection Act Rule) y engañó a los padres y usuarios del servicio de asistente de voz Alexa sobre sus prácticas de supresión de datos.

Según una denuncia presentada por el Departamento de Justicia en nombre de la FTC, Amazon impidió que los padres ejercieran sus derechos de eliminación en virtud de la Regla COPPA, conservó datos sensibles de voz y geolocalización durante años y los utilizó para sus propios fines, mientras ponía los datos en riesgo de daño por acceso innecesario.

«El historial de Amazon de engañar a los padres, conservar indefinidamente las grabaciones de los niños y hacer caso omiso de las solicitudes de supresión de los padres violó la COPPA y sacrificó la privacidad en aras de los beneficios», dijo Samuel Levine, Director de la Oficina de Protección del Consumidor de la FTC. «La COPPA no permite a las empresas conservar los datos de los niños para siempre por ningún motivo, y menos para entrenar sus algoritmos».

En virtud de la propuesta de orden judicial federal presentada también por el DOJ, se exigirá a Amazon que elimine las cuentas inactivas de menores y determinadas grabaciones de voz e información de geolocalización, y se le prohibirá utilizar esos datos para entrenar sus algoritmos. La orden propuesta debe ser aprobada por el tribunal federal para entrar en vigor.

Según la demanda, Amazon aseguró de forma destacada y reiterada a sus usuarios, incluidos los padres, que podían eliminar las grabaciones de voz recogidas por su asistente de voz Alexa y la información de geolocalización recopilada por la aplicación Alexa. Sin embargo, la empresa incumplió estas promesas cuando conservó parte de esta información durante años y utilizó los datos que retuvo ilegalmente para ayudar a mejorar su algoritmo Alexa, según la denuncia.

La voz se está convirtiendo en una tecnología de búsqueda primaria

Voice is becoming a primary search technology. ComputerWor. By Jonny Evans, Computerworld JUL 20, 2021 8:15 AM PDT

Texto completo

Vixen Labs y Open Voice Network hablaron con 6.000 personas en EE. UU., Reino Unido y Alemania para averiguar cómo utilizan sus asistentes de voz. Los resultados  están disponibles aquí.

Uno de los grandes hallazgos es la ubicuidad. Más del 30% de nosotros usamos asistentes de voz a diario, y alrededor del 23% los usamos varias veces al día. Casi todo el mundo sabe que estas cosas existen.

El informe también proporciona datos demográficos útiles. Me interesó saber que el 60% de los usuarios de 18 a 24 años y el 36% de los de 25 a 34 años utilizan Siri más que cualquier otro asistente. Alexa se usa más en grupos demográficos más antiguos, mientras que el Asistente de Google también es popular. (Cortana y Bixby son jugadores menores en el espacio).