
Google ha presentado VideoPoet, un nuevo sistema generativo de inteligencia artificial que puede crear y editar videos a partir de texto y otros inputs.
Google presenta VideoPoet, un sistema de inteligencia artificial que puede generar y editar video a partir de texto y otros inputs, incluyendo texto a video, imagen a video y estilización de video.
VideoPoet puede generar videos de longitud variable y con una variedad de movimientos y estilos, según el contenido de texto. También puede tomar una imagen de entrada y animarla con una indicación, predecir flujo óptico e información de profundidad para estilización de video, y generar audio. Por defecto, el modelo genera videos en orientación vertical para adaptar su salida a contenido de formato corto.
VideoPoet utiliza múltiples tokenizadores (MAGVIT V2 para video e imagen y SoundStream para audio) para entrenar un modelo de lenguaje autoregresivo en modalidades de video, imagen, audio y texto. También se puede controlar el movimiento de la cámara en los videos mediante indicaciones de texto que describen el movimiento de la cámara.
En el futuro, el marco podría admitir generación de cualquier tipo a cualquier tipo y ampliarse a texto a audio, audio a video y subtitulado de video para habilitar aplicaciones aún más versátiles.
Aunque la compañía no ha revelado si tiene planes de poner el modelo a disposición, la integración en un eventual Bard Advanced parece posible. También, Google ha producido un cortometraje utilizando VideoPoet, utilizando Bard como guionista.