Google presenta Genie, un modelo de inteligencia artificial que crea mundos virtuales jugables a partir de una sola imagen.

Genie

Ryan Morrison. «Are We Close to the Holodeck? Google Unveils Genie — an AI Model Creating Playable Virtual Worlds from a Single Image». Tom’s Guide, 26 de febrero de 2024. https://www.tomsguide.com/ai/ai-image-video/are-we-close-to-the-holodeck-google-unveils-genie-an-ai-model-creating-playable-virtual-worlds-from-a-single-image.

Los investigadores de Google han publicado un nuevo modelo de inteligencia artificial que puede tomar un texto de instrucción, un boceto o una idea y convertirla en un mundo virtual con el que puedes interactuar y jugar.

En el mundo de la inteligencia artificial, la gente habla de abrir la Caja de Pandora o liberar al genio de la lámpara para describir la realidad de poder crear contenido con relativamente poco esfuerzo. La realidad es que, al igual que un ser humano pasa años aprendiendo una habilidad, los modelos de IA requieren un entrenamiento extenso.

Genie, el modelo de mundo virtual fue entrenado con jugabilidad y otros videos encontrados en línea y actualmente solo es una vista previa de investigación. Los juegos son más tipo plataforma 2D que VR completo.

Aunque esto aún podría estar lejos de un verdadero holodeck como los de Star Trek, sí indica que algún día podría ser posible entrar en una habitación y crear una aventura completamente interactiva con nada más que unas pocas palabras.

Lo que esto realmente significa es que existen numerosas herramientas en el mercado que pueden tomar un boceto de un diseñador gráfico de un sitio web o aplicación y convertirlo en código.

No siempre es el mejor código, pero crea un prototipo funcional que se puede utilizar. También existen herramientas de inteligencia artificial para crear un sitio web a partir de una indicación de texto.

Con Genie, básicamente puedes darle un boceto en un trozo de papel, una obra de arte digital perfectamente elaborada o incluso una representación generada por IA de un mundo 2D y Genie hace el resto.

Genera las imágenes y otros activos necesarios para convertir tu boceto en un mundo abierto completamente realizado y luego predice el siguiente fotograma de píxeles en función de las acciones proporcionadas por el jugador.

Los creadores utilizaron un tokenizador que comprimió el video en tokens discretos. Eso se envía luego a un modelo de acción para codificar las transiciones entre dos fotogramas como una de ocho acciones latentes. Luego, se utiliza otro modelo para predecir fotogramas futuros. La solución para unirlo todo fue la misma que el avance que OpenAI tuvo con Sora: muchos datos y la misma potencia informática.