Google tiene su propia IA que hace videos a partir de textos

Google se pliega a lo hecho por Meta y desarrolla una inteligencia artificial que crea clips a partir de breves descripciones textuales.

Juan José CastilloJuan José Castillo  ·  octubre 6, 2022
Compartir
Google tiene su propia IA que hace videos a partir de textos
Foto: La Guía Central / Google

Para llevar simples textos a videos en alta definición con inteligencia artificial (IA), Google también tiene su fórmula y se llama simplemente Imagen Video. El gigante se pone a tono con la tendencia, pues Meta hizo lo propio con los clips a través de su herramienta Make-A-Video.

La Guía Central también recomienda:

Según la empresa de Mountain View, el sistema se basa “en una cascada de modelos de difusión de video”. La IA genera clips utilizando un modelo de generación de video base. Además, emplea “una secuencia de modelos intercalados de superresolución de video espacial y temporal”.

Tras los pasos de Meta: IA de Google hace videos inspirada en textos

La herramienta es capaz de tomar decisiones de diseño, como la elección de modelos de superresolución temporal y espacial. La IA de Google también puede determinar las resoluciones de los elementos y elegir la parametrización virtual de los modelos en sus videos.

Google armó Imagen Video tomando como referencia su software Imagen, que convierte texto en gráficas planas. La fórmula es similar a la de Dall-e, el programa desarrollado por OpenAI que crea imágenes con descripciones textuales.

“Confirmamos y transferimos los resultados de trabajos anteriores sobre la generación de imágenes basadas en la difusión al entorno de la generación de video”, señalaron desde el Brain Team de Google Research. “Aplicamos la destilación progresiva a nuestros modelos de video con una guía sin clasificador para un muestreo rápido y de alta calidad”, añadieron.

La Guía Central también recomienda:

Según el equipo, Imagen Video no solo es capaz de generar videos en alta calidad. Además, expresaron, “tiene un alto grado de controlabilidad y conocimiento del mundo”. Al respecto, cerraron afirmando que mostró capacidad de generar diversos videos y animaciones de texto “en varios estilos artísticos y con comprensión de objetos en 3D”.