FOLOU

Crear videos a partir de fotos: Google te deja hacerlo con Vlogger

Los investigadores de Google desarrollaron un nuevo sistema de Inteligencia Artificial (IA) que puede generar videos realistas de personas hablando, gesticulando y moviéndose, a partir de una sola foto fija. La tecnología se llama Vlogger.

De acuerdo con Google en su página de GitHub, Vlogger se basa en modelos avanzados de aprendizaje automático para sintetizar imágenes realistas. 

Descrito en un artículo de investigación titulado ‘Vlogger: Multimodal Diffusion for Embodied Avatar Synthesis’, el modelo de IA puede tomar una foto de una persona y un clip de audio como entrada. 

Luego, la IA genera un video que coincida con el audio, mostrando a la persona diciendo las palabras y haciendo las expresiones faciales, los movimientos de la cabeza y los gestos de las manos correspondientes. 

TE PUEDE INTERESAR: IPhone SE 4, IPhone Plegable, Lentes AR Y Más: Se Filtran Los Planes De Apple 

Así es Vlogger

  1. Generación multimodal:
    1. Vlogger combina imágenes y audio para crear videos realistas.
    2. Toma como entrada una foto de una persona y un clip de audio, y luego produce un video que coincide con el audio. 
    3. En el video, la persona habla las palabras y realiza expresiones faciales, movimientos de cabeza y gestos de manos correspondientes.
  2. Modelos de difusión: los investigadores utilizaron modelos de difusión, que han demostrado un rendimiento notable en la generación de imágenes realistas a partir de descripciones de texto. Al extender estos modelos al dominio del video y entrenarlos en un nuevo conjunto de datos llamado MENTOR, lograron crear un sistema de IA que puede animar imágenes estáticas de manera convincente.
  3. Enorme conjunto de datos: el conjunto de datos MENTOR contiene más de 800.000 identidades diversas y más de 2.200 horas de video, lo que permitió a Vlogger aprender a generar videos de personas con diferentes etnias, edades, atuendos, poses y entornos sin sesgos.
  4. Aplicaciones potenciales: Vlogger tiene aplicaciones como doblaje automático de videos a otros idiomas, edición de videos y creación de videos completos de una persona a partir de una sola foto.

Foto: Google. 

Salir de la versión móvil