Microsoft Research Asia, una división de la compañía fundada por el gigante informático, presentó Vasa-1. Se trata de un modelo de Inteligencia Artificial (IA) que puede crear un video animado sincronizado de una persona hablando o cantando a partir de una sola foto y una pista de audio existente.
Vasa-1 tiene la capacidad de generar expresiones faciales y movimientos de cabeza para una imagen fija existente y los movimientos de labios apropiados para que coincidan con un discurso o una canción.
Según explican sus creadores, Vasa-1 (abreviatura de ‘Visual Affective Skills Animator’, o ‘Animador de Habilidades Afectivas Visuales’ en español) toma el retrato de una persona y hace que literalmente hable, produciendo una muy convincente sincronización entre sus labios y el archivo de audio que se desee.
Además, captura un amplio espectro de matices faciales y movimientos naturales de la cabeza que contribuyen a la percepción de autenticidad y vivacidad.
TE PUEDE INTERESAR: MathGPT: Conoce La IA Que Resuelve Problemas Matemáticos
Cómo funciona Vasa-1
- Para demostrar las impresionantes capacidades del modelo, Microsoft compartió varios ejemplos utilizando rostros humanos inexistentes (por razones de privacidad) creados con las redes neuronales de generación de imágenes DALL-E 3 y StyleGAN2.
- La galería incluye avatares cantando y hablando en sincronización con pistas de audio pregrabadas y muestras de cómo se pueden controlar para que expresen diferentes estados de ánimo o cambien su mirada.
- Los avatares emulan comportamientos conversacionales humanos a través de gesticulaciones faciales y el movimiento de los ojos y la cabeza.
- Vasa-1 también puede procesar ‘fotografías artísticas, audios cantados y de habla no inglesa’.
- En uno de los ejemplos, sus creadores lograron que la famosa obra maestra de Leonardo da Vinci, la ‘Mona Lisa’, interpretara el ‘Paparazzi Rap’ que una vez cantó la actriz Anne Hathaway.
Vasa-1 está en pruebas
- De momento, Vasa-1 está en etapa de aprendizaje y lo revelado esta semana es solo una demostración de la investigación, por lo cual no está disponible para que lo pruebe nadie ajeno al equipo de Microsoft Research.
- La empresa dejó claro que no tiene previsto lanzarlo al público, en la medida en que es consciente de los peligros de este tipo de tecnología.
- El modelo no es perfecto, pero supera significativamente a otros similares de animación de voz en términos de realismo, expresividad y eficiencia, por lo que existe el riesgo de ser ‘potencialmente mal utilizado’ para suplantar identidades, afirma Microsoft.
Foto: Microsoft.