La nueva IA de Google genera bandas sonoras y diálogos para videos

Soramir Torres

, INTERNET

El laboratorio de Inteligencia Artificial (IA) DeepMind de Google está trabajando en una nueva tecnología que puede generar bandas sonoras, incluso diálogos, para acompañar a los videos. Se trata del proyecto ‘V2A’.

En su publicación de blog, el equipo de DeepMind explica que el sistema puede comprender píxeles sin procesar y combinar esa información con indicaciones de texto para crear efectos de sonido para lo que sucede en la pantalla. 

El laboratorio compartió su progreso en el proyecto de tecnología de video a audio (V2A), que se puede combinar con Google Veo y otras herramientas de creación de video como Sora de OpenAI. 

TE PUEDE INTERESAR: Motorola Presentará Sus Nuevos Plegables El 25 De Junio

Más sobre la IA de Google para bandas sonoras

  • La herramienta también se puede utilizar para hacer bandas sonoras para imágenes tradicionales, como películas mudas y cualquier otro video sin sonido.
  • Los investigadores de DeepMind entrenaron la tecnología con videos, audios y anotaciones generadas por IA que contienen descripciones detalladas de sonidos y transcripciones de diálogos. Dijeron que al hacerlo, la tecnología aprendió a asociar sonidos específicos con escenas visuales. 
  • Puedes introducir indicaciones positivas para dirigir la salida hacia la creación de los sonidos que desees o indicaciones negativas para alejarla de los sonidos que no desea. Por ejemplo, el equipo utilizó el mensaje: ‘Cinemática, thriller, película de terror, música, tensión, ambiente, pisadas sobre hormigón’.
  • Los investigadores admiten que todavía están tratando de abordar las limitaciones existentes de su tecnología V2A, como la caída en la calidad de audio de la salida que puede ocurrir si hay distorsiones en el video de origen. También siguen trabajando para mejorar las sincronizaciones de labios para generar diálogos. 
  • El equipo de DeepMind se compromete a someter la tecnología a ‘rigurosas evaluaciones y pruebas de seguridad’ antes de lanzarla al mundo.
  • Según el sitio web TechCrunch, el equipo de DeepMind no es el primero en lanzar una herramienta de IA que pueda generar efectos de sonido, ya que ElevenLabs también lanzó una recientemente. 

Foto: DeepMind.

Deja una respuesta