Actualmente, se cuenta con distintos modelos de inteligencia artificial (IA) generativa en el mercado, pero los avances en esta tecnología también están yendo por otros caminos. Por ejemplo, unos investigadores encontraron una forma de generar imágenes por IA simplemente recogiendo distintos sonidos de paisajes.
De acuerdo con el sitio web Sciencedirect, investigadores de la Universidad de Texas en Austin (Estados Unidos), tomaron los sonidos característicos de ciertas localizaciones del mundo de entornos rurales y urbanos, y las recrearon utilizando inteligencia artificial.
En otras palabras, este generador de imágenes es capaz de crear calles únicamente escuchando distintas grabaciones de audio. Para ello utiliza los datos de audio y visuales para entrenarse.
TE PUEDE INTERESAR: Esto fue lo más buscado en el mundo durante el 2024 en Google: lista completa
Cómo la IA convierte sonidos en imágenes
- Los Investigadores llevaron a cabo el estudio, trabajando para convertir los sonidos de las grabaciones de audio en imágenes bastante precisas de Street View como las que se ven en Google Street View.
- Utilizaron datos de audio y visuales para entrenar su generador de imágenes de IA basado en sonido. A continuación, probaron utilizando solo audio para recrear algunos de los lugares desde los que capturaron paisajes sonoros.
- Los resultados son bastante convincentes, mostrando hasta qué punto los entornos acústicos de una zona pueden ayudar a representar la naturaleza visual del lugar.
- Los investigadores utilizaron un video de YouTube, así como clips de audio de ciudades de América del Norte, Asia y Europa, para llevar a cabo sus pruebas.
- Crearon clips de audio de 10 segundos y fotografías de imágenes fijas de las ubicaciones para entrenar el modelo de IA utilizado en su generador de imágenes.
- Luego compararon las imágenes creadas a partir de 100 clips de audio con fotos tomadas de sus respectivas ubicaciones del mundo real utilizando evaluaciones humanas y computadoras.
- Descubrieron que el generador de imágenes de IA basado en sonido era capaz de capturar la escena con precisión solo en función de las propiedades acústicas, algo que anteriormente era una capacidad exclusivamente humana.
Foto: Gerd Altmann en Pixabay