Gemini Omni: crea y transforma videos con lenguaje natural

Soramir Torres

hace 2 meses

Durante el Google I/O se anunció el lanzamiento de Gemini Omni, la tecnología más avanzada de la compañía en el terreno de la inteligencia artificial (IA) multimodal. El modelo combina la capacidad de razonamiento profundo característica de la familia Gemini con la facultad de generar y transformar secuencias de vídeo de alta calidad a partir de cualquier combinación de estímulos, marcando un hito en la creación de contenido digital.

La suite debuta con Gemini Omni Flash, un motor optimizado que expande el legado fotográfico de Nano Banana. A diferencia de las herramientas tradicionales aisladas, Gemini Omni es un sistema multimodal nativo que procesa simultáneamente audio, imágenes, vídeo y texto para fusionarlos en una única respuesta audiovisual cohesionada.

La tecnología ya ha comenzado su distribución global y promete redefinir los flujos de trabajo en industrias creativas, la producción de formatos cortos y el desarrollo de explicaciones visuales complejas para el sector educativo.

TE PUEDE INTERESAR: Gemini 3.5 Flash: más rápida y eficiente en tareas de codificación

Esto es lo que puede hacer Gemini Omni

Consistencia de escena y personajes. Al solicitar cambios mediante lenguaje natural, el sistema mantiene estables los rostros de los personajes, la iluminación general y las leyes físicas del entorno. Evita las habituales distorsiones o pérdida de coherencia de la IA generativa común.
Reimaginación de la acción. Los usuarios pueden cargar un video doméstico y ordenar modificaciones físicas complejas, tales como pedir que «cuando una persona toque un espejo, este ondule como líquido y su brazo se transforme en material reflectante».
Comprensión intuitiva de la física. El modelo asimila conceptos de cinemática, gravedad, energía cinética y dinámica de fluidos. Esto le permite simular de forma exacta trayectorias realistas, como el movimiento fluido de una canica en una pista de reacción en cadena.
Modelado del conocimiento mundial. Gracias a su conexión con la base de datos de Google, puede generar animaciones educativas e instructivas complejas, como explicaciones científicas exactas del plegamiento de proteínas emulando la técnica de animación stop-motion con plastilina.

Avatares digitales y el protocolo de seguridad SynthID

Google ha integrado una función que permite a los usuarios diseñar videos utilizando su propio Avatar digital.
Esta herramienta genera una réplica virtual que imita con precisión los movimientos y utiliza la voz real del usuario para locutar contenidos de manera automatizada.
Como medida de seguridad, cada archivo audiovisual exportado a través de este ecosistema incluye la marca de agua digital invisible SynthID.
Este identificador imperceptible codifica los metadatos del archivo a nivel de píxel, permitiendo a cualquier internauta verificar el origen y las ediciones de la pieza directamente mediante el navegador Google Chrome, la app de Gemini o el buscador tradicional de Google.

Calendario de despliegue y accesibilidad

El lanzamiento de Gemini Omni Flash se ha estructurado de forma inmediata y masiva para diferentes perfiles de usuario:

Usuarios de pago: Ya se encuentra disponible a nivel mundial para todos los suscriptores de las modalidades Google AI Plus, Pro y Ultra a través de la aplicación oficial de Gemini y la suite creativa Google Flow.
Creadores de contenido: Se distribuirá de forma totalmente gratuita a partir de esta semana dentro de las herramientas de YouTube Shorts y la aplicación móvil YouTube Create.

Foto: Google.

TE PUEDE INTERESAR: Gemini 3.5 Flash: más rápida y eficiente en tareas de codificación

Esto es lo que puede hacer Gemini Omni

Avatares digitales y el protocolo de seguridad SynthID

Calendario de despliegue y accesibilidad

Comparte este artículo: