Gemini Omni es la respuesta de Google a la siguiente pregunta obvia tras Veo, Nano Banana y el resto del stack Gemini: ¿y si un solo modelo lo manejara todo? La promesa de Omni es que puedes combinar imágenes, audio, vídeo y texto como entrada y generar cualquiera como salida, todo anclado en el conocimiento del mundo real de Gemini. El despliegue inicial llegó a suscriptores AI Pro y Ultra en mayo de 2026.
Probé Omni con escenarios de entrada mezclada: foto + texto a vídeo, audio + texto a vídeo, texto a salida multimodal. Aquí está dónde el enfoque de modelo único realmente compensa y dónde los modelos dedicados siguen ganando.
¿Qué es Gemini Omni?
Gemini Omni es la familia de modelos omni-modales de Google DeepMind, construida sobre el stack Gemini 3. La capacidad estrella es mezclar modalidades de entrada (texto + imagen + audio + vídeo) libremente y producir salida en cualquier modalidad. El primer lanzamiento, Gemini Omni Flash, se centra en generación de vídeo anclada en razonamiento del mundo real.
La distribución es por etapas: despliegue a suscriptores Google AI Plus, Pro y Ultra globalmente por la app Gemini y Google Flow, y llegada a YouTube Shorts Remix y la app YouTube Create para creadores.
Cómo conseguí acceso
Por Google AI Pro (19,99 $/mes). Omni apareció en la app Gemini automáticamente. La integración con Flow llegó una semana después. Para YouTube Shorts Remix necesitas cuenta de creador de YouTube en la región del despliegue.
Los resultados de las pruebas
Prueba 1. Foto + texto a vídeo
Prompt: “Entrada: una foto fija de una taza de café. Texto: «Anima el vapor subiendo lentamente, luego una mano entra para coger la taza. Luz suave de ventana.»”
Omni produjo un clip de 6 segundos que respetó tanto la foto del producto como la dirección del prompt. La animación del vapor fue correcta, la mano entró por la derecha y la identidad de la taza se mantuvo exacta. Prueba clara del enfoque multi-input.
Prueba 2. Audio + texto a vídeo
Prompt: “Entrada: una grabación de VO diciendo «Bienvenidos al show». Texto: «Genera una intro de show de 5 segundos donde un presentador hace lip-sync de este audio en un estudio de TV.»”
El lip-sync con el audio aportado era la prueba. Omni entregó un presentador cuyos labios coincidieron con el timing del VO durante los 5 segundos. El entorno de estudio fue genérico pero coherente. Es el flujo que Veo 4 no puede hacer de forma nativa: audio externo como entrada.
Prueba 3. Texto a salida multimodal
Prompt: “Genera un anuncio de producto completo de 10 segundos: vídeo, guion de voz, música. Sujeto: una botella de agua inteligente.”
Omni produjo el vídeo de 10 segundos con VO sincronizada y una base musical básica. El guion fue genérico («Mantente hidratado. Mantente inteligente.») pero el timing y la mezcla de audio fueron correctos. Para acabado de anuncio completo sigues queriendo un copywriter y una pasada de música.
Las partes molestas
Ritmo de despliegue. Omni se está desplegando por región y plan. UE y algunos mercados asiáticos aún van por detrás.
Latencia. Los renders de modalidad mezclada tardan de 30 a 90 segundos. Más lento que los modelos dedicados en su propia modalidad.
Varianza de calidad de salida. La salida de vídeo es buena. La salida de audio es funcional. La salida de imagen se queda por detrás del Nano Banana Pro dedicado en trabajo de edición.
¿Vale la pena el precio?
Para equipos ya en Google AI Pro, Omni está incluido y vale la pena para escenarios de entrada mezclada que otros modelos no pueden manejar.
Para trabajo especializado en una sola modalidad (vídeo puro, imagen pura), los modelos dedicados (Veo 4, Nano Banana Pro) siguen produciendo mayor calidad a menor latencia.
Cómo encaja Vuela.ai en un flujo con Omni
Gemini Omni es un generalista potente. Aún no maneja los trabajos de pipeline que Vuela.ai automatiza: clonar un formato viral, traducir con lip-sync entre idiomas, reutilizar un render en una docena de relaciones de aspecto.
Usa Omni para los puentes de modalidad mezclada, usa Vuela.ai para el pipeline que convierte una generación en un activo enviado.
Salida multimodal nivel Omni dentro de un pipeline real
Vuela.ai te da los últimos modelos en un plan plano más clonador, traductor y más de 70 herramientas.
El veredicto
Gemini Omni es un lanzamiento importante de Google y el primer modelo de generación omni-modal creíble. Para escenarios con entrada mezclada, nada compite hoy.
Para trabajo especializado uni-modal, los modelos dedicados (Veo 4 para vídeo, Nano Banana Pro para imágenes) siguen produciendo mayor calidad. Usa Omni cuando la mezcla de entrada sea el desbloqueo.