Reseña práctica

Gemini Omni: «crea cualquier cosa desde cualquier cosa» probado

El nuevo modelo omni-modal de Google. Combina texto, imagen, audio, vídeo como entrada. Genera cualquiera como salida.

Por el equipo de contenido de Vuela.ai ·

Oficial de deepmind.google.

Lo que clava

  • Entrada/salida multimodal en un solo modelo
  • Fuerte razonamiento físico entre medios
  • Despliegue en YouTube Shorts y Flow
  • Anclado en el conocimiento del mundo real

Donde flaquea

  • Despliegue por región y tier
  • La latencia es mayor que en modelos uni-modales
  • La calidad varía según el tipo de salida
  • Sin controles avanzados de vídeo aún (movimientos de cámara, longitud)

Gemini Omni es la respuesta de Google a la siguiente pregunta obvia tras Veo, Nano Banana y el resto del stack Gemini: ¿y si un solo modelo lo manejara todo? La promesa de Omni es que puedes combinar imágenes, audio, vídeo y texto como entrada y generar cualquiera como salida, todo anclado en el conocimiento del mundo real de Gemini. El despliegue inicial llegó a suscriptores AI Pro y Ultra en mayo de 2026.

Probé Omni con escenarios de entrada mezclada: foto + texto a vídeo, audio + texto a vídeo, texto a salida multimodal. Aquí está dónde el enfoque de modelo único realmente compensa y dónde los modelos dedicados siguen ganando.

¿Qué es Gemini Omni?

Gemini Omni es la familia de modelos omni-modales de Google DeepMind, construida sobre el stack Gemini 3. La capacidad estrella es mezclar modalidades de entrada (texto + imagen + audio + vídeo) libremente y producir salida en cualquier modalidad. El primer lanzamiento, Gemini Omni Flash, se centra en generación de vídeo anclada en razonamiento del mundo real.

La distribución es por etapas: despliegue a suscriptores Google AI Plus, Pro y Ultra globalmente por la app Gemini y Google Flow, y llegada a YouTube Shorts Remix y la app YouTube Create para creadores.

La historia de Google DeepMind detrás del stack de vídeo Veo y Omni. Official from Google DeepMind.

Cómo conseguí acceso

Por Google AI Pro (19,99 $/mes). Omni apareció en la app Gemini automáticamente. La integración con Flow llegó una semana después. Para YouTube Shorts Remix necesitas cuenta de creador de YouTube en la región del despliegue.

Los resultados de las pruebas

Prueba 1. Foto + texto a vídeo

Prompt: “Entrada: una foto fija de una taza de café. Texto: «Anima el vapor subiendo lentamente, luego una mano entra para coger la taza. Luz suave de ventana.»”

Demo estilo photo-to-video del stack de vídeo de Google. Official from Google DeepMind.

Omni produjo un clip de 6 segundos que respetó tanto la foto del producto como la dirección del prompt. La animación del vapor fue correcta, la mano entró por la derecha y la identidad de la taza se mantuvo exacta. Prueba clara del enfoque multi-input.

Prueba 2. Audio + texto a vídeo

Prompt: “Entrada: una grabación de VO diciendo «Bienvenidos al show». Texto: «Genera una intro de show de 5 segundos donde un presentador hace lip-sync de este audio en un estudio de TV.»”

El lip-sync con el audio aportado era la prueba. Omni entregó un presentador cuyos labios coincidieron con el timing del VO durante los 5 segundos. El entorno de estudio fue genérico pero coherente. Es el flujo que Veo 4 no puede hacer de forma nativa: audio externo como entrada.

Prueba 3. Texto a salida multimodal

Prompt: “Genera un anuncio de producto completo de 10 segundos: vídeo, guion de voz, música. Sujeto: una botella de agua inteligente.”

Omni produjo el vídeo de 10 segundos con VO sincronizada y una base musical básica. El guion fue genérico («Mantente hidratado. Mantente inteligente.») pero el timing y la mezcla de audio fueron correctos. Para acabado de anuncio completo sigues queriendo un copywriter y una pasada de música.

Las partes molestas

Ritmo de despliegue. Omni se está desplegando por región y plan. UE y algunos mercados asiáticos aún van por detrás.

Latencia. Los renders de modalidad mezclada tardan de 30 a 90 segundos. Más lento que los modelos dedicados en su propia modalidad.

Varianza de calidad de salida. La salida de vídeo es buena. La salida de audio es funcional. La salida de imagen se queda por detrás del Nano Banana Pro dedicado en trabajo de edición.

¿Vale la pena el precio?

Para equipos ya en Google AI Pro, Omni está incluido y vale la pena para escenarios de entrada mezclada que otros modelos no pueden manejar.

Para trabajo especializado en una sola modalidad (vídeo puro, imagen pura), los modelos dedicados (Veo 4, Nano Banana Pro) siguen produciendo mayor calidad a menor latencia.

Cómo encaja Vuela.ai en un flujo con Omni

Gemini Omni es un generalista potente. Aún no maneja los trabajos de pipeline que Vuela.ai automatiza: clonar un formato viral, traducir con lip-sync entre idiomas, reutilizar un render en una docena de relaciones de aspecto.

Usa Omni para los puentes de modalidad mezclada, usa Vuela.ai para el pipeline que convierte una generación en un activo enviado.

Salida multimodal nivel Omni dentro de un pipeline real

Vuela.ai te da los últimos modelos en un plan plano más clonador, traductor y más de 70 herramientas.

El veredicto

Gemini Omni es un lanzamiento importante de Google y el primer modelo de generación omni-modal creíble. Para escenarios con entrada mezclada, nada compite hoy.

Para trabajo especializado uni-modal, los modelos dedicados (Veo 4 para vídeo, Nano Banana Pro para imágenes) siguen produciendo mayor calidad. Usa Omni cuando la mezcla de entrada sea el desbloqueo.

FAQ de la reseña de Gemini Omni

¿Cómo obtengo acceso a Gemini Omni? +

Los suscriptores de Google AI Plus, Pro y Ultra obtienen acceso por la app Gemini y Google Flow. YouTube Shorts Remix y la app YouTube Create también exponen Omni para creadores en regiones de despliegue.

¿Gemini Omni es lo mismo que Veo 4? +

No. Veo 4 es un modelo texto-a-vídeo dedicado. Omni es un modelo multimodal que puede tomar vídeo, audio, imagen y texto como entrada y emitir cualquiera como salida. Viven en el mismo stack Gemini y se complementan.

¿Qué es Gemini Omni Pro? +

Un modelo Omni de capa superior anunciado junto al lanzamiento de Flash. Los detalles y el calendario de despliegue no se han confirmado públicamente a fecha de mayo de 2026.

¿Gemini Omni genera audio nativo? +

Sí. El audio es una de las modalidades de entrada y salida. Soporta clonación de voz a partir de un VO aportado.

¿Puedo usar Gemini Omni dentro de Vuela.ai? +

Vuela.ai expone generación nivel Omni junto con el resto del catálogo Gemini y competidores. Un plan plano, sin incertidumbre de región de despliegue.

Construye tu pipeline con Vuela.ai

Acceso plano a los mejores modelos, más clonador, traductor lip-sync y más de 70 herramientas.