Reseña práctica

Probé Google Veo 4: escenas más largas, mejor física

Qué cambió desde Veo 3, qué aguanta bajo prompts de cliente y dónde el despliegue sigue ralentizado.

Por el equipo de contenido de Vuela.ai ·

Cover de deepmind.google/models/veo.

Lo que clava

  • Escenas más largas en toma única (hasta 12 segundos)
  • Persistencia de identidad en prompts multi-shot
  • Más detalle de textura y piel que Veo 3
  • Audio nativo a la altura de Veo 3

Donde flaquea

  • Despliegue escalado, gating por región habitual
  • API en torno a 0,60 $/segundo con audio
  • Atado al ecosistema Google
  • Sin clonador ni traductor lip-sync de serie

Veo 4 es el siguiente lanzamiento de la familia texto-a-vídeo de Google DeepMind. La apuesta es incremental, no revolucionaria: coger las partes de Veo 3 que funcionaron (audio nativo, fidelidad al prompt) y empujar las que no (longitud, persistencia de identidad, nitidez). Tras dos semanas de pruebas en la app Gemini, Flow y la API, mi respuesta es que Veo 4 es la decisión correcta para anuncios short-form y vídeo de producto, y todavía no es la respuesta correcta para clonar, traducir o cualquier cosa que necesite pipeline.

Qué cambió en Veo 4

Tres deltas concretos frente a Veo 3 en los prompts que corrí. Longitud de toma única pasa de 8 a 12 segundos antes de que el modelo recurra a una extensión encadenada. Persistencia de identidad entre dos prompts de seguimiento es notablemente mejor: caras, vestuario y props sobreviven a un corte sin la deriva «gemelo» que perseguía a Veo 3.1. Detalle de textura y piel sube un nivel; los planos cerrados ya no tienen el look ligeramente céreo que producía Veo 3 bajo luz dura.

El audio es esencialmente el mismo motor que Veo 3, pero la prosodia de diálogo es más limpia en líneas emocionales. La prueba «sonrisa triste / acento británico» que daba a Veo 3.1 cuatro de cinco tomas pega cinco de cinco en Veo 4. La generación de música no cambia, lo cual está bien para camas ambientales y no basta para una pista terminada.

Cómo conseguí acceso

Google AI Pro (19,99 $/mes) desbloqueó Veo 4 en Gemini y Flow el día que lo pedí. AI Ultra (249,99 $/mes) desbloquea cuotas diarias mayores y la cola de render de mayor nivel. Para pruebas de API provisioné un endpoint gestionado con facturación medida en torno a 0,60 $/segundo de vídeo generado con audio (una capa Fast está en torno a 0,30 $/segundo sin audio).

Las tres pruebas que corrí

  1. Toma única de 12 segundos. Una mujer caminando de un patio soleado a un pasillo en sombra, cámara siguiendo por detrás. La transición de iluminación era la parte implacable.
  2. Identidad en dos tomas. Un hombre con blazer marino en plano uno, mismo hombre entrando en un café en plano dos. ¿Cara y vestuario bloqueados o deriva?
  3. Diálogo + movimiento. Un personaje corriendo mientras grita una frase por encima del hombro. Movimiento y lip-sync combinados.
Composición de escena de formato largo en la familia Veo. Muestra oficial de Google DeepMind.

Prueba 1. Toma única de 12 segundos

La transición de iluminación era la prueba y Veo 4 la clavó. La luz solar sobre los adoquines del patio cayó en sombra con sombra de contacto correcta bajo los tacones de la mujer, sin popping ni rebanding en el umbral. De cinco tomas, cuatro fueron publicables; la quinta tuvo un jitter de fotograma a mitad que asumo fue una anomalía de render. Doce segundos en una sola toma es un cambio de flujo real: el stitching era donde Veo 3 perdía sensación cinematográfica, y Veo 4 lo colapsa en un solo render.

Prueba 2. Identidad en dos tomas

Aquí es donde Veo 4 supera a su predecesor con más claridad. El mismo hombre apareció en ambos planos con la misma cara, el mismo blazer y el mismo pelo en cinco intentos seguidos. Veo 3.1 perdía identidad en el segundo prompt aproximadamente la mitad de las veces. Kling 3 sigue con la ligera ventaja en planos extremadamente cerrados, pero para planos medios y amplios Veo 4 es comparable. Para campañas de anuncio que necesitan personaje recurrente, es el desbloqueo.

Prueba 3. Diálogo + movimiento

Un personaje corriendo y gritando es la prueba implacable del audio nativo. El lip-sync se mantuvo coherente a través del giro de cabeza y la postura sobre el hombro. La calidad de voz sigue siendo más fina que ElevenLabs dedicado, pero el timing es correcto y la prosodia en líneas emocionales es el mayor salto.

Prueba de personaje + audio de Veo desde el showcase oficial. Muestra oficial de Google DeepMind.

Las partes molestas

Despliegue escalado. Mi compañero de la UE sigue recibiendo Veo 3.1 por defecto. Veo 4 se está lanzando por región y nivel de cuenta. Planifica inconsistencia para el próximo trimestre.

Precio de API. 0,60 $/segundo con audio es más caro de lo que Veo 3 era al lanzamiento. Un clip de 12 segundos son 7,20 $. Cinco intentos son 36 $. Presupuesta en consecuencia.

Sin pipeline. Veo 4 genera clips. No clona formatos virales, no traduce vídeo terminado, no reutiliza en formatos verticales/cuadrados. Para un pipeline de producción sigues necesitando otras herramientas encima.

¿Vale la pena el precio?

Para creadores que hacen anuncios short-form y vídeo de producto, Veo 4 dentro de AI Pro (19,99 $/mes) es una mejora obvia. Para desarrolladores integrando en un producto, las matemáticas de precio por segundo se ponen caras rápido — los agregadores con tarifa plana salen más baratos a cualquier volumen significativo.

Cómo encaja Vuela.ai en un flujo con Veo 4

Vuela.ai junta generación nivel Veo con las cosas que Veo no puede hacer por sí solo: un clonador de vídeo viral, un traductor lip-sync a más de 30 idiomas y product-to-video para ecommerce. Las nuevas versiones de Veo (Veo 3.1, Veo 4, Veo 4 Fast) entran en tu plan a medida que Google las publica, sin tener que provisionar acceso API ni presupuestar facturación por segundo.

Calidad Veo 4 sin la espera del despliegue

Vuela.ai expone los últimos modelos Veo en un plan plano junto a clonador, traductor y más de 70 herramientas.

El veredicto

Veo 4 es el Veo correcto para 2026. Las escenas más largas y la identidad fiable resuelven las dos mayores razones por las que los equipos estaban stitcheando Veo 3 con otro modelo. Para anuncios, producto y vídeo de marca, es la apuesta más segura sobre Sora 2 en calidad y sobre Kling 3 en fidelidad al prompt. Sora 2 sigue ganando en escenas con física intensa y funciones de consumo; Kling 3 sigue ganando en image-to-video estilizado.

Construye tu pipeline a su alrededor con un clonador y un traductor encima. Veo 4 es un magnífico especialista que necesita un espacio, no un sustituto del mismo.

FAQ de la reseña de Veo 4

¿Está Veo 4 disponible públicamente? +

Veo 4 se despliega progresivamente. El acceso está escalado por Google AI Pro, Google AI Ultra, la app Flow y la API Vertex AI / Gemini. La mayoría de cuentas pueden pedir el modelo hoy; algunas regiones aún ven Veo 3.1 por defecto.

¿En qué se diferencia Veo 4 de Veo 3? +

Tres deltas concretos: duración mayor en toma única (hasta 12 segundos), detalle más nítido en texturas y piel y mejor persistencia de identidad entre cortes. La calidad de audio iguala a Veo 3 con prosodia de diálogo refinada.

¿Cuánto cuesta Veo 4? +

El acceso de consumidor está empaquetado en Google AI Pro (19,99 $/mes) y AI Ultra (249,99 $/mes). En la API, Veo 4 con audio cuesta unos 0,60 $/segundo de vídeo, con una capa Fast en torno a 0,30 $/segundo.

¿Veo 4 vs Sora 2? +

Veo 4 lidera en fidelidad al prompt e integración de audio. Sora 2 sigue por delante en física, longitud y funciones de consumo como Cameos. Para anuncios y vídeo de producto, Veo 4 es la apuesta más segura.

¿Puedo usar Veo 4 dentro de Vuela.ai? +

Vuela.ai expone generación nivel Veo junto al clonador, traductor lip-sync y más de 70 herramientas bajo una suscripción plana. Las nuevas versiones de modelos entran en tu plan a medida que Google las publica.

Veo 4 más el resto del pipeline

Vuela.ai te da el último Veo en un plan plano con clonador, traductor lip-sync y más de 70 herramientas.