Veo 4 es el siguiente lanzamiento de la familia texto-a-vídeo de Google DeepMind. La apuesta es incremental, no revolucionaria: coger las partes de Veo 3 que funcionaron (audio nativo, fidelidad al prompt) y empujar las que no (longitud, persistencia de identidad, nitidez). Tras dos semanas de pruebas en la app Gemini, Flow y la API, mi respuesta es que Veo 4 es la decisión correcta para anuncios short-form y vídeo de producto, y todavía no es la respuesta correcta para clonar, traducir o cualquier cosa que necesite pipeline.
Qué cambió en Veo 4
Tres deltas concretos frente a Veo 3 en los prompts que corrí. Longitud de toma única pasa de 8 a 12 segundos antes de que el modelo recurra a una extensión encadenada. Persistencia de identidad entre dos prompts de seguimiento es notablemente mejor: caras, vestuario y props sobreviven a un corte sin la deriva «gemelo» que perseguía a Veo 3.1. Detalle de textura y piel sube un nivel; los planos cerrados ya no tienen el look ligeramente céreo que producía Veo 3 bajo luz dura.
El audio es esencialmente el mismo motor que Veo 3, pero la prosodia de diálogo es más limpia en líneas emocionales. La prueba «sonrisa triste / acento británico» que daba a Veo 3.1 cuatro de cinco tomas pega cinco de cinco en Veo 4. La generación de música no cambia, lo cual está bien para camas ambientales y no basta para una pista terminada.
Cómo conseguí acceso
Google AI Pro (19,99 $/mes) desbloqueó Veo 4 en Gemini y Flow el día que lo pedí. AI Ultra (249,99 $/mes) desbloquea cuotas diarias mayores y la cola de render de mayor nivel. Para pruebas de API provisioné un endpoint gestionado con facturación medida en torno a 0,60 $/segundo de vídeo generado con audio (una capa Fast está en torno a 0,30 $/segundo sin audio).
Las tres pruebas que corrí
- Toma única de 12 segundos. Una mujer caminando de un patio soleado a un pasillo en sombra, cámara siguiendo por detrás. La transición de iluminación era la parte implacable.
- Identidad en dos tomas. Un hombre con blazer marino en plano uno, mismo hombre entrando en un café en plano dos. ¿Cara y vestuario bloqueados o deriva?
- Diálogo + movimiento. Un personaje corriendo mientras grita una frase por encima del hombro. Movimiento y lip-sync combinados.
Prueba 1. Toma única de 12 segundos
La transición de iluminación era la prueba y Veo 4 la clavó. La luz solar sobre los adoquines del patio cayó en sombra con sombra de contacto correcta bajo los tacones de la mujer, sin popping ni rebanding en el umbral. De cinco tomas, cuatro fueron publicables; la quinta tuvo un jitter de fotograma a mitad que asumo fue una anomalía de render. Doce segundos en una sola toma es un cambio de flujo real: el stitching era donde Veo 3 perdía sensación cinematográfica, y Veo 4 lo colapsa en un solo render.
Prueba 2. Identidad en dos tomas
Aquí es donde Veo 4 supera a su predecesor con más claridad. El mismo hombre apareció en ambos planos con la misma cara, el mismo blazer y el mismo pelo en cinco intentos seguidos. Veo 3.1 perdía identidad en el segundo prompt aproximadamente la mitad de las veces. Kling 3 sigue con la ligera ventaja en planos extremadamente cerrados, pero para planos medios y amplios Veo 4 es comparable. Para campañas de anuncio que necesitan personaje recurrente, es el desbloqueo.
Prueba 3. Diálogo + movimiento
Un personaje corriendo y gritando es la prueba implacable del audio nativo. El lip-sync se mantuvo coherente a través del giro de cabeza y la postura sobre el hombro. La calidad de voz sigue siendo más fina que ElevenLabs dedicado, pero el timing es correcto y la prosodia en líneas emocionales es el mayor salto.
Las partes molestas
Despliegue escalado. Mi compañero de la UE sigue recibiendo Veo 3.1 por defecto. Veo 4 se está lanzando por región y nivel de cuenta. Planifica inconsistencia para el próximo trimestre.
Precio de API. 0,60 $/segundo con audio es más caro de lo que Veo 3 era al lanzamiento. Un clip de 12 segundos son 7,20 $. Cinco intentos son 36 $. Presupuesta en consecuencia.
Sin pipeline. Veo 4 genera clips. No clona formatos virales, no traduce vídeo terminado, no reutiliza en formatos verticales/cuadrados. Para un pipeline de producción sigues necesitando otras herramientas encima.
¿Vale la pena el precio?
Para creadores que hacen anuncios short-form y vídeo de producto, Veo 4 dentro de AI Pro (19,99 $/mes) es una mejora obvia. Para desarrolladores integrando en un producto, las matemáticas de precio por segundo se ponen caras rápido — los agregadores con tarifa plana salen más baratos a cualquier volumen significativo.
Cómo encaja Vuela.ai en un flujo con Veo 4
Vuela.ai junta generación nivel Veo con las cosas que Veo no puede hacer por sí solo: un clonador de vídeo viral, un traductor lip-sync a más de 30 idiomas y product-to-video para ecommerce. Las nuevas versiones de Veo (Veo 3.1, Veo 4, Veo 4 Fast) entran en tu plan a medida que Google las publica, sin tener que provisionar acceso API ni presupuestar facturación por segundo.
Calidad Veo 4 sin la espera del despliegue
Vuela.ai expone los últimos modelos Veo en un plan plano junto a clonador, traductor y más de 70 herramientas.
El veredicto
Veo 4 es el Veo correcto para 2026. Las escenas más largas y la identidad fiable resuelven las dos mayores razones por las que los equipos estaban stitcheando Veo 3 con otro modelo. Para anuncios, producto y vídeo de marca, es la apuesta más segura sobre Sora 2 en calidad y sobre Kling 3 en fidelidad al prompt. Sora 2 sigue ganando en escenas con física intensa y funciones de consumo; Kling 3 sigue ganando en image-to-video estilizado.
Construye tu pipeline a su alrededor con un clonador y un traductor encima. Veo 4 es un magnífico especialista que necesita un espacio, no un sustituto del mismo.