Reseña práctica

Probé Google Veo 3 y esta es mi reseña honesta

Cuatro prompts. Salidas reales. La prueba de audio nativo, los límites diarios, la realidad del precio.

Por el equipo de contenido de Vuela.ai ·

Cover oficial de deepmind.google/models/veo.

Lo que clava

  • Audio sincronizado nativo con lip-sync preciso
  • Movimiento y física fotorrealistas
  • Buena fidelidad al prompt en encuadres cinematográficos
  • Salida 1080p por defecto

Donde flaquea

  • Límite de 8 segundos por clip obliga a concatenar
  • La cuota diaria de AI Pro restringe el testing real
  • API a 0,50 $/segundo es difícil de presupuestar a escala
  • Encerrado en el ecosistema Google

Cuando Google anunció Veo 3 en I/O 2025, la frase que se me quedó grabada fue que generaría vídeo con audio sincronizado en una sola pasada. Cada modelo de vídeo que había pagado antes me obligaba a un paso de TTS, una librería de SFX, un modelo de música y un parche de lip-sync. La promesa de “un prompt, un render, un clip terminado con sonido” era lo típico que las demos de IA prometen y nunca entregan.

Un año después, Veo 3 es el modelo de IA de vídeo más buscado de la web. Así que dediqué una semana a pasarlo por los prompts que nuestro equipo usa de verdad en trabajos con clientes: anuncios short-form, cutaways de producto, openers tipo talking-head. Registré dónde brilla, dónde se cae y si los 19,99 $ al mes de AI Pro (o los 0,50 $ por segundo en la API) son la decisión correcta.

Respuesta corta: Veo 3 es genuinamente el mejor en una tarea muy concreta. Para el resto de un pipeline de producción real, sigues necesitando ayuda.

Qué es Google Veo 3 (y qué cambió en Veo 3.1)

Veo 3 es el modelo texto-a-vídeo de Google DeepMind, lanzado en mayo de 2025. El cambio clave frente a Veo 2 fue el audio sincronizado nativo: diálogo, sonido ambiente, música y efectos generados dentro de la misma pasada que la imagen. Sale a 1080p, 24fps, hasta 8 segundos por clip.

La actualización de octubre de 2025, conocida como Veo 3.1, añadió tres cosas relevantes: image-to-video (anima cualquier imagen que subas), extensión de escena (alarga un clip más allá del tope de 8 segundos encadenando renders) y mayor consistencia de toma en prompts multi-shot. Todo lo probado abajo se ejecutó en Veo 3.1 dentro de Flow y la app Gemini.

Audio nativo + movimiento cinematográfico en una sola pasada. Muestra oficial de Google DeepMind.

Cómo conseguí acceso

Me suscribí a Google AI Pro (19,99 $/mes). Eso desbloquea Veo 3 en la app Gemini y en Flow, con una cuota diaria de prompts. Para las pruebas de API, usé un endpoint agregador prepago con facturación medida por segundo de vídeo generado. La primera ejecución llevó unos noventa minutos de setup. Casi todo fue trabajo de credenciales y cuotas, no el modelo en sí.

Los cuatro prompts que usé para poner a prueba Veo 3

Para no testear prompts que sabía que funcionarían, elegí cuatro escenarios que mapean a trabajos reales de cliente. Cada uno apunta a una debilidad que Veo 2 solía tener.

  1. Diálogo con emoción. Un personaje pronunciando una frase de 6 palabras, con un acento específico, mirando a cámara. El lip-sync es lo más difícil de falsificar.
  2. Plano cinematográfico de producto. Encuadre de lente 50mm sobre un frasco de perfume rotando en una mesa de cristal, con profundidad de campo reducida y luz motivada.
  3. Consistencia entre sujetos. Dos personajes en el mismo plano a través de dos clips consecutivos. Mismo vestuario. Misma cara.
  4. Física de acción. Un skater haciendo un kickflip y aterrizando en una calle mojada de noche, con la cámara siguiendo desde atrás.

Los resultados: 4 ejemplos de salida de Veo 3

Prueba 1. Diálogo con emoción

Prompt: “Plano medio corto de una mujer hacia los 30, luz suave de ventana, diciendo ‘Sabía que volverías’ con una pequeña sonrisa triste. Acento británico.”

Personaje de Veo 3 pronunciando una línea a cámara, con lip-sync intacto. Muestra oficial de Google DeepMind.

Aquí es donde Veo 3 se gana su reputación. La salida llegó con formas de boca que coincidían con las palabras, un acento reconociblemente británico (no americano) y una interpretación que se leía como triste, no plana. Generé cinco variaciones y cuatro fueron usables. La quinta tenía un movimiento de labio fantasma al final que la delató como IA.

Lo que me gustó

  • El lip-sync fue de calidad producción en 4 de 5 tomas
  • El acento coincidió con el prompt sin tutoría
  • La interpretación emocional fue específica, no genérica

Lo que no

  • Una toma tenía un movimiento de labio fantasma al final
  • La mirada se desvió en tomas largas (más de 6s)
  • La compresión de audio sonaba algo fina vs ElevenLabs

Prueba 2. Plano cinematográfico de producto

Prompt: “Lente 50mm, f/1.8, profundidad de campo reducida. Frasco de perfume de cristal rotando lentamente sobre mesa de cristal negro. Luz cálida de contra desde la derecha. 24fps.”

Plano de producto cerrado de Veo 3 con luz motivada y profundidad de campo reducida. Muestra oficial de Google DeepMind.

Veo 3 gestionó las matemáticas de la lente: el bokeh cayó correctamente, la luz de contra envolvió el borde del frasco como lo haría una luz principal en el ángulo prompteado, y la rotación fue estable (sin deformaciones en el cuello del frasco). Para un cutaway de producto de 3 segundos esto es básicamente “clic y listo”. El problema llegó al intentar poner texto sobre el frasco en un prompt de seguimiento: los caracteres de la etiqueta se deformaron a mitad de rotación. Un render de imagen aparte habría sido el flujo más limpio aquí.

Lo que me gustó

  • El comportamiento de la lente coincidió con el prompt
  • Rotación estable durante 3 segundos
  • Reflejos en la mesa se leen reales

Lo que no

  • El texto de marca en el frasco se deformó en cada clip
  • La rotación lenta se veía pegajosa en los bordes
  • El color del perfume varió entre tomas

Prueba 3. Consistencia entre sujetos

Prompt: “Dos amigos, un hombre alto con sudadera verde y una mujer baja con impermeable amarillo, caminando por un mercado al atardecer. Encuadre lado a lado.” (Y un seguimiento: “Mismos dos personajes, ahora sentados en un café, mismo vestuario.”)

Demo oficial de consistencia de personaje de Veo entre varias tomas. Muestra oficial de Google DeepMind.

Las mejoras de consistencia de Veo 3.1 son reales pero no son a prueba de balas. La sudadera del hombre se mantuvo fiable y verde en los dos prompts. El impermeable de la mujer viró a un amarillo más cálido en el segundo clip y su cara era reconociblemente otra persona. Que el vestuario sobreviva y la identidad se desvíe es, irónicamente, el más difícil de resolver. Kling 3 y Sora 2 son notablemente mejores bloqueando la identidad del personaje entre cortes.

Prueba 4. Física de acción

Prompt: “Plano de seguimiento por detrás de un skater haciendo kickflip y aterrizando en una calle de asfalto mojado de noche. Reflejos de farolas. Charcos salpicando. 24fps.”

Test de física en movimiento del propio showcase de Veo 3. Muestra oficial de Google DeepMind.

La rotación de la tabla en el kickflip fue correcta en tres de cinco tomas. Las otras dos parecían que la tabla atravesaba el pie del skater al aterrizar. El asfalto mojado y los reflejos fueron excelentes. El sonido fue la sorpresa: el modelo generó ruido de ruedas sobre asfalto, una salpicadura suave al aterrizar y ruido urbano ambiente por debajo, sin pedirlo. Es el tipo de cosa que normalmente costaría una sesión de audio aparte.

La característica que lo cambia todo: audio nativo

Si solo te quedas con una cosa de esta reseña: el valor de Veo 3 está concentrado en el audio. Cualquier cosa que otros modelos puedan hacer en la parte visual la puedes aproximar con Kling 3, Sora 2, MiniMax Video o Seedance 2 con algo de ajuste. Nada más genera diálogo, ambiente y música en una sola pasada con esta fidelidad.

La consecuencia práctica: los flujos de anuncios short-form que solían ser cinco herramientas (metraje tipo Runway, ElevenLabs para VO, un modelo de música, uno de lip-sync, un editor) se reducen a dos (Veo 3 más un montaje ligero). Para el creador medio, el ahorro se mide en horas por vídeo.

La salvedad: el audio a veces se siente un pelín fino comparado con una voz dedicada de ElevenLabs. Se nota la compresión con auriculares. Para entrega en redes nadie lo nota. Para broadcast o anuncios premium sigues queriendo un paso de voz dedicado.

Las partes molestas: límites, latencia y callejones sin salida

Topes diarios. Google AI Pro te da una cuota diaria de prompts de Veo 3 generosa-pero-no-ilimitada. Los días de testing real se agotan antes de comer. La vía de upgrade es AI Ultra a 249,99 $/mes o moverse a la API. Ninguna es ideal para experimentación casual.

Tope de 8 segundos. Cada clip se topa en 8 segundos. La extensión de escena de Veo 3.1 encadena renders pero las costuras se ven si las buscas. Para trabajo largo sigues construyendo con piezas de 8 segundos.

Velocidad de render. Un clip de Veo 3 tarda 1–3 minutos en renderizar en Flow y un poco más vía API. No es el modelo al que vas cuando necesitas diez tomas en cinco minutos.

Matemáticas de precio API. La API factura Veo 3 a unos 0,40 $/segundo en Standard, 0,50 $/segundo con audio y 0,25 $/segundo en la variante Fast. Un clip de 10 segundos con audio son 5 $ por intento. Cinco intentos son 25 $. Una sesión seria de testing puede costar 100 a 200 $ antes de tener un clip usable.

¿Vale la pena el precio?

Para un creador que produce 5–20 vídeos cortos al mes, AI Pro a 19,99 $ es un sí claro. La cuota diaria cubre el flujo. Solo el ahorro del paso de audio ya supera la suscripción.

¿Para una agencia o tienda de contenido haciendo volumen? El precio de la API es el muro. A 0,50 $/segundo, un solo montaje de cliente de 60 segundos puede costar 30 $ antes de contar tomas repetidas. Los proveedores con planes basados en créditos, o los agregadores que precompran capacidad, salen significativamente más baratos.

¿Para un desarrollador integrando en un producto? Las matemáticas del coste por segundo se comerán tu unit economics salvo que el uso de tu cliente sea predecible y limitado. Ese es el hueco que cubre una plataforma con acceso plano.

Cómo encaja Vuela.ai en un flujo con Veo 3

Veo 3 es un gran modelo. Por sí solo, no es un pipeline de contenido. La mayoría de los proyectos que enviamos en Vuela.ai necesitan tres cosas que Veo no hace: clonar la estructura de un vídeo viral para que un nuevo clip aterrice igual, traducir vídeo terminado con lip-sync real a otros idiomas, y reutilizar un render a través de una docena de formatos.

Vuela.ai junta generación de vídeo tipo Veo con un clonador de vídeo viral, un traductor lip-sync, product-to-video, edición de imagen y acceso API, todo bajo una suscripción plana. En vez de pagar 19,99 $ por AI Pro más 22 $ por ElevenLabs más 24 $ por un clonador más cargos por segundo de API para vídeo, pagas una vez y las herramientas están conectadas entre sí en el mismo espacio.

Si has llegado aquí buscando un veredicto sobre Veo 3 para decidir un flujo, la recomendación honesta es: suscríbete a AI Pro si quieres el modelo en aislamiento, o empieza con Vuela.ai si quieres el modelo dentro de un pipeline que envíe contenido de verdad.

El veredicto

Veo 3 es, en mayo de 2026, el mejor modelo de IA de vídeo del mercado para clips cortos que necesitan audio sincronizado. Esa coletilla importa. Si tu trabajo es producir clips de 6 segundos talking-head, cutaways de producto con ambiente, o cualquier cosa donde el lip-sync sea el cuello de botella, Veo 3 es lo que coges.

Para escenas más largas, secuencias con personaje bloqueado, o el trabajo de clonado y traducción que los pipelines reales necesitan, aún quieres otros modelos al lado. Sora 2 para duración y física. Kling 3 para bloqueo de identidad. Un clonador y un traductor con lip-sync por encima, que es exactamente lo que Vuela.ai junta.

La era de un modelo ganándolo todo se acabó. Veo 3 es un magnífico especialista. Construye tu pipeline alrededor, no encima.

¿Salida nivel Veo 3 sin facturación por segundo?

Vuela.ai te da la calidad de modelo de Veo 3 junto con clonador, traductor y más de 70 herramientas en un plan plano. Sin configurar API. Sin contar cuotas diarias.

FAQ de la reseña de Veo 3

¿Cómo obtengo acceso a Google Veo 3? +

Veo 3 está disponible por tres vías oficiales: la app Gemini para uso de consumidor (requiere Google AI Pro a 19,99 $/mes o AI Ultra a 249,99 $/mes), la app Flow independiente para cineastas y storyboarding, y la API para desarrolladores (alrededor de 0,40 $/segundo estándar, 0,50 $/segundo con audio, 0,25 $/segundo en la variante Fast).

¿Hay versión gratuita de Veo 3? +

No. Veo 3 está detrás de una suscripción Google AI Pro de pago. Las cuentas gratuitas de Gemini pueden a veces generar uno o dos clips Veo Fast al día, pero el Veo 3 completo (con audio) está de pago.

¿Puede Veo 3 generar diálogo? +

Sí. Es la característica estrella. Veo 3 genera diálogo con lip-sync sincronizado en la misma pasada que produce el vídeo. Escribes la línea de diálogo en el prompt y el modelo produce un personaje pronunciándola con las formas de boca apropiadas.

¿De cuánto pueden ser los clips de Veo 3? +

Cada generación se topa en 8 segundos. Para secuencias largas se concatenan varios clips usando la app Flow o cualquier editor. Las funciones de extensión de escena de Veo 3.1 ayudan con la continuidad entre clips concatenados.

¿Es Veo 3 mejor que Sora 2 o Kling 3? +

En fidelidad de audio nativo, Veo 3 va por delante. En escenas largas y física compleja, Sora 2 tiene ventaja. En image-to-video con control de personaje, Kling 3 es competitivo. El modelo correcto depende de qué trade-off importa más en tu flujo. Nuestras reseñas por categoría cubren cada uno.

¿Puedo clonar un vídeo viral existente con Veo 3? +

No. Veo 3 genera a partir de prompts pero no analiza ni replica metraje existente. Para clonar un estilo viral sobre tu propio contenido necesitas un flujo como el clonador de vídeo de Vuela.ai.