Hunyuan Video fue la sorpresa de finales de 2024. Tencent soltó un modelo open-source de vídeo de 13B de parámetros con calidad cercana al nivel cerrado de Veo y Sora, y lo licenció libremente para uso comercial en la mayoría de regiones. Un año y medio después, Hunyuan sigue siendo el modelo open-source de vídeo más fuerte y la elección natural para equipos que quieren hacer fine-tune.
Probé Hunyuan en un endpoint de inferencia gestionado y en un clúster local 8x H100 para evaluar ambos extremos de la ecuación de coste. Aquí está dónde lidera y qué pinta tiene realmente el trade-off de infraestructura.
¿Qué es Hunyuan Video?
Hunyuan Video es el modelo texto-a-vídeo open-source de Tencent, lanzado en diciembre de 2024. El modelo de 13B parámetros produce clips de 5 segundos hasta 720p de forma nativa, con fuerte fidelidad al prompt y calidad de movimiento competitiva. Tencent abrió los pesos con una licencia permisiva que permite uso comercial en la mayoría de jurisdicciones.
La distribución es abierta: pesos en Hugging Face, inferencia en la mayoría de agregadores y la plataforma propia Hunyuan de Tencent para acceso directo. El soporte de fine-tuning está maduro, con la comunidad publicando LoRAs y fine-tunes completos para estilos específicos.
Cómo conseguí acceso
Corrí dos pistas paralelas. Una: un endpoint agregador gestionado que expone Hunyuan a precio por segundo competitivo. Dos: un despliegue local 8x H100 que se amortiza frente a costes API en torno a 200 horas de generación al mes. Los dos funcionaron; el clúster local da control total sobre fine-tunes.
Los resultados de las pruebas
Prueba 1. Paisaje fotográfico
Prompt: “Plano aéreo amplio de una cordillera nevada al amanecer, luz dorada baja rozando las cumbres. Lento dolly de cámara hacia delante. 5 segundos, 720p.”
Hunyuan gestionó la transición de luz de forma limpia, con dirección de sombra correcta entre los picos. El detalle de la nieve se mantuvo a 720p. El movimiento de cámara fue estable. Es la prueba pan-con-mantequilla y Hunyuan la pasa sin drama.
Prueba 2. Acción de personaje
Prompt: “Un skater haciendo un ollie sobre un banco de hormigón en una plaza, media tarde. Cámara siguiendo lateral. 5 segundos.”
La tabla pasó por encima del banco correctamente en tres de cinco tomas. Las otras dos la tabla atravesaba el banco. Para planos de acción, MiniMax Video y Sora 2 son más fiables, pero la ventaja open-weights de Hunyuan significa que puedes hacer fine-tune para tu estilo específico de acción.
Prueba 3. Plano de producto con fine-tune de marca
Prompt: “Un frasco de perfume de cristal rotando en un pedestal de mármol, colores de marca marino y dorado, profundidad de campo reducida. 5 segundos.”
Corrí este prompt dos veces: una contra el modelo Hunyuan stock, otra contra una variante fine-tuneada entrenada con 200 imágenes de referencia de marca. La versión fine-tuneada produjo color de marca consistente, proporciones de frasco consistentes y la profundidad de campo correcta en las cinco tomas. Es el caso de uso donde los pesos abiertos de Hunyuan se vuelven genuinamente irremplazables.
Las partes molestas
Coste de infraestructura. Auto-hospedar Hunyuan a escala de producción requiere 8x A100 o H100. El alquiler en cloud en ese nivel cuesta 20-30 $/hora. Planifica capacidad con cuidado.
Sin audio nativo. Hunyuan es solo visual. El audio sigue requiriendo un pipeline VO y SFX aparte.
Tope de 5 segundos. La longitud estándar de clip es de 5 segundos a 720p. El stitching multi-shot es territorio de comunidad, no first-party.
¿Vale la pena el precio?
Para equipos que necesitan control total (fine-tunes propios, despliegue on-premise, industrias reguladas), Hunyuan es la única opción seria de 2026. El coste de infraestructura se amortiza a volumen.
Para el resto, los modelos hospedados como Veo 4, Kling 3 o Sora 2 son más amables con cartera y calendario.
Cómo encaja Vuela.ai en un flujo con Hunyuan
Para equipos que quieren calidad nivel Hunyuan sin la factura de GPU, Vuela.ai expone generación nivel Hunyuan junto a Veo, Kling, Sora y el resto del catálogo. Sin proyecto de infraestructura, sin trabajo de despliegue de fine-tune, sin facturación por segundo.
Para equipos que necesitan fine-tunes, Hunyuan sigue siendo modelo de auto-hospedaje. Usa Vuela.ai para el resto del pipeline: clonador, traductor, postproducción de audio, reutilización de formatos.
Vídeo nivel Hunyuan sin la factura de GPU
Vuela.ai te da calidad de vídeo nivel open-source más clonador, traductor y más de 70 herramientas en un plan plano.
El veredicto
Hunyuan Video sigue siendo, en mayo de 2026, el único modelo open-source de vídeo que vale la pena correr a escala de producción. Para fine-tunes y despliegues regulados es imbatible. Para el resto, los hospedados son más fáciles.
Combina Hunyuan con Vuela.ai para el audio y el trabajo de pipeline que ningún modelo solo-vídeo gestiona.