Reseña práctica

Hunyuan Video: el modelo open-source de vídeo que vale la pena auto-hospedar

13 mil millones de parámetros, pesos abiertos, calidad comparable a los cerrados top. El coste de infraestructura es el pero.

Por el equipo de contenido de Vuela.ai ·

Oficial de Tencent Hunyuan.

Lo que clava

  • Pesos abiertos: puedes hacer fine-tune para tu marca o producto
  • Calidad comparable a los modelos cerrados tipo Sora
  • 13B de parámetros con soporte activo de la comunidad
  • Sin cuotas de API ni facturación por segundo si te auto-hospedas

Donde flaquea

  • El coste de infraestructura GPU es significativo
  • Sin audio nativo (solo visual)
  • Iteración más lenta que los modelos hospedados
  • App de consumo limitada fuera de China

Hunyuan Video fue la sorpresa de finales de 2024. Tencent soltó un modelo open-source de vídeo de 13B de parámetros con calidad cercana al nivel cerrado de Veo y Sora, y lo licenció libremente para uso comercial en la mayoría de regiones. Un año y medio después, Hunyuan sigue siendo el modelo open-source de vídeo más fuerte y la elección natural para equipos que quieren hacer fine-tune.

Probé Hunyuan en un endpoint de inferencia gestionado y en un clúster local 8x H100 para evaluar ambos extremos de la ecuación de coste. Aquí está dónde lidera y qué pinta tiene realmente el trade-off de infraestructura.

¿Qué es Hunyuan Video?

Hunyuan Video es el modelo texto-a-vídeo open-source de Tencent, lanzado en diciembre de 2024. El modelo de 13B parámetros produce clips de 5 segundos hasta 720p de forma nativa, con fuerte fidelidad al prompt y calidad de movimiento competitiva. Tencent abrió los pesos con una licencia permisiva que permite uso comercial en la mayoría de jurisdicciones.

La distribución es abierta: pesos en Hugging Face, inferencia en la mayoría de agregadores y la plataforma propia Hunyuan de Tencent para acceso directo. El soporte de fine-tuning está maduro, con la comunidad publicando LoRAs y fine-tunes completos para estilos específicos.

Walkthrough de Hunyuan Video, el modelo open-source. Official from Tencent Hunyuan.

Cómo conseguí acceso

Corrí dos pistas paralelas. Una: un endpoint agregador gestionado que expone Hunyuan a precio por segundo competitivo. Dos: un despliegue local 8x H100 que se amortiza frente a costes API en torno a 200 horas de generación al mes. Los dos funcionaron; el clúster local da control total sobre fine-tunes.

Los resultados de las pruebas

Prueba 1. Paisaje fotográfico

Prompt: “Plano aéreo amplio de una cordillera nevada al amanecer, luz dorada baja rozando las cumbres. Lento dolly de cámara hacia delante. 5 segundos, 720p.”

Hunyuan gestionó la transición de luz de forma limpia, con dirección de sombra correcta entre los picos. El detalle de la nieve se mantuvo a 720p. El movimiento de cámara fue estable. Es la prueba pan-con-mantequilla y Hunyuan la pasa sin drama.

Prueba 2. Acción de personaje

Prompt: “Un skater haciendo un ollie sobre un banco de hormigón en una plaza, media tarde. Cámara siguiendo lateral. 5 segundos.”

La tabla pasó por encima del banco correctamente en tres de cinco tomas. Las otras dos la tabla atravesaba el banco. Para planos de acción, MiniMax Video y Sora 2 son más fiables, pero la ventaja open-weights de Hunyuan significa que puedes hacer fine-tune para tu estilo específico de acción.

Prueba 3. Plano de producto con fine-tune de marca

Prompt: “Un frasco de perfume de cristal rotando en un pedestal de mármol, colores de marca marino y dorado, profundidad de campo reducida. 5 segundos.”

Corrí este prompt dos veces: una contra el modelo Hunyuan stock, otra contra una variante fine-tuneada entrenada con 200 imágenes de referencia de marca. La versión fine-tuneada produjo color de marca consistente, proporciones de frasco consistentes y la profundidad de campo correcta en las cinco tomas. Es el caso de uso donde los pesos abiertos de Hunyuan se vuelven genuinamente irremplazables.

Las partes molestas

Coste de infraestructura. Auto-hospedar Hunyuan a escala de producción requiere 8x A100 o H100. El alquiler en cloud en ese nivel cuesta 20-30 $/hora. Planifica capacidad con cuidado.

Sin audio nativo. Hunyuan es solo visual. El audio sigue requiriendo un pipeline VO y SFX aparte.

Tope de 5 segundos. La longitud estándar de clip es de 5 segundos a 720p. El stitching multi-shot es territorio de comunidad, no first-party.

¿Vale la pena el precio?

Para equipos que necesitan control total (fine-tunes propios, despliegue on-premise, industrias reguladas), Hunyuan es la única opción seria de 2026. El coste de infraestructura se amortiza a volumen.

Para el resto, los modelos hospedados como Veo 4, Kling 3 o Sora 2 son más amables con cartera y calendario.

Cómo encaja Vuela.ai en un flujo con Hunyuan

Para equipos que quieren calidad nivel Hunyuan sin la factura de GPU, Vuela.ai expone generación nivel Hunyuan junto a Veo, Kling, Sora y el resto del catálogo. Sin proyecto de infraestructura, sin trabajo de despliegue de fine-tune, sin facturación por segundo.

Para equipos que necesitan fine-tunes, Hunyuan sigue siendo modelo de auto-hospedaje. Usa Vuela.ai para el resto del pipeline: clonador, traductor, postproducción de audio, reutilización de formatos.

Vídeo nivel Hunyuan sin la factura de GPU

Vuela.ai te da calidad de vídeo nivel open-source más clonador, traductor y más de 70 herramientas en un plan plano.

El veredicto

Hunyuan Video sigue siendo, en mayo de 2026, el único modelo open-source de vídeo que vale la pena correr a escala de producción. Para fine-tunes y despliegues regulados es imbatible. Para el resto, los hospedados son más fáciles.

Combina Hunyuan con Vuela.ai para el audio y el trabajo de pipeline que ningún modelo solo-vídeo gestiona.

FAQ de la reseña de Hunyuan Video

¿Hunyuan Video es open source? +

Sí. Tencent publicó el modelo de 13B parámetros bajo una licencia permisiva que permite uso comercial en la mayoría de jurisdicciones. Los pesos están en Hugging Face.

¿Qué hardware necesito para auto-hospedar Hunyuan? +

Para inferencia de producción, 8x A100 o H100 es la base. Para fine-tuning, multiplica por 2-4x. Setups menores funcionan para experimentación pero no para servir tráfico.

¿Cómo se compara Hunyuan con Veo 4? +

En calidad, Hunyuan está en la misma banda que Veo 3 — ligeramente por detrás de Veo 4 en detalle fotorrealista pero competitivo en fidelidad al prompt. El diferencial son los pesos abiertos y el fine-tuning.

¿Hunyuan Video genera audio? +

No. Es un modelo solo visual. El audio requiere un pipeline VO y SFX aparte.

¿Puedo usar Hunyuan dentro de Vuela.ai? +

Sí. Vuela.ai expone generación nivel Hunyuan en el catálogo de plan plano. Para control total de fine-tune sigues auto-hospedando; para el resto, Vuela lo gestiona.

Construye tu pipeline con Vuela.ai

Acceso plano a los mejores modelos, más clonador, traductor lip-sync y más de 70 herramientas.