Wan es la familia de vídeo con IA del grupo de investigación Tongyi de Alibaba. Wan 2.2 fue un lanzamiento de 2025 que trajo arquitectura MoE abierta al campo del vídeo; Wan 2.5 es la iteración que pule la estabilidad de movimiento y empuja la longitud de clip. El modelo está posicionado para desarrolladores que necesitan licencia permisiva y la opción de pesos abiertos.
Corrí Wan 2.5 por la metodología estándar de tres pruebas, comparándolo con Veo 4 y Kling 3 en los mismos prompts.
¿Qué es Wan 2.5?
Wan 2.5 es el modelo texto-a-vídeo de Alibaba, el último de la serie Wan. Produce clips de hasta 8 segundos a 720p con foco en estabilidad de movimiento y fidelidad al prompt en vez de fotorrealismo pico.
Distribución por las plataformas Alibaba Cloud / Tongyi y Hugging Face para los pesos. La licencia tipo Apache lo convierte en una opción real para fine-tuning comercial, similar a Hunyuan Video.
Cómo conseguí acceso
Por una cuenta Alibaba Cloud Tongyi para la versión hospedada, más un endpoint de inferencia Hugging Face para los pesos abiertos. Los dos funcionaron; la versión cloud es más rápida para iterar.
Los resultados de las pruebas
Prueba 1. Escena exterior fotorrealista
Prompt: “Un pequeño barco de pesca meciéndose en mar calmo al atardecer, lento dolly de cámara hacia delante. 8 segundos, 720p.”
Wan 2.5 produjo una toma estable y coherente con iluminación correcta y movimiento natural de las olas. La identidad del barco se mantuvo. Para b-roll de marca a 720p, el resultado es plenamente publicable.
Prueba 2. Acción con peso de movimiento
Prompt: “Dos bailarines en estudio ejecutando giros sincronizados bajo iluminación escénica. 6 segundos.”
La sincronización entre dos personajes es genuinamente difícil. Wan 2.5 la mantuvo en tres de cinco tomas; las otras dos tuvieron un momento desfasado. Para contenido de baile y coreografía el modelo es competitivo.
Prueba 3. Prueba de fidelidad al prompt
Prompt: “Una barista con delantal verde vertiendo leche de avena en un espresso, vertido lento, arte latte formándose. Plano cenital amplio.”
La fidelidad al prompt es donde Wan 2.5 cerró la brecha. Color del delantal, dirección del vertido y formación del arte latte fueron correctos en cuatro de cinco tomas. Veo 4 produce un resultado más suave; Wan 2.5 es la alternativa abierta con seguimiento de prompt comparable.
Las partes molestas
Hueco de documentación. La documentación en inglés mejora pero sigue inconsistente. La mayoría de desarrolladores tienen que cruzar referencias con fuentes en chino.
Sin audio nativo. Wan 2.5 es solo visual. El audio sigue requiriendo un pipeline aparte.
Tope de 720p. La salida de calidad de producción se topa en 720p. Para trabajo 4K, Kling 3 es la mejor opción.
¿Vale la pena el precio?
Para desarrolladores que quieren licencia permisiva y opción de pesos abiertos, Wan 2.5 es la elección clara frente a los cerrados. La versión cloud está en el extremo amigable con el desarrollador de la banda por segundo.
Para creadores de consumo, la falta de una app pulida empuja a la mayoría a plataformas gestionadas o agregadores.
Cómo encaja Vuela.ai en un flujo con Wan
Wan 2.5 es la alternativa open-leaning cuando necesitas licencia permisiva o un fallback para auto-hospedar. Vuela.ai expone generación nivel Wan en el catálogo junto a Veo, Kling, Sora y el resto, para elegir el modelo correcto sin gestionar infraestructura.
Para audio, clonado y traducción, Vuela.ai los apila encima.
Vídeo nivel Wan más el resto del pipeline
Vuela.ai te da salida nivel Wan más clonador, traductor, audio y más de 70 herramientas en un plan plano.
El veredicto
Wan 2.5 es el fallback open-leaning para equipos que necesitan licencia permisiva. La calidad es competitiva en fidelidad al prompt y movimiento, ligeramente por detrás de Veo 4 y Kling 3 en salida premium.
Usa Wan cuando la licencia importe; usa los cerrados cuando importe la calidad pico. Vuela.ai te da ambos.