2025最新开源文生视频模型权威排名榜:阿里万象2.1本地部署详细评测
摘要
阿里开源万相2 1视频生成模型,性能达SOTA,支持中英文文本,轻量版仅需8 19GB显存。通过Co
在腾讯混元开源之后,阿里也迅速跟进,正式将旗下视频生成模型万相2.1(Wan2.1)进行了开源。官方宣称该模型在性能上达到SOTA(State-of-the-Art,行业顶尖)水平,以下三点尤为突出:

首先,相较于现有开源模型,万相2.1表现更胜一筹,官方甚至直言其在某些维度上“可与部分闭源模型一较高下”。其次,它是业界首个同时支持中英文文本生成的视频模型。第三,配合轻量级T2V-1.3B版本,仅需8.19GB显存即可运行,消费级显卡完全能够胜任。
官方头衔告一段落,接下来是实战环节:如何本地部署并跑通万相2.1?目前该模型已支持通过ComfyUI进行本地部署,具体操作步骤如下。
一、环境配置与工具安装
确保网络畅通,Python与Git已就位。ComfyUI务必升级至最新版本——若尚未安装,可先行完成基础安装。更新完成后,主界面应出现支持万相2.1的提示字样。
二、模型文件下载
模型下载分为四个模块,注意区分。
- 扩散模型:前往Hugging Face仓库Comfy-Org/Wan_2.1_ComfyUI_repackaged,在diffusion_models目录下按需选择模型。需注意,完整下载需占用超80GB存储空间,按实际需求挑选即可。
- 文本编码器:下载umt5_xxl_fp8_e4m3fn_scaled.safetensors文件,并放置于ComfyUI/models/text_encoders目录。
- CLIP视觉模型:下载clip_vision_h.safetensors文件,存放至ComfyUI/models/clip_vision目录。
- VAE模型:下载wan_2.1_vae.safetensors文件,放入ComfyUI/models/vae目录。
三、工作流文件获取
接着,进入ComfyUI官方工作流页面,找到example workflows_Wan2.1文件夹,下载其中的三个工作流文件。直接将文件拖拽至ComfyUI界面即可完成加载,界面呈现效果大致如下。
四、核心功能测试
至此,基础部署已相当。先用文生视频(T2V-14B模型)进行测试。尝试以下提示词,感受实际效果:
“一位身着红色细带比基尼的维密超模,在地中海沙滩上微笑漫步,远处海面停泊几艘游艇,天空湛蓝,点缀着白云。”
再测试英文文本生成:“同一位维密超模,身着红色细带比基尼,站在地中海沙滩上,面带微笑手持一块牌子,牌上写着‘welcome’。”
接着测试中文文本:“一位维密超模,身穿红色细带比基尼,在地中海沙滩上微笑展示一块手举牌,牌上写着‘我爱中国’。”
图生视频部分,使用I2V-14B-480P模型进行测试。输入一张车内女孩的照片,提示词为:“车内女孩微笑着说话,窗外车辆正在移动。”
最后测试视频生视频。当前ComfyUI官方尚未直接支持此功能,但kijai社区已开发出可用工作流。基于上一步生成的视频素材,将画面人物进行替换,提示词调整为:“一位半机械女孩坐在车内。”
重要提示:若使用kijai的工作流,对应模型需另行下载。另外,鉴于万相2.1涉及多个模型文件,生成前务必在ComfyUI对话框中确认当前已选中正确的模型。
五、初步实测结论
走完一轮测试,得到几点直观反馈:
1、实际输出效果上,万相2.1与腾讯混元不相上下,对提示词的遵循度表现可圈可点。
2、中文文本生成确实可行,但并非每次都能准确呈现,存在一定随机性,需要多次尝试。
3、生成速度方面:在4090显卡上运行T2V-14B模型,未使用任何量化优化,生成5秒480P视频耗时约8分钟。切换至T2V-1.3B模型,2分钟左右即可出片,但画质有所下降。图生视频(I2V)速度更快,4090下生成5秒视频约3分钟。
4、文生视频可根据硬件配置选择1.3B或14B模型,图生视频目前仅有14B可选,分辨率支持480P与720P两种。
文章涉及的网址
万相2.1官方代码页:https://github.com/Wan-Video/Wan2.1
万相2.1 ComfyUI官方支持页面:https://blog.comfy.org/p/wan21-video-model-native-support
万相2.1 ComfyUI代码页(kijai):https://github.com/kijai/ComfyUI-WanVideoWrapper
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。