一、Wan2.1系列

Wan2.1 系列是阿里巴巴通义实验室推出的开源视频生成模型套件,共有 4 个模型,包括文生视频的 Wan2.1-T2V-1.3B 和 Wan2.1-T2V-14B,以及图生视频的 Wan2.1-I2V-14B

在权威评测集 VBench 中,Wan2.1 以总分 86.22% 的成绩登上榜首位置,大幅领先了 Sora、Minimax、Luma、Gen3、Pika 等国内外视频生成模型

具体来说,Wan2.1开源了文生视频和图生视频两种模型。

其中,文生视频模型有1.3B和14B两种大小,图生视频模型大小都是14B,不过,一个是480P,另一个是720P。

大尺寸14B版本主打高性能,但1.3B小版本适合消费级显卡,只需要 8.2GB 显存就可以生成 480P 高质量视频。

也即是说,只要你有一张4060显卡(8G显存),就能跑得动这个模型,并且可以在大约4分钟以内生成5秒的480p视频。

刚好,ComfyUI官方也支持了Wan2.1模型,所以,这篇文章就带大家一步一步在本地部署Wan2.1模型。

二、ComfyUI

ComfyUI 和大家熟知的 WebUI 一样,都是 Stable Diffusion 的一种用户界面,可以实现文生图、图生图、图像处理、AI 视频生成等操作。但 ComfyUI 是节点式模块化的界面,需要用户自己搭建工作流,而且各方面的资源比较松散,需要自己安装部署,因此入门难度较高,不适合零基础的 AI 绘画小白,一般都推荐大家先掌握 Stable Diffusion WebUI 的用法,再学习 ComfyUI。

ComfyUI 越来越受欢迎,是因为用户可以按需要搭建自定义工作流,高效完成各种图像生成任务,很多最新的 AI 技术比如 SVD、InstantID 发布没多久就能在 ComfyUI 中用上,这点是 WebUI 做不到的;ComfyUI 会将图像生成流程保存为工作流(workflow)文件,下次使用时直接拖入界面加载就行,这样不仅方便自己复用已有工作流,还能轻松借用大神的生成作品;而且 ComfyUI 对低显存用户也更友好,在 WebUI 中容易爆显存生成任务在 ComfyUI 中可以顺利完成。

下载

夸克网盘
链接:https://pan.quark.cn/s/fed0656eb3f1

打开链接,只需要下载ComfyUI-aki-V202504版-无需密码.zip,其他文件不需要下载。

安装

解压zip文件,得到文件夹ComfyUI-aki-V202504版-无需密码,进入目录ComfyUI-aki-V202504版

双击文件,绘世启动器.exe

第一次打开,会提示安装组件windowsdesktop-runtime,安装提示下载安装即可。

安装完成,首页效果如下:

点击左侧的高级选项-->环境维护-->安装PyTorch,选择最新版本CUDA 12.8,点击安装。

安装需要一点时间,请耐心等待

点击版本管理,更新到最新版本

三、ComfyUI模型文件下载

clip_vision下载

打开下面这个页面,下载clip_vision:

https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/clip_vision

下载文件

下载到本地后,移到下载到本地后,移到ComfyUI整合包的ComfyUI\models\clip_vision目录下。

diffusion_models下载

打开下面这个页面,下载diffusion_model:

https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/diffusion_models

Wan2.1模型支持文生视频和图生视频两种方式,每种方式下又有14B和1.3B两种尺寸的模型,其中:

  • 文生视频
    • wan2.1_t2v_1.3B的模型,最大只支持生成832×480像素视频
    • wan2.1_t2v_14B的模型,支持1280×720像素和832×480像素视频
  • 图生视频
    • wan2.1_i2v_480p_14B的模型,最大支持生成832×480像素视频
    • wan2.1_i2v_720p_14B的模型,最大支持生成1280×720像素视频

同时,每个尺寸的模型下也有多个模型,根据生成质量的优劣,按照如下原则选择(质量等级从高到低):

fp16 > bf16 > fp8_scaled > fp8_e4m3fn

结合自己的显存大小,我选择这两个模型下载到本地:

文生视频:wan2.1_t2v_1.3B_fp16.safetensors
图生视频:wan2.1_i2v_480p_14B_fp8_scaled.safetensors

然后移到ComfyUI-aki-V202504版\ComfyUI\models\diffusion_models目录下面。

text_encoders下载

打开下面这个页面,下载text_encoders:

https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/text_encoders

  • 如果显存 >= 12G,选择第一个text_encoder下载
  • 如果显存 < 12G,选择第二个text_encoder下载

选择第一个下载

下载到本地后,移到下载到本地后,移到ComfyUI整合包的ComfyUI\models\text_encoders目录下。

vae下载

打开下面这个页面,下载vae:

https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/vae

下载到本地后,移到下载到本地后,移到ComfyUI整合包的ComfyUI\models\vae目录下。

四、工作流下载

打开下面这个页面,下载工作流:

https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/example%20workflows_Wan2.1

我们根据第三步下载的diffusion_model,相对应地选择第一个和第三个工作流下载:

下载到本地后,移到下载到本地后,移到ComfyUI整合包的ComfyUI\user\default\workflows目录下。

五、文生视频

第一步,打开秋叶启动器,确保是最新版本,点击左上角,一键启动。

启动完成后,会自动打开网页: http://127.0.0.1:8188/

第二步,点击左边侧栏,打开文生视频工作流。

第三步,调整diffusion_model、text_encoder和vae的配置,选择之前下载好的模型。

注意必须要手动选择umt5 xxl fp16.safetensors

注意必须要手动选择,这里选择wan2.1 t2v 1.3B fp16.safetensors

注意必须要手动选择wan 2.1 vae.safetensors

第四步,在CLIP文本编码器框输入正向提示词

这里的提示词如下:

阳光明媚的草原上,一位年轻的中国美女正在欢快地散步,镜头采用中景拍摄,完美捕捉到她全身的曼妙姿态。她有着标志性的可爱脸型,瓜子脸搭配长发自然卷,淡妆之下,笑起来时左右脸颊上绽放出两个浅浅的酒窝,尽显青春活力与甜美气质。淡蓝色连衣裙上点缀着白色与淡黄色小花,领口微微敞开,裙摆轻柔垂落至脚踝,随着微风轻轻摆动,展现出玲珑有致的身材曲线,健康优雅。她脚蹬一双舒适凉鞋,漫步绿草如茵的草地,阳光温柔洒落,为她披上一层柔和金辉,她时而轻笑,时而低头细嗅青草芬芳,满溢轻松愉悦。广袤草原延伸至远方,黄、红、紫等各色野花星星点点,蓝天白云高远澄净,共同勾勒出清新自然的夏日画卷,映衬着她活力四溢的年轻身姿。

完整流程如下:

最后点执行按钮,开始生成视频。

注意看,左上角会显示进度,中间顶部会显示CPU,内存,GPU的使用率

生成过程中,GPU使用率会很高

不过不用担心,大概2分钟左右,就可以完成了。

生成完成后,左下角,会播放效果

生成的图片,会保存在目录ComfyUI-aki-V202504版\ComfyUI\output

会出现一个ComfyUI_00001_.webp文件,打开文件,效果如下:

这是1.3b的效果,花草有点模糊,人物还是比较清晰的。

本文参考链接:

https://zhuanlan.zhihu.com/p/30647063188

https://blog.csdn.net/weixin_59486588/article/details/147836457

ComfyUI+通义万相 Wan2.1系列生成视频教程的更多相关文章

  1. 阿里版ChatGPT:通义千问pk文心一言

    随着 ChatGPT 热潮卷起来,百度发布了文心一言.Google 发布了 Bard,「阿里云」官方终于也宣布了,旗下的 AI 大模型"通义千问"正式开启测试! 申请地址:http ...

  2. 威纶通 与 信捷XC\XD系列PLC 通讯

    第一次使用信捷XD系列PLC正式做个项目,用的触摸屏为威纶通的 MT6071iP (注意:下面内容同样适用于 信捷XC系列PLC ,除信捷XC与XD系列编程软件不一样,其余接线设置实测均一样 ) 目前 ...

  3. java-tip-Collections.synchronized系列生成的容器

    这个系列的容器,和Vector或者HashTable之流的差不多, 区别是: Vector和HashTable是在关键方法上加synchronized关键字 而 Collections.synchro ...

  4. 【黑金ZYNQ7000系列原创视频教程】07.自定义IP——定制RTC IP实验

    黑金论坛地址: http://www.heijin.org/forum.php?mod=viewthread&tid=36641&extra=page%3D1 爱奇艺地址: http: ...

  5. 【黑金ZYNQ7000系列原创视频教程】06.ZYNQ来自FPGA的中断——按键中断实验

    黑金论坛地址: http://www.heijin.org/forum.php?mod=viewthread&tid=36640&extra=page%3D1 爱奇艺地址: http: ...

  6. 【黑金ZYNQ7000系列原创视频教程】05.FPGA和ARM的初次结合——LED实验

    黑金论坛地址: http://www.heijin.org/forum.php?mod=viewthread&tid=36639&extra=page%3D1 爱奇艺地址: http: ...

  7. 【黑金ZYNQ7000系列原创视频教程】04.熟悉ZYNQ内部中断——内部定时器中断实验

    黑金论坛地址: http://www.heijin.org/forum.php?mod=viewthread&tid=36638&extra=page%3D1 爱奇艺地址: http: ...

  8. 【黑金ZYNQ7000系列原创视频教程】03.体验FPGA里的ARM——裸机helloworld实验

    黑金论坛地址: http://www.heijin.org/forum.php?mod=viewthread&tid=36637&extra=page%3D1 爱奇艺地址: http: ...

  9. 【黑金ZYNQ7000系列原创视频教程】02.视频接口——hdmi编码输出实验

    黑金论坛地址: http://www.heijin.org/forum.php?mod=viewthread&tid=36636&extra=page%3D1 爱奇艺地址: http: ...

  10. 【黑金ZYNQ7000系列原创视频教程】01.熟悉vivado——纯逻辑led实验

    黑金论坛地址: http://www.heijin.org/forum.php?mod=viewthread&tid=36627&extra=page%3D1 爱奇艺地址: http: ...

随机推荐

  1. Linux - 基础环境检查

    检查操作系统:建议根据实际产品需要进行安装 检查主机名:集群中统一前缀并区分服务器功能,小写命名 检查内存:建议至少128G 检查CPU:建议至少2个支持超线程技术的10核芯片 检查磁盘:同一功能的服 ...

  2. Spring Boot创建完项目运行Cannot determine embedded database driver class for database type NONE

    spring boot 创建项目引用mybatis后,直接运行会提示: Cannot determine embedded database driver class for database typ ...

  3. Vulnhub-election靶机

    总结:本靶机给了很多目录,对于信息收集考察的比较严格,给了一个数据库,很多时候容易陷进去,拿到用户权限登录后,也需要大量的信息收集,虽然可以在数据库里找到root和密码,但是不是靶机本身的,最终利用s ...

  4. 基于近红外与可见光双目摄像头的活体人脸检测,文末附Demo

    基于近红外与可见光双目摄像头的活体人脸检测原理 人脸活体检测(Face Anti-Spoofing)是人脸识别系统中的重要一环,它负责验证捕捉到的人脸是否为真实活体,以抵御各种伪造攻击,如彩色纸张打印 ...

  5. windows 稀疏文件 (sparse file) 的一个实用场景——解决 SetEndOfFile 占据磁盘空间引入的性能问题

    前言 之前写过一篇文章说明文件空洞:<[apue] 文件中的空洞>,其中提到了 windows 稀疏文件是制造空洞的一种方式,但似乎没什么用处,如果仅仅处理占用磁盘空间的场景,使用SetE ...

  6. SQL Server 中的异常处理

    为什么我们需要 SQL Server 中的异常处理? 让我们通过一个示例来了解 SQL Server 中异常处理的必要性.因此,创建一个 SQL Server 存储过程,通过执行以下查询来除以两个数字 ...

  7. 前端必备的 CSS 库,normalize.css

    这是一个小 CSS 样式表,是著名的库,作为 CSS 基础样式的一部分,可消除客户端渲染不一致问题. 地址是 https://necolas.github.io/normalize.css/ 别小看这 ...

  8. 探秘Transformer系列之(18)--- FlashAttention

    探秘Transformer系列之(18)--- FlashAttention 目录 0x00 概述 0.1 问题 0.2 其它解决方案 0.3 Flash Attention 0x01 背景知识 1. ...

  9. java的数据类型之基本类型

    强类型语言 要求变量的使用要严格符合规定,所有变量都必须先定义后使用.如果没有按照指定要求使用变量,则该变量将报错.java就是强类型语言. java的两大数据类型 1.基本类型 2.引用类型 其中基 ...

  10. luat编程MQTT的自动重连失败分析

    正确用法 查看代码 --- 模块功能:MQTT客户端处理框架 -- @author openLuat -- @module mqtt.mqttTask -- @license MIT -- @copy ...