首页 > Ai资讯 > Ai产品

Wan 2.1：通义万相推出的开源视频生成模型

映技派于2025-02-21发布在Ai产品

通义万相团队推出Wan 2.1（万相2.1）这个最新的视频生成模型，该模型在视频生成的多个方面有了很大的进步，像视频质量、复杂运动呈现、物理规律模拟以及中文汉字生成等。特别是在中文内容生成方面，它是首个能够有效控制中文文字特效生成的视频模型，解决了之前模型在处理中文内容上的不足。

通义万相团队即将推出WanX 2.1.webp

Wan 2.1功能特点

复杂动作展现：Wan 2.1能稳定地呈现出各种各样复杂的人物肢体动作，像旋转、跳跃、翻滚这些动作都可以很好地展现出来，这让视频看起来更加生动真实。
物理规律还原：它可以很逼真地把现实世界里的物理规律还原出来，这样生成的视频就更真实，也更符合大家的预期。
高质量视频生成：这个模型生成的视频视觉效果更逼真，像素质量也提高了。它能让生成的内容遵循物理规则，并且在执行复杂指令的时候更精准。
复杂运动处理：Wan 2.1在处理复杂运动场景方面特别厉害，比如花样滑冰、游泳、跳水这些场景，它能让动作保持协调真实，在复杂肢体动作生成方面有了很明显的提升。
多语言支持：Wan 2.1是第一个能同时支持中英文文字特效的视频生成模型，这在创意产业里的应用范围就扩大了很多，像广告、短视频制作这些领域，不管是国内还是国际的需求都能满足。
高效编解码技术：它采用了自己研发的VAE（变分自编码器）和DiT（某种深度学习架构）技术，靠着这个技术，生成无限长的1080P视频成为了可能，而且效率和画质都提高了。

Wan 2.1技术架构

Wan 2.1采用了自己研发的VAE（变分自编码器）和DiT（Diffusion Transformer）架构，这让它在时空上下文关系的建模能力上有了很大的提升。VAE会把视频分成好多块并且缓存中间特征，这样就能高效地对超长1080P视频进行编解码，能生成无限长度的高清视频。DiT通过时空全注意力机制和参数共享机制，让生成质量和训练效率都有了显著的提高。

Wan 2.1模型还能支持无限长视频生成，它用VAE把视频拆分成多个部分并且缓存中间特征来实现高效编解码，从而支持1080P长度的视频生成。而且它的生成质量和训练效率靠时空全注意力机制和参数共享机制得到了显著提升，这样生成的效果就更精细稳定。另外，用户在设置参数的时候，可以选择不同的预设模式，像简单模式和专业模式，来满足不同的创作水平和项目需求。