WanX 2.1:通义万相推出的开源视频生成模型
通义万相团队推出WanX 2.1(万相2.1)这个最新的视频生成模型,该模型在视频生成的多个方面有了很大的进步,像视频质量、复杂运动呈现、物理规律模拟以及中文汉字生成等。特别是在中文内容生成方面,它是首个能够有效控制中文文字特效生成的视频模型,解决了之前模型在处理中文内容上的不足。
WanX 2.1功能特点
复杂动作展现:WanX 2.1能稳定地呈现出各种各样复杂的人物肢体动作,像旋转、跳跃、翻滚这些动作都可以很好地展现出来,这让视频看起来更加生动真实。
物理规律还原:它可以很逼真地把现实世界里的物理规律还原出来,这样生成的视频就更真实,也更符合大家的预期。
高质量视频生成:这个模型生成的视频视觉效果更逼真,像素质量也提高了。它能让生成的内容遵循物理规则,并且在执行复杂指令的时候更精准。
复杂运动处理:WanX 2.1在处理复杂运动场景方面特别厉害,比如花样滑冰、游泳、跳水这些场景,它能让动作保持协调真实,在复杂肢体动作生成方面有了很明显的提升。
多语言支持:WanX 2.1是第一个能同时支持中英文文字特效的视频生成模型,这在创意产业里的应用范围就扩大了很多,像广告、短视频制作这些领域,不管是国内还是国际的需求都能满足。
高效编解码技术:它采用了自己研发的VAE(变分自编码器)和DiT(某种深度学习架构)技术,靠着这个技术,生成无限长的1080P视频成为了可能,而且效率和画质都提高了。
WanX 2.1技术架构
WanX 2.1采用了自己研发的VAE(变分自编码器)和DiT(Diffusion Transformer)架构,这让它在时空上下文关系的建模能力上有了很大的提升。VAE会把视频分成好多块并且缓存中间特征,这样就能高效地对超长1080P视频进行编解码,能生成无限长度的高清视频。DiT通过时空全注意力机制和参数共享机制,让生成质量和训练效率都有了显著的提高。
WanX 2.1模型还能支持无限长视频生成,它用VAE把视频拆分成多个部分并且缓存中间特征来实现高效编解码,从而支持1080P长度的视频生成。而且它的生成质量和训练效率靠时空全注意力机制和参数共享机制得到了显著提升,这样生成的效果就更精细稳定。另外,用户在设置参数的时候,可以选择不同的预设模式,像简单模式和专业模式,来满足不同的创作水平和项目需求。
WanX 2.1应用场景
内容创作:对于视频创作者来说,WanX 2.1是个很强大的工具,能帮助他们创作出效果更丰富的视频。
广告制作:在营销和广告方面,可以用它来制作很吸引人的宣传视频。
教育和培训:在教育领域,它能通过生动的示范视频让学习体验更好,提高信息传递的效率。
WanX 2.1使用方法
访问平台:访问http://tongyi.aliyun.com/wanxiang/注册账号然后登录。
选择功能:登录后在平左栏找到文字作画,选择WanX 2.1功能,这里可以看到不同的生成选项。
输入提示词:用户可以输入想要生成视频的主题或者元素,中英文都可以输入。
设置参数:根据自己的需求,用户能调整生成视频的参数,像视频长度、特效类型、人物动作这些。
生成与预览:提交之后系统会生成视频,用户可以预览,觉得满意了就可以下载或者分享。
演示地址:https://tongyi.aliyun.com/wanxiang/