MoCha:Meta推出的首个能实现电影级说话角色生成的DiT模型
MoCha是什么?
MoCha 是由 Meta 和多伦多大学联合开发的一个 ai 模型,能够根据语音或文本输入生成带有完整人物形象的高质量角色动画视频,生成动作连贯流畅,支持多角色对话,是首个能实现电影级对话角色生成的DiT模型。
MoCha功能特点
语音驱动的角色动画生成:用户输入语音,MoCha 可以生成与语音内容同步的角色嘴型、面部表情、手势及身体动作。
文本驱动的角色动画生成:用户仅输入文本脚本,MoCha 会先自动合成语音,再驱动角色进行完整的口型和动作表现。
多角色轮番对话生成:MoCha 提供结构化提示模板与角色标签,能自动识别对话轮次,并实现角色间“你来我往”的自然对话呈现。
支持多种应用场景:包括虚拟主播、动画影视创作、教育内容创作、数字人客服和数字遗产等。
MoCha优势
生成内容接近电影级:与传统的“Talking Head”技术不同,MoCha 能够生成全身动画,让角色动作更加自然。
降低创作门槛:无需动捕设备和 3D 建模经验,降低了内容创作的门槛。
MoCha应用:
虚拟主播:自动生成日常 Vlog、角色问答
动画影视创作:AI 自动配音 + 自动动画,降低制作成本
教育内容创作:AI 老师角色讲课或互动
数字人客服:拟人化企业客服、咨询角色
数字遗产:为历史人物或故人打造动态影像
相关链接
项目主页: https:// congwei1230.github.io/MoCha/
论文: https:// arxiv.org/pdf/2503.23307
相关文章
OpenManus:开源版Manus,无需邀请码
2025-03-07