ChatAnyone:阿里发布的通过音频输入生成具有丰富表情和上半身动作的肖像视频

ChatAnyone 是什么?

ChatAnyone 是一个由阿里巴巴集团通义实验室开发的实时风格化肖像视频生成框架,实现从“会说话的头”到上半身互动的高保真动画生成,支持多样化的面部表情和风格控制。适用于实时视频聊天、虚拟主播、ai 助手等场景。

ChatAnyone:阿里发布的通过音频输入生成具有丰富表情和上半身动作的肖像视频.webp

ChatAnyone 技术方法

高效分层运动扩散模型(Hierarchical Motion Diffusion Model)

  • 输入:音频信号。

  • 输出:面部和身体的控制信号,考虑显式和隐式的运动信号。

  • 功能:生成多样化的面部表情,并实现头部与身体动作的同步。

  • 细粒度表情控制:支持不同强度的表情变化,以及从参考视频中转移风格化的表情。

混合控制融合生成模型(Hybrid Control Fusion Generative Model)

  • 面部表情生成:结合显式地标和隐式偏移量,生成逼真的面部表情。

  • 手部动作控制:注入显式的手部控制信号,生成更准确和逼真的手部动作。

  • 面部优化模块:增强面部的逼真度,确保生成的肖像视频具有高度的表达性和真实感。

可扩展的实时生成框架

  • 灵活性:支持从头部驱动的动画到包含手势的上半身生成。

  • 实时性:在 4090 GPU 上,以最高 512×768 分辨率、30fps 的速度实时生成上半身肖像视频。

ChatAnyone 实验结果

  • 音频驱动的上半身动画:生成具有高度表达性的上半身数字人视频,支持有手和无手的场景。

  • 音频驱动的头部动画:实现高精度的口型同步,生成自然的头部姿势和丰富的面部表情。

  • 音频驱动的风格化动画:支持生成风格化角色的动画,同时适用于生成富有表现力的唱歌视频。

  • 双主持 AI 播客演示:能够生成双主持播客,支持 AI 驱动的对话。

  • 实时交互演示:在 4090 GPU 上实现 30fps 的实时生成,支持实际的交互式视频聊天应用。

ChatAnyone:阿里发布的通过音频输入生成具有丰富表情和上半身动作的肖像视频.webp

ChatAnyone 优势

  • 高保真度和自然度:生成的肖像视频具有丰富的表情和自然的上半身动作。

  • 实时性:支持实时交互,适用于视频聊天等应用场景。

  • 风格化控制:可以根据需求调整表情风格,实现个性化的动画生成。

ChatAnyone 的应用场景

虚拟主播与视频会议

  • 虚拟主播用于新闻播报、直播带货。

  • 视频会议中提供虚拟形象,增强互动性。

内容创作与娱乐

  • 动画制作:生成风格化动画角色。

  • 虚拟演唱会:生成虚拟歌手或表演者的实时动画。

  • AI 播客:生成双主持播客的虚拟形象。

教育与培训

  • 在线教育:生成虚拟教师形象。

  • 培训模拟:生成虚拟角色进行互动对话。

客户服务

  • 智能客服:生成虚拟客服形象。

  • 客户互动:提供生动的解答和互动。

营销与广告

  • 虚拟代言人:生成品牌代言人形象。

  • 广告视频:生成互动性强的广告内容。

社交娱乐

  • 匿名聊天:生成虚拟形象保护隐私。

  • 社交平台:生成个性化虚拟形象。

医疗健康

  • 虚拟健康咨询:生成虚拟医生形象。

  • 康复训练:生成虚拟康复教练。

其他

  • 虚拟导游:用于旅游规划和景点介绍。

  • 新闻播报:生成虚拟新闻主播。

ChatAnyone 的应用场景.webp

相关链接

项目地址:https://github.com/HumanAIGC/chat-anyone

论文地址:https://arxiv.org/abs/2506.00920

收藏
最新工具
AutoGLM沉思
AutoGLM沉思

智谱推出的一款集深度研究与实际操作能力于一体的AI Agent产...

JustAI
JustAI

一款AI文案写作与营销工具,能生成多场景文案,包括小红书笔记、抖...

巧文书
巧文书

原通答AI,一款专为企业打造的AI智能写标书工具,通过AI大模型...

Ai2 Paper Finder
Ai2 Paper Finder

一款由艾伦AI研究所发布的基于LLM的文献搜索系统,Ai2 Pa...

Vivago AI
Vivago AI

北京智象未来科技有限公司面向全球市场推出的一款综合性在线 AI ...

Ghibli AI
Ghibli AI

一款专门用于生成吉卜力风格的AI图像生成器,能够根据用户的文本描...

快出题
快出题

金数据旗下的一款AI驱动的在线考试软件,能够快速生成题库并自动组...

BotSharp
BotSharp

一个基于.NET开发的开源AI多智能体应用开发框架,它可以快速将...

Seede AI
Seede AI

一款简单易用的AI驱动设计工具,只需输入文字描述或上传参考图片,...

Colors
Colors

一个开源的学术期刊配色推荐器,收集整理了众多高质量论文插图的配色...