MoshiVis:一款能听还能看,并用流畅的语音跟你讨论图像内容的视觉语音模型

MoshiVis是什么?

MoshiVis 是一个在Moshi基础上开发的一款视觉语音模型,并保持了Moshi的低延迟和自然对话能力,能够以自然对话风格讨论图像内容。支持多轮对话,可以描述图片的文字内容并回答有关于图片的问题。

它通过交叉注意力机制将视觉信息融入语音流,同时保持低延迟和低内存占用。MoshiVis 提供了多种后端支持(如 PyTorch、Rust、MLX),并发布了预训练模型和合成视觉对话数据集,适用于实时语音交互场景。

MoshiVis:一款能听还能看,并用流畅的语音跟你讨论图像内容的视觉语音模型.jpg


MoshiVis核心功能

  • 视觉与语音结合:MoshiVis 在 Moshi 的基础上增加了视觉理解能力,能够将图像信息融入语音对话中。通过扩展核心 Transformer 架构,引入交叉注意力机制,将视觉信息注入语音流中。

  • 低延迟与低内存占用:为了保持低延迟并减少内存使用,MoshiVis 的交叉注意力投影权重在各层之间共享,并通过门控机制调节视觉输入流。

  • 自然对话风格:模型在融入视觉能力的同时,保留了 Moshi 原有的自然对话风格。

MoshiVis技术架构

  • 基础模型:基于 Moshi,一个 7B 参数的语音-文本基础模型。

  • 视觉编码器:使用 PaliGemma2 家族的预训练冻结 400M 视觉编码器。

  • 适配器参数:在 Moshi 基础上增加了约 206M 的适配器参数,用于视觉信息的处理。

  • 交叉注意力机制:通过交叉注意力模块将视觉信息注入语音流,同时通过门控机制调节视觉输入的影响。

MoshiVis技术架构.webp

MoshiVis模型发布

  • 模型变体:发布了基于 Moshika(女声)的 MoshiVis 模型,包含完整的模型权重,包括语音编解码器、文本分词器、图像编码器和基础 Moshi 模型。

  • 后端支持:提供了三种后端支持,包括 PyTorch、Rust 和 MLX,支持不同的量化格式(如 BF16、Q8_0 等)。

  • 许可证:模型权重(不包括视觉编码器)在 CC-BY 4.0 许可下发布,视觉编码器在 Gemma 许可下发布。

MoshiVis使用方式

  • WebUI 前端:提供了 WebUI 前端,支持回声消除,提升模型表现。用户可以通过预构建的静态版本或自行编译源代码来使用。

  • 后端运行:

  • PyTorch:需要约 24GB GPU 内存,不支持量化。

  • Rust:支持 GPU 加速,需要 Rust 工具链和 CUDA(或 macOS 上的 Metal)。

  • MLX:支持 bfloat16 和量化(q4、q8)格式。

  • 运行命令:提供了详细的运行命令,用户可以根据需要选择不同的后端和量化格式。

相关链接:

GitHub项目:https://github.com/kyutai-labs/moshivis

HuggingFace模型:https://huggingface.co/collections/kyutai/moshivis-v01-67cef4acae6a5d75d6d6c883

演示:https://vis.moshi.chat/

论文:https://arxiv.org/abs/2503.15633

收藏

相关文章

最新工具
AutoGLM沉思
AutoGLM沉思

智谱推出的一款集深度研究与实际操作能力于一体的AI Agent产...

JustAI
JustAI

一款AI文案写作与营销工具,能生成多场景文案,包括小红书笔记、抖...

巧文书
巧文书

原通答AI,一款专为企业打造的AI智能写标书工具,通过AI大模型...

Ai2 Paper Finder
Ai2 Paper Finder

一款由艾伦AI研究所发布的基于LLM的文献搜索系统,Ai2 Pa...

Vivago AI
Vivago AI

北京智象未来科技有限公司面向全球市场推出的一款综合性在线 AI ...

Ghibli AI
Ghibli AI

一款专门用于生成吉卜力风格的AI图像生成器,能够根据用户的文本描...

快出题
快出题

金数据旗下的一款AI驱动的在线考试软件,能够快速生成题库并自动组...

BotSharp
BotSharp

一个基于.NET开发的开源AI多智能体应用开发框架,它可以快速将...

Seede AI
Seede AI

一款简单易用的AI驱动设计工具,只需输入文字描述或上传参考图片,...

Colors
Colors

一个开源的学术期刊配色推荐器,收集整理了众多高质量论文插图的配色...