SpeechGPT 2.0-preview:首个面向交互和情景智能的语音对话模型
复旦大学OpenMOSS人工智能开放实验室推出首个面向实时交互和情景智能的开源语音对话模型:SpeechGPT 2.0-preview,SpeechGPT 2.0-preview基于百万小时级中文语音数据训练,以端到端架构实现语音与文本模态的高度融合,可根据指令生成多情感、多风格的语音,包括模仿特定角色的情绪。
一、核心技术突破
1. 端到端语音建模
模型通过语义-声学联合建模,直接处理语音输入并生成语音或文本输出,无需传统级联式ASR(语音识别)和TTS(语音合成)模块。其自研的超低比特率流式语音Codec(750bps)将语音压缩至每秒75个token,结合Codec Patchify技术聚合相邻时间步的语音token为统一向量,有效缓解跨模态建模冲突,支持流式输入输出,实现200ms以内延迟的实时交互。
2. 语音-文本混合建模
模型采用多阶段训练流程:
模态适应预训练:利用未标注语音数据学习语音模态特征;
跨模态指令微调:通过大规模跨模态指令数据集(SpeechInstruct)提升指令理解能力;
链式模态微调:优化跨模态转换的精准度,例如接收语音指令后用文本思考再以语音回复。
3. 多模态能力对齐
通过语音文本对齐预训练,模型“涌现”出未显式训练的泛化能力,例如无需语速调整数据即可控制语速,或模仿未见过的角色语气风格。
二、功能特性与性能表现
1. 拟人化交互体验
情感与风格控制:支持多情感(如虚弱、欢快)、多音色(男女切换)及多风格(诗歌朗诵、方言模仿)的精准控制,角色扮演能力突出;
2. 实时打断交互:百毫秒级响应速度支持自然对话中的即时打断与续接。
智能与实用性
文本能力集成:在语音表现力基础上,保留文本模型的智商,支持工具调用、联网搜索、外挂知识库接入等功能;
多任务兼容性:可处理长文档解析、多轮对话等场景,兼容短文本任务的性能未因长上下文能力而降低。
3. 开源生态支持
模型代码、权重及技术报告完全开源(Apache 2.0协议),提供Hugging Face预训练模型和Gradio演示界面,支持本地部署;
集成vLLM框架优化推理效率,稀疏注意力机制降低内存占用96.7%,提升处理速度3-7倍。
三、应用场景
智能助手:支持自然语音交互的客服、教育或医疗助手,如实时口语练习、情感陪伴;
内容创作:自动生成有声书、诗歌朗诵或方言内容,丰富多媒体创作形式;
无障碍通信:为听障或言语障碍者提供实时语音转文字及合成服务。
SpeechGPT 2.0-preview通过端到端架构与跨模态对齐技术,实现了语音交互的低延迟、高拟真与强智能,成为开源社区在语音大模型领域的重要突破。其开源生态与多场景适配能力,不仅为开发者提供了高效工具,更推动了人机交互向情感化、自然化的深度演进。
Github代码库:https://github.com/OpenMOSS/SpeechGPT-2.0-preview
在线体验:https://sp2.open-moss.com(测了下有点卡,在笑的时候断断续续的,不过还是挺自然,就是答非所问)