Ai应用
Ai资讯
图生视频
文生视频
AI数字人源码系统

首页 > Ai资讯 > Ai科技

SpeechGPT 2.0-preview：首个面向交互和情景智能的语音对话模型

映技派于2025-01-27发布在Ai科技

复旦大学OpenMOSS人工智能开放实验室推出首个面向实时交互和情景智能的开源语音对话模型：SpeechGPT 2.0-preview，SpeechGPT 2.0-preview基于百万小时级中文语音数据训练，以端到端架构实现语音与文本模态的高度融合，可根据指令生成多情感、多风格的语音，包括模仿特定角色的情绪。

SpeechGPT 2.0-preview：首个面向交互和情景智能的语音对话模型.webp

一、核心技术突破

1. 端到端语音建模

模型通过语义-声学联合建模，直接处理语音输入并生成语音或文本输出，无需传统级联式ASR（语音识别）和TTS（语音合成）模块。其自研的超低比特率流式语音Codec（750bps）将语音压缩至每秒75个token，结合Codec Patchify技术聚合相邻时间步的语音token为统一向量，有效缓解跨模态建模冲突，支持流式输入输出，实现200ms以内延迟的实时交互。

2. 语音-文本混合建模

模型采用多阶段训练流程：

模态适应预训练：利用未标注语音数据学习语音模态特征；
跨模态指令微调：通过大规模跨模态指令数据集（SpeechInstruct）提升指令理解能力；
链式模态微调：优化跨模态转换的精准度，例如接收语音指令后用文本思考再以语音回复。

3. 多模态能力对齐

通过语音文本对齐预训练，模型“涌现”出未显式训练的泛化能力，例如无需语速调整数据即可控制语速，或模仿未见过的角色语气风格。

二、功能特性与性能表现

1. 拟人化交互体验

情感与风格控制：支持多情感（如虚弱、欢快）、多音色（男女切换）及多风格（诗歌朗诵、方言模仿）的精准控制，角色扮演能力突出；

2. 实时打断交互：百毫秒级响应速度支持自然对话中的即时打断与续接。

智能与实用性

文本能力集成：在语音表现力基础上，保留文本模型的智商，支持工具调用、联网搜索、外挂知识库接入等功能；
多任务兼容性：可处理长文档解析、多轮对话等场景，兼容短文本任务的性能未因长上下文能力而降低。

3. 开源生态支持

模型代码、权重及技术报告完全开源（Apache 2.0协议），提供Hugging Face预训练模型和Gradio演示界面，支持本地部署；

集成vLLM框架优化推理效率，稀疏注意力机制降低内存占用96.7%，提升处理速度3-7倍。

SpeechGPT 2.0-preview.webp

三、应用场景

智能助手：支持自然语音交互的客服、教育或医疗助手，如实时口语练习、情感陪伴；
内容创作：自动生成有声书、诗歌朗诵或方言内容，丰富多媒体创作形式；
无障碍通信：为听障或言语障碍者提供实时语音转文字及合成服务。

SpeechGPT 2.0-preview通过端到端架构与跨模态对齐技术，实现了语音交互的低延迟、高拟真与强智能，成为开源社区在语音大模型领域的重要突破。其开源生态与多场景适配能力，不仅为开发者提供了高效工具，更推动了人机交互向情感化、自然化的深度演进。

Github代码库：https://github.com/OpenMOSS/SpeechGPT-2.0-preview

在线体验：https://sp2.open-moss.com（测了下有点卡，在笑的时候断断续续的，不过还是挺自然，就是答非所问）

收藏

#语音合成 #语音识别 #文本转AI语音 #文字转语音

DeepSeek引发硅谷热议

上一篇

DeepSeek引发硅谷热议

CNBC：中国人工智能公司DeepSeek引发硅谷恐慌

下一篇

CNBC：中国人工智能公司DeepSeek引发硅谷恐慌

相关文章

llasa 3B TTS：基于LLaMA架构的文本到

llasa 3B TTS：基于LLaMA架构的文本到

2025-01-25

10款优秀的开源TTS语音模型推荐

10款优秀的开源TTS语音模型推荐

2024-07-03

最新文章

最新工具

Tarsier

字节跳动推出的一系列大规模视觉语言模型（LVLM），专注于视频理...

Cherry Studio

一款开源的支持多种大型语言模型（LLM）桌面AI客户端，集成了多...

CodeName Goose

一款开源代码智能体Agent，Codename Goose不仅能...

NotebookLM

一款基于Gemini 的AI笔记和研究助手，旨在帮助用户更高效地...

PengChengStarling

PengChengStarling

鹏城实验室开源的一款多语言语音识别系统开发工具包，PengChe...

kokoroTTS

一款开源、高性能的文本转语音（TTS）模型，Kokoro TTS...

宇树科技

是一家专注于足式机器人研发与生产的中国高科技企业，成立于2016...

YuE

一个全新的多模态音乐开源模型，YuE具有从歌词生成高质量音乐的能...

泥巴影院

一个专为海外华人提供的在线视频平台，用户可以在此平台上免费观看最...

JanusFlow

DeepSeek团队推出的一款先进的多模态人工智能模型，目的在于...

人生若只如初见

用户登录