Llasa:一款基于Llama的文本转语音(TTS),生成效果自然流畅富有感情
Llasa是什么?
Llasa是由香港科技大学音频实验室开发的开源文本转语音(TTS)系统,基于 LLaMA 架构,结合了 XCodec2 语音标记技术,能够生成高质量、自然流畅、富有感情的语音,提高了语音合成的自然度、韵律准确性和情感表达能力,生成效果比较自然。
Llasa核心功能
高质量语音合成:能生成自然流畅的语音,支持中英文双语,语音自然度和情感表达出色。
情感表达:可合成带有快乐、悲伤、愤怒等情感色彩的语音,让语音更自然生动。
语音克隆:只需15秒声音样本,就能高度准确地克隆声音,保留原声音色和情感特征。
零样本学习:对没见过的说话者或情感也能进行语音合成,无需额外微调。
长文本支持:能处理长文本输入并生成连贯语音输出,适用于有声读物、语音播报等场景。
Llasa技术原理
架构:基于单层向量量化(VQ)编解码器和单个Transformer架构,与标准LLaMA模型完全对齐。
语音分词器:用XCodec2将语音波形编码为离散标记,保留语义和声学信息。
训练与推理扩展:增加模型规模(如1B、3B、8B参数)或训练数据量(如25万小时语音数据),提升语音自然度和情感表达能力。
自回归生成:逐个生成语音标记,保证语音在语义和韵律上与输入文本一致。
Llasa模型版本
Llasa有1B、3B和8B参数版本,支持中英文,可满足不同硬件资源和应用场景需求。
Llasa应用场景
适用于虚拟现实、游戏、无障碍服务、客户服务以及教育等领域以及适合做有声读物或语音助手。
智能语音助手:Llasa TTS能让智能设备或软件有自然流畅的语音交互功能,使用户体验更好。
有声读物与在线教育领域:它能把文本内容转化成生动语音,用于有声读物制作和在线教育,方便学生通过听来学习。
语音播报与客服:Llasa TTS可用于新闻播报、交通信息提示和客服系统,让信息传递更高效。
游戏与娱乐:它能为角色或虚拟形象配上个性化语音,增强沉浸感。
广告与市场营销:企业能用Llasa TTS生成广告语音,提升品牌宣传效果。
语音克隆与内容创作:Llasa TTS支持零样本语音克隆,只要15秒左右音频样本就能克隆特定人声的音色和情感,可用于广告配音、视频制作或个性化语音内容创作 。
GitHub仓库:https://github.com/zhenye234/LLaSA_training
HuggingFace模型库:https://huggingface.co/collections/HKUSTAudio/llasa
在线体验Demo:https://huggingface.co/spaces/srinivasbilla/llasa-3b-tts