Seed-TTS:字节跳动开发的高质量文本到语音TTS模型

最近,TTS领域爆发了。就在chatTTS开源之后,Byte发布了seed-tts,效果很好。

Seed-TTS,是由字节跳动开发的高质量文本到语音(TTS)模型,Seed-TTS模型能够生成与人类语音几乎没有区别的语音。

作为语音生成的基础模型,Seed-TTS 在语音上下文学习方面表现出色,在说话者相似度和自然度方面的表现在客观和主观评估方面都与真实人类语音相匹配。

Seed-TTS在无需训练的情况下,只需要简短的语音片段即可克隆生成高度自然且富有表现力的语音,可以胜任读小说、配音等任务。

Seed-TTS还提供了对各种语音属性的高级控制能力,包括但不限于情感、语调、说话风格等,还可以通过编辑文本来编辑生成的语音。

Seed-TTS可以修改音频中的内容,同时保持音色、音调和情感不变。

Seed-TTS能进行语速调节,自由控制音频速度。

Seed-TTS 对各种语音属性(例如情感)提供卓越的可控性,并且能够为野外说话者生成高度表现力和多样化的语音。

Seed-TTS.jpeg

此外,我们提出了一种用于语音分解的自蒸馏方法,以及一种强化学习方法来增强模型的鲁棒性、说话人的相似性和可控性。我们还提出了 Seed-TTS 模型的非自回归 (NAR) 变体,名为 Seed-TTS DiT ,它采用完全基于扩散的架构。与之前基于 NAR 的 TTS 系统不同,Seed-TTS DiT 不依赖于预先估计的音素持续时间,并通过端到端处理执行语音生成。我们证明该变体在客观和主观评估中都达到了与基于语言模型的变体相当的性能,并展示了其在语音编辑中的有效性。

论文:https://arxiv.org/abs/2406.02430

收藏
最新工具
抖几句
抖几句

一个专为短视频创作者打造的短视频原创剧本交易平台,抖几句提供了剧...

小码至营
小码至营

便捷高效的各类运营辅助工具,提高运营工作效率、让运营效果可衡量,...

Skyo
Skyo

昆仑万维推出的基于天工大模型4.0 4o版的实时语音对话助手,具...

SellerCenter
SellerCenter

专业并且免费的DropShipping爆款选品分析工具,通过监控...

Poly Haven
Poly Haven

基于CC0共享协议的高质量3D模型、纹理贴图资源下载网站,Pol...

THunt.AI
THunt.AI

一个专业且免费的选品分析工具,Thunt为您分析您竞品的销售情况...

抖音AI分身
抖音AI分身

抖音最近推出的一个名为“V项目”的新功能,目的是通过虚拟数字人来...

Firra流程图
Firra流程图

一款由厦门无限飞科技有限公司独立自主研发的简洁、高效的在线流程图...

文叔叔
文叔叔

一款可以将任意文件极速传给你朋友的工具,永不限速的云存储产品,免...

爱传送MFiles
爱传送MFiles

一款跨平台的文件传输、文件管理和剪切板同步工具,爱传送MFile...