Dolphin:海天瑞声与清华大学联合发布的一款面向东方语种的自动语音识别模型
Dolphin 是什么?
Dolphin是一款由海天瑞声与清华大学电子工程系语音与音频技术实验室联合开发的专为东方语言设计的自动语音识别模型。Dolphin支持40种东方语言和22种中国方言。具有高准确率和强鲁棒性,能够适应多种复杂语音环境。Dolphin广泛应用于语音转文字、语音交互和语音内容分析等场景,支持一键安装和多种调用方式。
Dolphin 模型特点
多语种支持:Dolphin 支持 40 种东方语言,包括东亚、南亚、东南亚和中东地区的语言,还支持 22 种中国方言(含普通话)。
语言自适应:自动识别输入语音的语言种类,无需手动指定。
高准确率:在多个测试集上,词错误率(WER)显著低于同类模型。
强鲁棒性:适应不同口音、语速、背景噪声等复杂语音环境。
高性能表现:在海天瑞声、Fleurs、CommonVoice 三个测试集下,与 Whisper 同等尺寸模型相比,Dolphin 的词错误率(WER)显著降低。例如,base 版本平均 WER 降低 63.1%,small 版本平均 WER 降低 68.2%。
开源性:Dolphin 的 base 和 small 版本模型与推理代码已全面开源。
Dolphin 技术架构
网络结构:基于 CTC-Attention 架构,采用 E-Branchformer 编码器和 Transformer 解码器,并引入了 4 倍下采样层。这种结构结合了 CTC 的序列建模能力和注意力机制的上下文捕捉能力,能够有效提升模型的识别准确性和效率。
多任务格式:Dolphin 借鉴了 Whisper 和 OWSM 的设计方法,专注于 ASR 进行了若干关键修改,如去掉 previous text 及其相关标记的使用,简化了输入格式。此外,Dolphin 引入了两级语种标签系统,以更好地处理语言和地区的多样性。
数据基础
Dolphin 的训练数据集整合了海天瑞声的专有数据和多个开源数据集,总时长超过 21.2 万小时。其中,海天瑞声数据集包含 137,712 小时的音频,覆盖 38 个东方语种。
应用场景
语音转文字:适用于会议记录、语音输入法等场景。
语音交互:用于ai智能语音助手、智能家居等,提升交互体验。
语音内容分析:快速转写和分析语音媒体内容。
Dolphin 使用教程
安装:用户可以通过命令 pip install -U dataoceanai-dolphin 一键安装。
命令行调用:例如,使用 dolphin audio.wav 进行语音识别,还可以指定模型版本、语言和地区的标签。
Python 调用:通过导入 dolphin 模块,加载音频和模型,即可进行语音识别。
相关链接
Github地址:https://github.com/DataoceanAI/Dolphin
项目主页:https://huggingface.co/DataoceanAI