
Hibiki
Hibiki简介
Hibiki是Kyutai Labs开发的支持法语和英语的高保真实时语音翻译模型,可以保留原声特点并进行实时翻译,边听边翻译,像同声传译一样实时输出,同时生成语音和文字翻译。
Hibiki功能特征:
多流语言模型架构:Hibiki采用了类似于Moshi的多流架构,这使得它能够同时处理源语言和目标语言的语音,实现语音到语音(S2ST)和语音到文本(S2TT)的无缝转换。
保留声音特征:Hibiki模型的一大亮点是生成的语音听起来比较自然流畅,接近人类的正常说话方式。
自动调整语速:Hibiki智能地根据源语言的语义内容调整翻译后的语音语速,确保翻译的流畅性和准确性。
实时翻译:可以在短时间内完成语音到语音或者语音到文字的翻译转换。比如在进行跨国旅行交流时,当一方说完一句话,几乎能立刻得到翻译后的结果并播放出来,是不是很方便。
设备端运行的小模型:Hibiki-M是Hibiki的轻量化版本,拥有17亿参数,能够在移动设备如iPhone上实时运行,无需依赖云端处理,这展示了模型优化和压缩技术的先进性。
自适应翻译:Hibiki能够较为精准地识别不同口音的语音输入。例如,无论是标准的英式英语、美式英语,还是带有地方特色的印度英语等。
多语言支持:除了法语和英语,Hibiki的多流音频-文本语言模型还可以扩展为其他语言的翻译,增加其应用的灵活性和适应性。
Hibiki技术:
Hibiki是一种通过精确的同步算法,能迅速地将一种语言的语音翻译成另一种语言的语音或文本的解码模型。这一技术的核心在于它多流语言模型,能够在语音识别和翻译过程中,实时生成音频和文本输出。还有,Hibiki还支持声音特征迁移,可以在翻译过程中保留说话者的语调和情感,使翻译的效果更自然和真实。
不过,由于需要进行语音数据的传输和云计算处理,它对网络的要求较高。如果网络信号不好,可能会出现识别错误或者翻译延迟的现象。
Hibiki应用场景:
商务会议:对于跨国商务人士,在会议或者商务宴请等场合,Hibiki可以帮助与会者进行即时翻译,消除语言障碍。
在线教育:在教育平台中,Hibiki能够提供实时语音翻译,帮助不同语言背景的学生进行更好的学习和交流。
旅游翻译:在国外旅游时,方便游客与当地人进行简单的交流,如问路、点餐等。游客可以直接对着手机说出自己的需求,然后得到翻译后的语音或文字回复。
医患沟通:在医院等场所,Hibiki可以辅助医生与患者之间的沟通。
GitHub: https://github.com/kyutai-labs/hibiki
HuggingFace: https://huggingface.co/collections/kyutai/hibiki-fr-en-67a48835a3d50ee55d37c2b5
arXiv论文: https://arxiv.org/pdf/2502.03382