Ai应用
Ai资讯
AI生图
AI生视频
AI生PPT
AI数字人系统

首页 > Ai导航 > Ai工具箱 > Ai开源项目

Hibiki

Hibiki

Kyutai Labs开发的高保真实时语音翻译模型，可以保留原声特点并进行实时翻译，边听边翻译，像同声传译一样实时输出，同时生成语音和文字翻译。

#Ai工具箱 #Ai开源项目

访问Hibiki

收藏

Hibiki简介

Hibiki是Kyutai Labs开发的支持法语和英语的高保真实时语音翻译模型，可以保留原声特点并进行实时翻译，边听边翻译，像同声传译一样实时输出，同时生成语音和文字翻译。

Hibiki功能特征：

多流语言模型架构：Hibiki采用了类似于Moshi的多流架构，这使得它能够同时处理源语言和目标语言的语音，实现语音到语音（S2ST）和语音到文本（S2TT）的无缝转换。
保留声音特征：Hibiki模型的一大亮点是生成的语音听起来比较自然流畅，接近人类的正常说话方式。
自动调整语速：Hibiki智能地根据源语言的语义内容调整翻译后的语音语速，确保翻译的流畅性和准确性。
实时翻译：可以在短时间内完成语音到语音或者语音到文字的翻译转换。比如在进行跨国旅行交流时，当一方说完一句话，几乎能立刻得到翻译后的结果并播放出来，是不是很方便。
设备端运行的小模型：Hibiki-M是Hibiki的轻量化版本，拥有17亿参数，能够在移动设备如iPhone上实时运行，无需依赖云端处理，这展示了模型优化和压缩技术的先进性。
自适应翻译：Hibiki能够较为精准地识别不同口音的语音输入。例如，无论是标准的英式英语、美式英语，还是带有地方特色的印度英语等。
多语言支持：除了法语和英语，Hibiki的多流音频-文本语言模型还可以扩展为其他语言的翻译，增加其应用的灵活性和适应性。

Hibiki技.webp

Hibiki技术：

Hibiki是一种通过精确的同步算法，能迅速地将一种语言的语音翻译成另一种语言的语音或文本的解码模型。这一技术的核心在于它多流语言模型，能够在语音识别和翻译过程中，实时生成音频和文本输出。还有，Hibiki还支持声音特征迁移，可以在翻译过程中保留说话者的语调和情感，使翻译的效果更自然和真实。

不过，由于需要进行语音数据的传输和云计算处理，它对网络的要求较高。如果网络信号不好，可能会出现识别错误或者翻译延迟的现象。

Hibiki技术.webp

Hibiki技术.webp

Hibiki应用场景:

商务会议：对于跨国商务人士，在会议或者商务宴请等场合，Hibiki可以帮助与会者进行即时翻译，消除语言障碍。
在线教育：在教育平台中，Hibiki能够提供实时语音翻译，帮助不同语言背景的学生进行更好的学习和交流。
旅游翻译：在国外旅游时，方便游客与当地人进行简单的交流，如问路、点餐等。游客可以直接对着手机说出自己的需求，然后得到翻译后的语音或文字回复。
医患沟通：在医院等场所，Hibiki可以辅助医生与患者之间的沟通。

GitHub: https://github.com/kyutai-labs/hibiki

HuggingFace: https://huggingface.co/collections/kyutai/hibiki-fr-en-67a48835a3d50ee55d37c2b5

arXiv论文: https://arxiv.org/pdf/2502.03382

与Hibiki相关工具

VDSpeak

一个专注于为YouTube视频提供多语言翻译和配音服务的在线工具，只需输入视频链接，就能快速生成翻译字幕或配音音频。

独角兽翻译器

独角兽翻译器

一款功能强大的跨境私域管理营销工具，通过实时翻译、多平台账号管理、客户关系管理等功能，解决了跨境业务中的语言障碍和运营难...

流畅阅读（FluentRead）

流畅阅读（FluentRead）

开源浏览器双语翻译插件，基于上下文的智能翻译，提供更准确的翻译结果，支持 Chrome、Firefox、Edge 等主流...

风车Ai翻译

风车Ai翻译

高效的外贸跨境电商翻译工具，支持中英日韩欧美东南亚等多国语言，便捷的图片、短视频精修工具，支持API调用，轻松打造精品出...

CNKI学术翻译助手

CNKI学术翻译助手

中国知网（CNKI）在2020最新推出的针对专业领域内术语繁多、行业属性突出、跨专业歧义处理等翻译问题而研发的学术领域专...

知云文献翻译

知云文献翻译

一款专业文献论文阅读与论文翻译工具，用户可以通过选中PDF中的文字，右侧会显示翻译结果，知云文献翻译还支持多篇PDF的同...

最新工具

码多多Al智能聊天系統

码多多Al智能聊天系統是一款基于人工智能技术的聊天系统AI源码。...

豆包MarsCode

字节跳动旗下推出的一个免费AI编程助手，一个基于 AI 的云 I...

Agent TARS

一个字节跳动开源的多模态 AI 代理工具，Agent TARS能...

Motionshop

AI角色动画工具，通过先进的视频处理和3D渲染技术，Motion...

AnimateDiff

AnimateDiff 是一个能够将个性化的文本转换为图像的扩展...

ProPainter

ProPainter，一键移除视频内的移动物体，一键移除视频水印...

TryOnDiffusion

TryOnDiffusion就谷歌推出的一项新虚拟试穿功能，能够...

MagicColor

香港科技大学团开发的首个支持单次前向传播多实例集成的线稿上色框架...

OCRmyPDF

一款开源的命令行工具，用于给扫描的 PDF 文件添加可搜索的OC...

Automa

一款开源的低代码/无代码浏览器自动化工具，用户可以通过可视化界面...

人生若只如初见

用户登录