SpeakerKit:可以快速、高效地识别音频中的不同说话人

SpeakerKit是什么?

SpeakerKit 是 Argmax 公司开发的一种 设备端说话人识别(Diarization)工具,可以快速、高效地识别音频中的不同说话人。它与 WhisperKit(一种音频转录工具)配合使用,能够生成带有说话人标签的转录文本。适用于需要快速、准确识别音频中说话人的应用场景。

SpeakerKit:可以快速、高效地识别音频中的不同说话人.jpg

SpeakerKit主要特点

速度:

  • 在 iPhone 上处理 4 分钟音频时,SpeakerKit 仅需 约 1 秒 完成说话人识别,速度远超其他同类系统。

  • 与 WhisperKit 结合使用时,转录和识别的总时间仅需 25 秒。

质量:

  • SpeakerKit 的错误率与行业领先的系统(如 Pyannote)相当,尽管其速度提升了数倍。

体积:

  • 总大小约为 10MB,便于集成到应用程序中或快速下载。

兼容性:

  • 支持 iOS 16 和 macOS 13 及更高版本的设备。

  • Android 支持正在开发中。

模块化:

  • SpeakerKit 可与 WhisperKit 配合使用,生成带有说话人标签的转录文本,也可以与其他转录引擎集成,提供了比服务器端 API 更高的灵活性。

SpeakerKit:可以快速、高效地识别音频中的不同说话人.webp

基准测试

Argmax 开发了一个名为 SDBench 的 Python 工具包,用于在 13 个广泛使用的数据集上标准化地测试说话人识别系统的性能。SDBench 的代码将开源,相关论文将于 2025 年 4 月发布。

未来规划

优化转录质量:目前SpeakerKit 的独立说话人识别质量已达到行业领先水平(通过 DER 测量)。下一步,团队将优化与 WhisperKit 的联合使用,以提升带有说话人标签的转录质量(通过 WDER 测量)。

说话人识别功能:SpeakerKit 将推出一项新功能,能够提取说话人的声纹,并在新的上下文中识别他们。

详细阅读:https://www.argmaxinc.com/blog/speakerkit

HuggingFace:https://huggingface.co/argmaxinc/speakerkit-pro

收藏
#人声分离软件

相关文章

最新工具
ChatPaper.ai
ChatPaper.ai

一个论文、视频、笔记的AI总结学习助手,轻松提炼论文精华、整理课...

选品酷BigTracker
选品酷BigTracker

一款由BQool比酷尔科技公司开发的专为寻找亚马逊爆款的卖家量身...

云知改写
云知改写

一个基于先进深度语义分析、智能 AI 及文本处理技术开发的论文查...

Remove.photos
Remove.photos

一款免费的图片背景去除工具,能 00% 自动在3秒内去除图片背景...

VideoIdeas Ai
VideoIdeas Ai

一个为 YouTube博主量身定制的视频内容生成工具。它能在短时...

OnePPT
OnePPT

一款创新型AIPPT智能生成工具,提供智能写作、PPT生成、模板...

Hugo
Hugo

一个使用 Go 语言开发的开源静态网站生成器,速度快,灵活性高。...

企鹅读伴
企鹅读伴

腾讯SSV数字支教实验室推出的AI阅读教育产品,由腾讯混元大模型...

Krillin AI
Krillin AI

一款本地的视频翻译、配音和语音克隆的工具,适用于哔哩哔哩、小红书...

Lovart AI
Lovart AI

一个全球首个适用于设计目的的自适应设计AI智能体平台,能将创意转...