Ai应用
Ai资讯
AI生图
AI生视频
AI生PPT
AI数字人系统

首页 > Ai导航 > Ai工具箱 > Ai语音工具

SenseVoice

SenseVoice

一款阿里通义实验室发布的FunAudioLLM框架多语言音频基础模型，SenseVoice具有多语种、混合语言、音色和情感控制能力。

#Ai工具箱 #Ai语音工具

访问SenseVoice

收藏

SenseVoice简介

SenseVoice，一款阿里通义实验室发布的FunAudioLLM框架多语言音频基础模型，enseVoice专注于高精度多语言语音识别、语音情感识别和音频事件检测，具有多语种、混合语言、音色和情感控制能力，在零样本语音生成、跨语言语音克隆和指令跟踪方面的能力表现优秀。

FunAudioLLM 通过结合先进的语音理解和生成技术，可以处理复杂的语音任务，并在多种语言环境中实现自然交。

SenseVoice可以应用于语音翻译、情感语音聊天、互动播客和富有表现力的有声读物朗读等。

SenseVoice具有音频理解能力，包括语音识别（ASR）、语种识别（LID）、语音情感识别（SER）和声学事件分类（AEC）或声学事件检测（AED）

SenseVoice性能：

多语言语音识别：经过超过40万小时的数据训练，支持50多种语言，识别性能超越Whisper模型。
丰富转录：
拥有优秀的情绪识别能力，在测试数据上达到并超越目前最好的情绪识别模型的效果。
提供声音事件检测能力，支持bgm、掌声、笑声、哭泣、咳嗽、打喷嚏等各种常见人机交互事件的检测。
高效推理：SenseVoice-Small 模型采用非自回归端到端框架，从而实现极低的推理延迟。处理 10 秒的音频仅需 70ms，比 Whisper-Large 快 15 倍。
便捷的Finetuning：提供便捷的Finetuning脚本和策略，让用户根据业务场景轻松解决长尾样本问题。
服务部署：提供服务部署管道，支持多并发请求，客户端语言包括Python、C++、HTML、Java、C#等。

在aiSHELL-1、AISHELL-2、Wenetspeech、Librispeech和Common Voice上测试了多语言语音识别性能和推理效率，中文和粤语，SenseVoice-Small效果好。

github：https://github.com/FunAudioLLM/SenseVoice

与SenseVoice相关工具

FineVoice

一个多功能的AI配音平台，FineVoice使用先进的人工智能技术，为用户提供逼真的个性化语音服务。这个平台不仅可以将文...

TikTok Voice

TikTok Voice

TikTok Voice，一个免费的在线AI文字转语音工具，用户可以将文本转换为抖音声音，并下载生成的声音用于视频编辑、...

CosyVoice

一种深度融合文本理解和语音生成的一项新型语音合成技术，CosyVoice能够精准解析并诠释各类文本内容，将其转化为宛如真...

Voicebox

一种最先进的AI语音模型，可以执行语音生成任务，例如编辑、采样和风格化。Voicebox 可以生成高质量的音频剪辑并编辑...

Voice Engine

Voice Engine

根据文本输入和一个15秒的音频样本，就能生成接近原始说话者声音的自然听起来的语音。

VoicePanel

一个利用AI进行语音或视频采访的平台，Voicepanel 的 AI 可以招募您的目标受众，通过语音或视频进行采访，并立...

最新工具

即梦AI

荐

剪映Dreamina的中文品牌名称，是一个集成了AI作图和AI视...

星火绘镜

一款由科大讯飞推出的AI文生视频创作平台，可以轻松地从文字描述生...

讯飞智作

一款集AI配音、虚拟数字人视频生成、PPT生成视频、数字人定制等...

配音神器PRO

一款功能强大的配音软件，提供调整语速、插入停顿、检测敏感词、调节...

声动视界SoundView

一款面向带货短视频的AI视频工具，声动视界SoundView提供...

Udio

由前 Google Deepmind 研究人员开发的AI音乐生成...

Suno AI

Suno AI 是由 Anthropic 公司开发的一款 AI ...

Noiz AI

一款专注于语音合成与克隆的AI工具，依托自研的超大语音模型，能够...

NotaGen

由中央音乐学院、北京航空航天大学和清华大学等机构联合开发的一款 ...

Spark-TTS

SparkAudio团队开发的文本转语音（TTS）系统，基于 Q...

人生若只如初见

用户登录