WhisperChain:实时语音转录工具,可把口语化的表达变得更正式
WhisperChain是什么?
WhisperChain 是一款自带润色功能的实时语音转录工具,特别适合会议记录、写语音笔记等场景。它能自动清理口头禅,把口语化的表达变得更正式、简洁,同时保留核心意思。
比如,你说“这个东西卖得特别好,赚了不少钱,客户都说好……”,它会转录成“该产品市场表现优异,创造了可观的营收,获得了客户的普遍好评”。
处理好的内容会直接存到剪贴板,随时能用,很方便。
WhisperChain功能特点
实时语音识别:WhisperChain 使用 Whisper.cpp 实现实时语音识别,能够将语音内容即时转换为文本。
转录清理:通过 LangChain 对转录后的文本进行清理,提高文本的可读性和准确性。
全局热键支持:用户可以通过全局热键(默认为
自动剪贴板集成:转录结果会自动保存到剪贴板,用户可以随时随地粘贴使用。
WhisperChain项目架构
WhisperChain 的架构包括客户端选项(如热键监听、音频流、剪贴板集成)、Web UI(Streamlit)以及后端服务(FastAPI)。音频流通过 WebSocket 传输到后端,经过 Whisper 模型识别和 LangChain 处理后,最终将清理后的文本输出。
WhisperChain应用场景
会议与讲座:在开会或听讲座时,实时把说话内容转成文字,方便做记录。
语音助手:让语音助手更准确地听懂指令,提升使用体验。
医疗记录:医生和护士可以用语音输入患者信息,节省时间,提高效率。
客服支持:把客户的语音咨询转成文字,方便客服快速回复,服务更精准。
安装与配置
系统要求:需要 Python 3.8+ 和 OpenAI API 密钥。对于 MacOS,还需要安装 ffmpeg 和 portaudio。
安装方法:通过 pip 安装 WhisperChain:
pip install whisperchain
配置:首次运行时,系统会提示输入 OpenAI API 密钥,并将其保存在 ~/.whisperchain/.env 文件中。
使用方法
启动应用程序:
whisperchain
或通过自定义配置文件启动:
whisperchain --config config.json
使用全局热键开始录音,说话后释放热键,转录结果将自动复制到剪贴板。
GitHub仓库:https://github.com/chrischoy/WhisperChain