「OmniVoice Studio」开源 ElevenLabs 替代方案:本地语音克隆、语音设计、视频配音和实时听写

OmniVoice Studio 语音克隆界面

OmniVoice Studio 是一个开源的 ElevenLabs 替代方案,主打本地运行、无需 API Key、无需云端账号,把语音克隆、语音设计、视频配音和实时听写放进桌面应用里。

README 里强调它支持 real-time dictation、zero-shot voice cloning 和 cinematic video dubbing,并覆盖 646 种语言。语音克隆只需要 3 秒音频片段;语音设计可以调性别、年龄、口音、音高、语速、情绪和方言;视频配音则能从 YouTube URL 或本地文件开始,完成转写、翻译、重新配音并导出 MP4。

它还有一些很实用的工作流能力:任意应用里用快捷键唤起听写小组件,Demucs 人声分离,Pyannote + WhisperX 说话人分离,批量队列,以及 MCP Server,可从 Claude、Cursor 或其他 MCP 客户端调用 OmniVoice。

需要注意的是,项目目前仍处于 active beta,README 明确提示版本之间可能会有破坏性变化。对希望在本地做配音、克隆、听写和视频本地化的人来说,它是一个值得关注的开源语音工作台。

传送门

https://github.com/debpalash/OmniVoice-Studio

原创文章,如若转载,请注明出处:https://wefound.cc/p/2176.html

(0)
「VoxCPM2」OpenBMB 开源多语种 TTS:30 种语言、语音设计、可控克隆和 48kHz 输出
上一篇 2026年 5月 12日 下午8:38
「monogit」终端里的多仓库 Git 仪表盘:一屏看分支、超前落后和脏状态
下一篇 2026年 5月 13日 上午11:18

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注