「Supertonic 3」本地运行的多语言 TTS:99M 参数、31 种语言和 ONNX 跨端推理

「Supertonic 3」本地运行的多语言 TTS:99M 参数、31 种语言和 ONNX 跨端推理

Supertonic 是 Supertone 开源的本地文本转语音系统,主打方向很清楚:把高质量 TTS 做到足够轻、足够快,并且可以直接在用户设备上运行。它基于 ONNX Runtime 做推理,不依赖云端 API,也不需要把文本发到服务器,对于浏览器朗读、移动端应用、离线阅读器、边缘设备和隐私敏感场景都很有吸引力。

最新的 Supertonic 3 把语言覆盖从上一代的 5 种扩展到 31 种,包含英语、中文以外常见的欧洲语言、日语、韩语、印地语、阿拉伯语、越南语等。README 里还提供了 lang="na" 的语言无关处理方式,当你不确定输入文本语言时,可以让模型按更通用的方式处理,不必预先接一套语言检测和分流逻辑。

它的另一个关键点是模型尺寸。Supertonic 3 公开 ONNX 权重大约 99M 参数,相比 0.7B 到 2B 级别的开放 TTS 系统更轻。这意味着更小的下载体积、更快的冷启动、更低的内存占用,也更容易放进桌面、移动端、WebGPU 浏览器、Raspberry Pi、电子书阅读器这类不适合跑大型模型的环境。

功能上,Supertonic 输出 44.1kHz 16-bit WAV,支持 10 种行内表达标签,例如笑声、呼吸、叹气等,让生成语音带一点自然的人类细节。它也特别强调真实文本处理能力,比如金额、电话号码、单位、缩写和技术表达,不希望开发者为了朗读效果额外写一堆预处理规则。

开发者体验方面,仓库里准备了多运行时示例:Python、Node.js、Browser WebGPU / WASM、Java、C++、C#、Go、Swift、iOS、Rust 和 Flutter 都有对应路径。Python 侧可以直接 pip install supertonic,首次运行时自动从 Hugging Face 下载模型资源;如果是其他语言示例,则需要先把 ONNX 模型和预设声音放到 assets 目录。

截至本次整理,supertonic GitHub 仓库约有 7.5k stars、765 forks,代码部分采用 MIT License,模型则使用 OpenRAIL-M License。它不是一个云端 TTS 服务,而更像一套“把 TTS 带到本地应用里”的开源基础设施。对做阅读工具、浏览器插件、语音助手、教育软件、无网环境设备和隐私优先产品的人来说,Supertonic 3 很值得试一试。

GitHub:supertonic

原创文章,如若转载,请注明出处:https://wefound.cc/p/2587.html

(0)
「LACT」Linux GPU 控制与监控工具:风扇曲线、功耗、超频和 Nvidia VF 曲线
上一篇 2026年 5月 18日 上午2:33
「MagicPath Agent Skills」把 MagicPath UI 组件搜索、预览和安装交给 AI Agent
下一篇 2026年 5月 18日 上午2:37

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注