「Supertonic 3」本地运行的多语言 TTS：99M 参数、31 种语言和 ONNX 跨端推理

Supertonic 是 Supertone 开源的本地文本转语音系统，主打方向很清楚：把高质量 TTS 做到足够轻、足够快，并且可以直接在用户设备上运行。它基于 ONNX Runtime 做推理，不依赖云端 API，也不需要把文本发到服务器，对于浏览器朗读、移动端应用、离线阅读器、边缘设备和隐私敏感场景都很有吸引力。

最新的 Supertonic 3 把语言覆盖从上一代的 5 种扩展到 31 种，包含英语、中文以外常见的欧洲语言、日语、韩语、印地语、阿拉伯语、越南语等。README 里还提供了 lang="na" 的语言无关处理方式，当你不确定输入文本语言时，可以让模型按更通用的方式处理，不必预先接一套语言检测和分流逻辑。

它的另一个关键点是模型尺寸。Supertonic 3 公开 ONNX 权重大约 99M 参数，相比 0.7B 到 2B 级别的开放 TTS 系统更轻。这意味着更小的下载体积、更快的冷启动、更低的内存占用，也更容易放进桌面、移动端、WebGPU 浏览器、Raspberry Pi、电子书阅读器这类不适合跑大型模型的环境。

功能上，Supertonic 输出 44.1kHz 16-bit WAV，支持 10 种行内表达标签，例如笑声、呼吸、叹气等，让生成语音带一点自然的人类细节。它也特别强调真实文本处理能力，比如金额、电话号码、单位、缩写和技术表达，不希望开发者为了朗读效果额外写一堆预处理规则。

开发者体验方面，仓库里准备了多运行时示例：Python、Node.js、Browser WebGPU / WASM、Java、C++、C#、Go、Swift、iOS、Rust 和 Flutter 都有对应路径。Python 侧可以直接 pip install supertonic，首次运行时自动从 Hugging Face 下载模型资源；如果是其他语言示例，则需要先把 ONNX 模型和预设声音放到 assets 目录。

截至本次整理，supertonic GitHub 仓库约有 7.5k stars、765 forks，代码部分采用 MIT License，模型则使用 OpenRAIL-M License。它不是一个云端 TTS 服务，而更像一套“把 TTS 带到本地应用里”的开源基础设施。对做阅读工具、浏览器插件、语音助手、教育软件、无网环境设备和隐私优先产品的人来说，Supertonic 3 很值得试一试。

GitHub：supertonic

原创文章，如若转载，请注明出处：https://wefound.cc/p/2587.html