「FreeLLMAPI」把 16 个免费 LLM Provider 聚合成一个 OpenAI 兼容接口

FreeLLMAPI 是一个自托管的 OpenAI 兼容代理，思路很直接：把 Google、Groq、Cerebras、SambaNova、Mistral、OpenRouter、GitHub Models、Cloudflare、HuggingFace、Z.ai、Ollama、Pollinations 等 16 个免费 LLM provider 的额度，放到同一个 /v1/chat/completions 入口后面。对外仍然像 OpenAI API 一样使用，只需要改一下 base_url，内部由它负责路由、失败切换和额度追踪。

这个项目最适合个人实验和开发测试场景。作者给出的估算是，多个免费层叠加后每月大约有 17 亿 token 的可用容量，覆盖 100 多个模型；但它也很诚实地把限制写在前面：这不是生产级 SLA，也拿不到真正的顶级闭源模型，免费额度和条款随时可能变化。

让我觉得它值得单独收录的地方，是它没有只做一个“转发器”。FreeLLMAPI 带有管理后台，可以添加不同 provider 的 key，调整 fallback chain，查看请求成功率、延迟、token 用量和实际路由到的模型。上游 key 会用 AES-256-GCM 加密后存到 SQLite，对客户端则暴露一个统一的 freellmapi-... Bearer Token。

在开发工作流里，它可以当作一个低成本的本地实验层：LangChain、LlamaIndex、Continue、Codex CLI 或任何 OpenAI-compatible client 都可以接过来。模型不可用、限流或 5xx 时，router 会把 key 放进短暂冷却并尝试下一个 provider；多轮会话也会尽量保持 sticky session，避免中途换模型带来的语义漂移。

安装方式偏工程化，推荐 Docker Compose，也支持 Node.js 20+ 本地运行。需要注意的是，它的定位是 single-user personal experimentation，不适合拿来卖接口、多人共享或当线上产品的主推理层。对独立开发者来说，更合理的用法是把它放在自己的机器或可信内网里，用来原型验证、压测 prompt、跑一些不需要强 SLA 的自动化任务。