
CyberVerse 是一个开源、可自托管的实时数字人 Agent 平台,核心目标是把语音对话、人格记忆、工具调用、RAG 和可选的数字人视频放到同一套系统里。它不是只做聊天窗口,而是更接近一个可以听、可以说、能被打断、还能带角色设定持续对话的语音优先 AI 角色框架。
项目的默认交互模式是实时语音。用户可以通过麦克风连续说话,也可以在模型输出时打断它;如果暂时不需要数字人画面,还能关闭 avatar 推理,直接以纯语音 Agent 的方式运行。对没有本地 GPU、但想先验证语音助手和角色记忆体验的人来说,这个开关很实用。
技术上,CyberVerse 用 WebRTC 承担音视频传输,可以根据部署场景选择 P2P 或 LiveKit SFU;前台 PersonaAgent 负责维持对话流畅度,搜索、研究、资料整理、报告生成等耗时任务则交给后台 SubAgent 异步处理。这样做的好处是,复杂任务不会轻易拖慢语音回合,用户仍然可以继续追问或调整方向。
它也内置了角色记忆和知识库能力:每个角色的历史对话会保存在本地,重新进入会话时可以加载上下文;用户还可以导入文档、传记资料或知识库,通过检索增强生成,让角色回答更贴近预设背景。对于想做 AI 陪伴、虚拟主播、数字员工、课程助教或私有语音助手的开发者,这些能力比单纯套一个 LLM API 更完整。
如果需要可见的数字人效果,CyberVerse 支持用单张角色参考图驱动实时面部动画、唇形同步和待机视频缓存,并可配置 FlashHead、LiveAct 等后端。需要注意的是,完整数字人视频模式会涉及 CUDA/GPU 环境;而纯语音模式依赖 Node、Go、Python、FFmpeg 以及外部模型、TTS、ASR 等服务配置,部署门槛比普通 Web 应用更高。
截至 2026 年 6 月 4 日,CyberVerse 在 GitHub 上约有 1.1k stars,主要语言为 Python,同时包含 Go、Vue 和 TypeScript,许可证为 GPL-3.0。它更适合愿意自托管、愿意折腾模型和音视频链路的开发者团队,而不是想开箱即用的普通用户。
原创文章,如若转载,请注明出处:https://wefound.cc/p/4658.html