「CyberVerse」开源实时数字人 Agent 平台：用 WebRTC、记忆和 RAG 搭建可语音对话的 AI 角色

CyberVerse 是一个开源、可自托管的实时数字人 Agent 平台，核心目标是把语音对话、人格记忆、工具调用、RAG 和可选的数字人视频放到同一套系统里。它不是只做聊天窗口，而是更接近一个可以听、可以说、能被打断、还能带角色设定持续对话的语音优先 AI 角色框架。

项目的默认交互模式是实时语音。用户可以通过麦克风连续说话，也可以在模型输出时打断它；如果暂时不需要数字人画面，还能关闭 avatar 推理，直接以纯语音 Agent 的方式运行。对没有本地 GPU、但想先验证语音助手和角色记忆体验的人来说，这个开关很实用。

技术上，CyberVerse 用 WebRTC 承担音视频传输，可以根据部署场景选择 P2P 或 LiveKit SFU；前台 PersonaAgent 负责维持对话流畅度，搜索、研究、资料整理、报告生成等耗时任务则交给后台 SubAgent 异步处理。这样做的好处是，复杂任务不会轻易拖慢语音回合，用户仍然可以继续追问或调整方向。

它也内置了角色记忆和知识库能力：每个角色的历史对话会保存在本地，重新进入会话时可以加载上下文；用户还可以导入文档、传记资料或知识库，通过检索增强生成，让角色回答更贴近预设背景。对于想做 AI 陪伴、虚拟主播、数字员工、课程助教或私有语音助手的开发者，这些能力比单纯套一个 LLM API 更完整。

如果需要可见的数字人效果，CyberVerse 支持用单张角色参考图驱动实时面部动画、唇形同步和待机视频缓存，并可配置 FlashHead、LiveAct 等后端。需要注意的是，完整数字人视频模式会涉及 CUDA/GPU 环境；而纯语音模式依赖 Node、Go、Python、FFmpeg 以及外部模型、TTS、ASR 等服务配置，部署门槛比普通 Web 应用更高。

截至 2026 年 6 月 4 日，CyberVerse 在 GitHub 上约有 1.1k stars，主要语言为 Python，同时包含 Go、Vue 和 TypeScript，许可证为 GPL-3.0。它更适合愿意自托管、愿意折腾模型和音视频链路的开发者团队，而不是想开箱即用的普通用户。

来源：GitHub 仓库、项目官网

原创文章，如若转载，请注明出处：https://wefound.cc/p/4658.html