
如果你对浏览器自动化感兴趣,但又不想把页面内容发到云端模型,On-Device Browser Agent 这个项目很对题。它是一个 Chrome 扩展,用 WebLLM 和 WebGPU 在本机跑小模型,让 Agent 在当前网页里完成导航、点击、输入和内容提取。
它的重点不是“更强的云端 Agent”,而是反过来强调本地执行:不需要云端 API,不需要 API key,模型下载后可以在本机缓存,后续任务尽量留在设备内完成。对于处理内部页面、隐私敏感网页或只是想研究本地 LLM 浏览器自动化的人,这个方向挺有参考价值。
一个轻量的双 Agent 架构
README 里描述的架构很直接:用户在扩展弹窗里输入任务,Planner Agent 先拆出高层策略,Navigator Agent 再读取当前页面 DOM,决定下一步该点击、输入、滚动、等待还是提取内容。Content Script 负责真正执行动作,循环直到任务完成或失败。
默认模型是 Qwen2.5-1.5B-Instruct 的 WebLLM 量化版本,约 1GB;也可以配置 Phi-3.5 mini 或 Llama 3.2 1B 这类替代模型。它要求 Chrome 124+、WebGPU 支持和现代 GPU,所以更像一个 POC/研究项目,而不是拿来直接跑生产任务的成品。
项目采用 MIT License,当前 GitHub 约 293 stars、29 forks。README 也坦率列出了限制:没有视觉理解,只基于文本 DOM;只处理当前活动标签页;动作集合比较基础,小模型也可能搞不定复杂任务。正因为这些限制写得清楚,它反而适合作为本地浏览器 Agent 的实验起点。
传送门
https://github.com/RunanywhereAI/on-device-browser-agent
原创文章,如若转载,请注明出处:https://wefound.cc/p/4745.html