「On-Device Browser Agent」本地运行的浏览器自动化 Agent：WebLLM + WebGPU，无需云端 API

如果你对浏览器自动化感兴趣，但又不想把页面内容发到云端模型，On-Device Browser Agent 这个项目很对题。它是一个 Chrome 扩展，用 WebLLM 和 WebGPU 在本机跑小模型，让 Agent 在当前网页里完成导航、点击、输入和内容提取。

它的重点不是“更强的云端 Agent”，而是反过来强调本地执行：不需要云端 API，不需要 API key，模型下载后可以在本机缓存，后续任务尽量留在设备内完成。对于处理内部页面、隐私敏感网页或只是想研究本地 LLM 浏览器自动化的人，这个方向挺有参考价值。

一个轻量的双 Agent 架构

README 里描述的架构很直接：用户在扩展弹窗里输入任务，Planner Agent 先拆出高层策略，Navigator Agent 再读取当前页面 DOM，决定下一步该点击、输入、滚动、等待还是提取内容。Content Script 负责真正执行动作，循环直到任务完成或失败。

默认模型是 Qwen2.5-1.5B-Instruct 的 WebLLM 量化版本，约 1GB；也可以配置 Phi-3.5 mini 或 Llama 3.2 1B 这类替代模型。它要求 Chrome 124+、WebGPU 支持和现代 GPU，所以更像一个 POC/研究项目，而不是拿来直接跑生产任务的成品。

项目采用 MIT License，当前 GitHub 约 293 stars、29 forks。README 也坦率列出了限制：没有视觉理解，只基于文本 DOM；只处理当前活动标签页；动作集合比较基础，小模型也可能搞不定复杂任务。正因为这些限制写得清楚，它反而适合作为本地浏览器 Agent 的实验起点。