
AI Agent 真正要替人做事时,经常会卡在浏览器这一层:怎么找到页面里的按钮,怎么复用站点特定的搜索、筛选、下单或提交流程,怎么把调试信息交给模型,而不是让它每次都重新看整页 DOM。
browse.sh 想把这部分做成一个可以安装、调用和分享的开放目录。它提供一个名为 browse 的 CLI,面向 Claude Code、Codex、Gemini CLI 这类 agent 工作流,既能安装网站技能,也能直接执行点击、滚动、输入、按键等浏览器原语。
把网页操作变成可复用技能
官网把 browse.sh 称为 open web catalog。页面里能看到大量按站点整理的技能,例如 Amazon、Etsy、Substack、Craigslist、Apartments 等,每个技能对应具体任务,输出结构化 JSON,而不是让 agent 从零解析网页。
它的使用方式很像给 agent 装插件:npm install -g browse 之后,可以用 browse skills add apartments.com 这类命令安装站点能力,再让 agent 调用这些能力完成搜索或表单流程。低层能力也保留了下来,比如 browse click @e57、browse scroll 50、browse press Enter,适合调试或临时接管。
对 agent 开发者更友好
browse.sh 的价值不只是“能控制浏览器”,而是把选择器、XHR 请求、网络日志、控制台日志这些浏览器上下文整理成 agent 更容易消费的形态。官网提到建议 DOM selector 和 XHR 请求可以显著降低 token 成本,这对长流程网页自动化尤其重要。
它更适合正在构建网页操作 agent、数据采集流程、垂直站点自动化的人。普通用户可能不会直接打开它,但如果你正在让 AI 帮你跨网站找房、搜商品、整理 newsletter 或跑重复网页任务,它就是那类底层工具。
传送门
原创文章,如若转载,请注明出处:https://wefound.cc/p/2850.html