「Windows-Use」让 AI 直接操作 Windows 图形界面的开源 Agent

Windows-Use 是一个让 AI Agent 直接操作 Windows 图形界面的开源项目。它不是只跑在浏览器里的自动化脚本，而是通过 Windows UI Automation API 读取屏幕和控件结构，再让任意 LLM 决定下一步该点击、输入、滚动、拖拽还是执行命令。

这类工具的价值在于，它把“我想让电脑完成一个桌面任务”从写脚本变成了自然语言任务。README 里的例子包括打开 Notepad 写一段文字、用浏览器搜索天气、截图并描述桌面等；在能力列表里，它还支持窗口切换和调整、键盘快捷键、PowerShell 命令、通过浏览器 accessibility tree 抓取网页、读写文件、管理 Windows 虚拟桌面，以及 STT/TTS 语音输入输出。

它的另一个特点是模型选择比较开放。项目提供了 Anthropic、OpenAI、Google、Groq、Ollama、Mistral、DeepSeek、Azure OpenAI、OpenRouter、LiteLLM、NVIDIA、vLLM 等 provider 接口，也可以在 CLI 里切换 provider 和模型。对于想在 Windows 上实验桌面 Agent 的开发者来说，这比只能绑定单一模型的方案更容易做对比。

需要强调的是，Windows-Use 的安全边界很明确：它可以操作电脑、修改文件和系统设置，项目本身也提示没有内置沙箱或隔离层，强烈建议在虚拟机、Windows Sandbox 或专门测试机里运行。这个提醒很重要，因为 GUI 级 Agent 的能力越强，越不能把它当成普通聊天机器人随手丢进主力环境。

Windows-Use 使用 Python 开发，要求 Python 3.10+ 和 Windows 7/8/10/11，MIT 协议，目前 GitHub 约 121 stars。适合想研究 Windows 桌面自动化、LLM Agent 工具调用、accessibility tree 控制链路的人先拿来拆解和实验。