
Windows-Use 是一个让 AI Agent 直接操作 Windows 图形界面的开源项目。它不是只跑在浏览器里的自动化脚本,而是通过 Windows UI Automation API 读取屏幕和控件结构,再让任意 LLM 决定下一步该点击、输入、滚动、拖拽还是执行命令。
这类工具的价值在于,它把“我想让电脑完成一个桌面任务”从写脚本变成了自然语言任务。README 里的例子包括打开 Notepad 写一段文字、用浏览器搜索天气、截图并描述桌面等;在能力列表里,它还支持窗口切换和调整、键盘快捷键、PowerShell 命令、通过浏览器 accessibility tree 抓取网页、读写文件、管理 Windows 虚拟桌面,以及 STT/TTS 语音输入输出。
它的另一个特点是模型选择比较开放。项目提供了 Anthropic、OpenAI、Google、Groq、Ollama、Mistral、DeepSeek、Azure OpenAI、OpenRouter、LiteLLM、NVIDIA、vLLM 等 provider 接口,也可以在 CLI 里切换 provider 和模型。对于想在 Windows 上实验桌面 Agent 的开发者来说,这比只能绑定单一模型的方案更容易做对比。
需要强调的是,Windows-Use 的安全边界很明确:它可以操作电脑、修改文件和系统设置,项目本身也提示没有内置沙箱或隔离层,强烈建议在虚拟机、Windows Sandbox 或专门测试机里运行。这个提醒很重要,因为 GUI 级 Agent 的能力越强,越不能把它当成普通聊天机器人随手丢进主力环境。
Windows-Use 使用 Python 开发,要求 Python 3.10+ 和 Windows 7/8/10/11,MIT 协议,目前 GitHub 约 121 stars。适合想研究 Windows 桌面自动化、LLM Agent 工具调用、accessibility tree 控制链路的人先拿来拆解和实验。
项目地址
项目地址:https://github.com/CursorTouch/Windows-Use
原创文章,如若转载,请注明出处:https://wefound.cc/p/2931.html