「OMG-Agent」开源移动端 GUI Agent:用自然语言驱动 AI 操作 Android 手机

OMG-Agent 的 Android 投屏和 AI 任务执行界面

OMG-Agent 是 Safphere 开源社区做的移动端 GUI Agent 桌面客户端。它的目标是让 AI 通过自然语言指令操作 Android 手机:用户输入任务,工具通过 ADB 获取实时截图,把界面状态交给手机 GUI 模型理解,再执行点击、输入、滑动等操作。

README 里的典型流程是:安装 ADB,运行桌面客户端,打开手机开发者选项和 USB 调试,安装 ADBKeyboard 输入法,连接设备后点击刷新和开始投屏,然后输入任务并执行。它也支持 Android 模拟器,适合没有实体安卓机但想做 GUI Agent 实验的用户。

模型侧,OMG-Agent 推荐 AutoGLM-Phone-9B 和 GELab-Zero-4B-preview 这类专门面向手机 GUI 任务训练的模型,同时支持 OpenAI-compatible API。也就是说,它不是单纯的脚本自动化工具,而是把移动端界面感知、任务规划和 ADB 执行串成一个桌面端实验框架。

从界面截图看,OMG-Agent 左侧是手机投屏画面,右侧是投屏控制、AI 任务输入、执行控制和日志区域。README 还提到它有中英双语界面、深色/浅色主题,以及 Windows、macOS 平台支持;GitHub Release v0.1.0 里还提供了 Linux、macOS 和 Windows 可执行文件。

这个项目更适合作为学习、研究和技术探索入口。它能帮助你理解移动端 GUI Agent 如何连接模型、屏幕截图、输入法和 ADB 操作,也方便复现实验或搭建自己的手机自动化原型。但涉及真实手机和真实 App 时,必须遵守设备厂商、应用和服务的使用条款。

截至 2026 年 6 月 10 日,OMG-Agent 在 GitHub 上大约有 213 stars,主要语言是 Python,最新 release 是 v0.1.0,发布于 2025 年 12 月 28 日。许可证需要特别注意:项目采用 Apache License 2.0 with Commons Clause,README 和 LICENSE 都明确禁止商业用途,并要求保留来源署名和 About 页面内容。

项目地址

https://github.com/safphere/OMG-Agent

原创文章,如若转载,请注明出处:https://wefound.cc/p/4959.html

(0)
「auto_captcha」AI 验证码识别 Chrome 扩展:支持多模型、手动选元素和规则记忆
上一篇 31分钟前
「Warden」原生 macOS AI 聊天客户端:用 SwiftUI 管理多模型、文件问答和本地模型
下一篇 2026年 5月 28日 下午3:30

相关推荐