我们的 GUI Agent 开源了:OMG-Agent,AI 手机我来了

:ghost:省流:

我们基于 AutoGLM 和 GELab-Zero 这类 开源 GUI model ,

构建了一个 GUI Agent — **OMG-Agent!**已开源

先是豆包手机证明 AI 能跨应用自动操作(这后台运行的功能是真的羡慕),

也可以看看我们之前的文章各大 APP 刚 ⌜围剿⌟ 豆包手机,智谱连夜 ⌜递刀⌟ :手机 Agent 的至暗与黎明

智谱、阶跃星辰接连开源 AutoGLM 和 GELab-Zero 这类GUI model,

技术能力已经证明可行了,模型也开源了,基础的 agent 代码也公开了,

但有个问题

这些开源项目,交互方式多是命令行,

想用 AutoGLM,GELab-Zero,得装 Python 环境,配依赖库,搞ADB,还要一边看手机一边看电脑…

总感觉不太方便,烦文档,配环境就搞了几十分钟。

模型开源了,而且两家的官方有提供api,那既然有了api,

那为什么不来个通用的 GUI Agent 呢?

大厂都开源模型,我们也想给GUI Agent出一份力(或者说添乱)

阶跃星辰,和智谱AI开源的模型都是多模态,都是具备「Phone Use」能力的VLM model。

能完成几十步的复杂流程,支持微信、淘宝、抖音、美团等50多个高频应用,本地部署跑不动也能直接调用 API 接口。

这些开源模型做的事情和豆包差不多——训练AI看懂屏幕,理解界面,模拟人的点击、滑动、输入的模型。

怎么控制手机?————ADB,不是什么高级的黑科技,就是个命令行工具。

我们做了 OMG-Agent !

OMG-Agent

项目全称叫 Open-sourced Mobile GUI Agent,

我们更喜欢叫它**「Oh My God Agent」**。

因为每次测试,可以直观的在 GUI 上看清楚模型对AI的操作,

看着 AI 自己完成任务,

希望这个 Agent 真的能让更多人体验到这类 GUI model,

20251219-180706 (2)

OMG-Agent

直观看到AI在手机上操作,看到执行结果:它真做到了。

OMG-Agent 是个GUI Agent,用来配合 AutoGLM、GELab-Zero 这些开源模型使用。

它做的事情很简单:

帮我们把这些GUI model 用来操作手机,并且内置了我们的 Agent

(目前还是有些粗糙,但是正在不断完善中,如果大家也有想法,可以一起交流)

两种使用方式:

1.下载打包好的exe文件,双击运行,零配置(还在测试,我们尽快发布 win/mac 版本)

2.frok 代码运行,方便开发者调试,支持基于 GUI 交互

基础流程:

打开软件,插上手机数据线(具体的配置我们都写到项目里了,支持无线连接),点开始投屏,输入一句话。

同样的,我们也提供了使用模拟器实现abd的一些资料和教程

想研究GUI Agent 怎么实现的,想做点好玩的实验,代码全开源,并且附带了对应的文档。

兼容 OpenAI SDK API,能接入各种模型。

终极理想:让不懂代码,不配环境(目前还是需要一点,等我们打包完成),下载就能用,直接连接手机用。

能亲眼看到 AI 怎么在你手机上工作,它不再是新闻里的概念,而是真的能帮你解决问题的东西,

为后续的 Phone Agent 开发打下基础。

豆包遇到的麻烦,说白了就是新东西碰上旧规矩。但技术进步不该由某家公司说了算。

AutoGLM 和 GELab-Zero的开源,这些模型的能力已经证明了,这些可能真的只是时间问题了

做 OMG-Agent 这几天,我们想了各种使用场景。

也在犹豫要不要发布,但是既然做都做了,还是发了,

每个模型的特点都不一样,但本质是一样的——AI能看懂屏幕、能操作手机,这件事本身就有价值。

现在的 OMG-Agent 不是完美的,甚至是有很多不足的,

Agent设计的也并没有很高深,

但开源的好处就在这儿,让更多人能参与进来,让技术发展更透明。

而且现在的手机 Agent 确实还挺简陋的,但总得有人先迈出这一步。

OMG-Agent 用的是 Apache 2.0 with Commons Clause 许可证。

不希望有人拿这个去割韭菜,更不希望它被用来干坏事。

技术应该让生活变好,而不是搞出一堆幺蛾子。

:warning: 免责声明

本项目仅供学习研究和技术探索使用,严禁用于任何商业用途。使用本工具时,请遵守相关法律法规以及手机厂商、应用程序的使用条款和服务协议。用户因使用本项目产生的任何行为和后果,均由用户自行承担,与本项目及开发者无关。

ADB + GUI Agent 没法保证不会触发像豆包一样的封号,建议大家使用备用机和备用号。

我们是 Safphere,一帮算法工程师和在校极客组成的团队。

OMG-Agent 已经在 GitHub 开源了,当前的Agent 还很粗糙,但是我们已经迫不及待想和大家分享了,也会继续优化,确保安全可靠,最大化的发挥 这些 GUI model 的能力。

你想试试 AutoGLM、GELab-Zero 这些开源模型,但不想折腾配环境,可以用OMG-Agent。

对 AI 手机好奇,想亲手试试 AI 操作手机是什么感觉,也可以来玩玩。

也欢迎把文章转给感兴趣的朋友。

开源这事儿,人多才好玩。

推迟了两天,终于写完这篇,

后续整个 OMG-Agent 项目,会优化对应的 Agent,从适配模型到 定制我们框架的模型,让 GUI Agent 更加的智能,更加的稳定。

大家有其他的想法,也可以留言和交流。

项目地址

55 个赞

这么强!?

大佬跪拜

膜拜了,膜拜了

膜拜膜拜

太牛啦,先star

1 个赞

有时间就去试试

1 个赞

来了,来展示新的科技,新的世界。

1 个赞

已 star,等有 mac 和 linux 版本后试试

1 个赞

有点意思啊

1 个赞

这么强!好酷啊!

1 个赞

先标记,明天再看

1 个赞

这么快啊

1 个赞

大佬:cow_face::beer_mug:

2 个赞

试了一下,真不错,但是会出现概率卡住,任务不执行,用的模型是 Qwen3-VL-8B-Instruct,是模型问题吗

1 个赞

建议用gui模型,qwen3vl这类,没有做过手机gui的微调,理解和点击位置这些会不佳

近期我们会对支持的gui模型进行调整,让omg-agent适应复杂任务

1 个赞

膜拜! 期待早日的 iphone agent 能够使用,苹果机看着这些好眼馋啊。再这样下去要换安卓机来玩了。

1 个赞

强欸!ww

1 个赞

厉害的,支持一下 :laughing:

2 个赞

佬,厉害了我的佬

1 个赞