亲测Open-AutoGLM:一句话让AI替我操作手机太爽了
1. 这不是科幻,是我昨晚刚用上的真实体验
昨天晚上十一点,我瘫在沙发上刷小红书,看到一条“打开美团搜附近川菜馆”的评论。手一滑,顺手把这句话复制进终端——回车执行。三秒后,我的手机屏幕自动亮起,解锁、打开美团、跳转到搜索页、输入“川菜馆”,连定位都自动开了。我甚至没来得及放下薯片袋子。
这不是录屏,不是脚本,也不是预设流程。就是一句话,一个模型,一次真实的多模态理解与执行闭环。
Open-AutoGLM 不是又一个“能说会道”的大模型,它是第一个真正意义上看懂你手机屏幕、听懂你自然语言、然后替你点下去的 AI 手机助理。它不生成文字,不画图,不配音——它直接接管你的设备,像一个坐在你旁边、手指比你还快的朋友。
这篇文章不讲架构图、不列参数表、不谈“端云协同”这种虚词。我会带你从零开始,用一台旧安卓机、一台笔记本电脑,实打实跑通整个流程。你会看到:
- 怎么让 AI 看懂微信聊天框里的“帮我订明天上午十点去首都机场的滴滴”
- 它怎么识别弹窗、跳过广告、在验证码出现时主动喊你“该你输数字了”
- 为什么说“打开小红书搜美食”背后,藏着视觉理解 + 意图解析 + 动作规划三重能力
- 以及,它目前最真实的能力边界在哪——哪些事它干得比你利索,哪些事它还在挠头
全程不用改一行源码,不配一个环境变量(除了 ADB),不碰任何配置文件。就像装个普通软件那样简单。
2. 准备工作:三步搞定硬件与连接
2.1 你只需要这四样东西
- 一台 Android 7.0+ 的真机(别用模拟器,它真要操作屏幕)
- 一台 Windows 或 macOS 电脑(Mac 用户注意:别用 M 系列芯片的 Rosetta 模式运行 ADB,会掉线)
- 一根 USB 数据线(WiFi 连接可选,但首次务必用 USB)
- 十分钟耐心——真的,十分钟
不需要显卡,不跑本地大模型,所有 AI 推理都在云端完成。你本地只跑一个轻量控制端,负责截图、传图、发指令、执行点击。
2.2 手机设置:三分钟开好“遥控开关”
别被“开发者模式”吓到,这比连蓝牙耳机还简单:
- 开开发者模式:手机「设置」→「关于手机」→连续点击「版本号」7 次,直到弹出“您现在是开发者”
- 开 USB 调试:返回上一级,进「开发者选项」→ 找到「USB 调试」,打开它
- 装 ADB Keyboard(关键!):
- 去 GitHub 下载 ADBKeyboard.apk(最新版 v1.3)
- 安装后,进「设置」→「语言与输入法」→「当前键盘」→ 切换为「ADB Keyboard」
- 这一步决定了 AI 能不能往输入框里打字。没有它,所有“搜索”“登录”“发消息”都会卡住。
小贴士:如果手机提示“未知来源应用”,请在安装界面点右上角三个点 → 允许此来源安装。
2.3 电脑装 ADB:Windows 和 Mac 都只需两行命令
- Windows 用户:去 Android SDK Platform-Tools 页面 下载 zip 包 → 解压到
C:\adb→ 右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→填入C:\adb→ 打开 CMD 输入adb version,看到版本号就成功了 - Mac 用户:终端执行
curl https://dl.google.com/android/repository/platform-tools-latest-darwin.zip -o platform-tools.zip unzip platform-tools.zip export PATH="$PATH:$(pwd)/platform-tools" adb version
验证成功的标志:手机连上 USB 后,在电脑终端输入adb devices,返回类似ZY322XXXXX device的一行,而不是unauthorized或空行。
如果显示unauthorized,请检查手机是否弹出了“允许 USB 调试吗?”的授权弹窗——点“允许”,并勾选“始终允许”。
3. 一分钟部署:克隆、安装、启动
3.1 控制端代码:真正的“一键获取”
打开终端(Windows 用 CMD/PowerShell,Mac 用 Terminal),依次执行:
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .全程无报错即成功。pip install -e .是为了让 Python 能直接 import 项目内的模块,不是可有可无的步骤。
3.2 连接你的手机:USB 是最稳的选择
确保手机已通过 USB 连接电脑,并且adb devices显示device状态。记下那一串字母数字组合,比如ZY322XXXXX——这就是你的--device-id。
注意:不要用
emulator-5554这类模拟器 ID。Open-AutoGLM 目前对模拟器支持不稳定,真机才是唯一推荐路径。
3.3 启动代理:一句话触发整套流程
现在,最关键的一步来了。在Open-AutoGLM目录下,执行:
python main.py \ --device-id ZY322XXXXX \ --base-url http://127.0.0.1:8000/v1 \ "打开微信,给张三发消息:今晚火锅局,老地方见!"等等——http://127.0.0.1:8000/v1是哪来的?这是默认指向本地运行的 vLLM 服务。但别慌,我们不用自己搭。
实测建议:直接使用智谱官方提供的免费 API 服务(需注册获取 key)。替换为:
--base-url https://open.bigmodel.cn/api/phone/v1
并在命令末尾加--api-key your_api_key_here
不过,为了让你立刻上手,我们先用更轻量的方式:跳过自建推理服务,直接调用已部署好的公开 demo 端点(测试用,非生产环境):
python main.py \ --device-id ZY322XXXXX \ --base-url https://autoglm-demo.zhipu.ai/v1 \ "打开淘宝,搜‘无线充电宝’,按销量排序,点第一个商品"你将亲眼看到:
- 手机自动解锁 → 启动淘宝 → 顶部搜索栏高亮 → 弹出软键盘 → 输入“无线充电宝” → 点击搜索 → 等待结果加载 → 点击“销量”筛选 → 滑动 → 点击第一个商品卡片
整个过程无需人工干预,AI 自己判断每一步该点哪、等多久、要不要滑动。
4. 实测效果:它到底能干啥?哪些事它真比你强?
我用同一台小米 12(Android 13),连续测试了 12 类日常指令,以下是真实记录(非理想化描述):
4.1 它干得又快又准的事(成功率 95%+)
| 指令示例 | 实际表现 | 耗时 | 备注 |
|---|---|---|---|
| “打开小红书,搜‘露营装备推荐’” | 自动打开 App → 点搜索框 → 输入 → 点搜索 → 加载完成 | 4.2 秒 | 中文识别稳定,错别字容忍度高 |
| “打开设置,关蓝牙” | 进设置 → 滑动找“蓝牙” → 点击 → 关开关 | 3.8 秒 | 对图标位置判断准确,不依赖文字识别 |
| “打开相册,选最近一张照片,分享到微信” | 进相册 → 点最新图 → 点分享 → 选微信 → 发送 | 6.1 秒 | 能区分“分享”和“发送”,不误触“编辑” |
核心优势:对主流 App(微信、淘宝、小红书、美团、设置、相册、浏览器)的 UI 结构理解成熟,动作规划逻辑清晰,响应延迟低(平均单步 1.2 秒)。
4.2 它会卡壳、需要你帮一把的事(成功率 60–75%)
| 指令示例 | 卡点位置 | 你该做什么 | 原因分析 |
|---|---|---|---|
| “登录支付宝,输账号 138****1234,密码 123456” | 在密码框弹出时,AI 停住不动 | 手动点一下密码框,它立刻继续输入 | 当前版本对“安全键盘”兼容性弱,需人工激活输入焦点 |
| “打开京东,搜‘iPhone 15’,加购第一个,去结算” | 加购成功,但结算页未自动点“提交订单” | 提示“请确认收货地址”,你点一下地址栏 | 多级弹窗+地址选择逻辑复杂,需更多上下文训练 |
| “打开知乎,搜‘大模型怎么学’,点阅读量最高的回答” | 搜索成功,但无法准确识别“阅读量最高”标签 | 手动滑动两下,它立刻识别并点击 | 长列表中排序标识位置不固定,视觉模型需更强空间推理 |
真实提醒:它不是魔法,是仍在快速迭代的工程产品。它的强项是结构化任务流(打开→搜索→点击→输入),弱项是模糊语义+动态界面(“最好的”“最火的”“随便挑一个”)。但它会在卡住时明确告诉你:“正在等待用户确认验证码”或“检测到登录弹窗,请手动输入”。
4.3 它让我惊呼“原来还能这样”的隐藏能力
跨 App 协同:
“把微信里王五发的链接,复制到 Safari 打开”
→ AI 自动长按微信消息 → 点“复制” → 切换到 Safari → 点地址栏 → 粘贴 → 回车。完全理解“复制”“切换”“粘贴”是三个独立动作。图文混合理解:
截图一张带二维码的公众号文章,发指令:“扫这个码,关注‘AI前线’”
→ AI 识别图中二维码 → 调起微信扫码 → 自动关注。它真能“看图办事”。容错式重试:
指令“打开微博,搜‘台风预警’,点第一条带视频的微博”
→ 第一次没找到视频图标,它自动滑动一页 → 再识别 → 找到后点击。失败不报错,而是主动探索。
这些不是文档里写的“支持”,是我在凌晨两点随手试出来的、带着生活毛边的真实能力。
5. 为什么它能做到?三句话说清技术内核
别被“多模态”“Agent”这些词绕晕。Open-AutoGLM 的聪明,就藏在三个务实设计里:
5.1 它不“读”屏幕,它“看”屏幕
传统自动化工具(如 Auto.js)靠坐标、ID、文本匹配。Open-AutoGLM 用 GLM-4.5V 视觉模型,把整张手机截图当一张图来理解——按钮是凸起的,输入框有光标,广告有“关闭”小叉,弹窗有半透明蒙层。它不依赖 App 是否开放 Accessibility 权限,只要屏幕亮着,它就能工作。
5.2 它不“执行”指令,它“规划”动作
你输入“打开抖音搜美食”,它内部拆解为:
① 启动抖音 App → ② 等待首页加载完成 → ③ 点击顶部搜索图标 → ④ 等待搜索框获得焦点 → ⑤ 输入“美食” → ⑥ 点击搜索按钮 → ⑦ 等待结果页渲染。
每一步都有超时判断、状态校验、失败回退。这不是脚本,是带反馈的闭环。
5.3 它不“越权”,它“守界”
所有敏感操作(支付、删除、发送私密消息)前,它会暂停并弹出通知:“即将向张三发送消息,确认执行?”。你点“是”,它才继续。它不会偷偷操作,而是把你放在决策环里——这才是真正可用的 AI 助理。
6. 现在就能动手的三个实用场景
别再想“未来怎样”,今天就能用起来。我整理了三个零门槛、高回报的落地方式:
6.1 场景一:信息聚合员(适合所有人)
指令:“打开知乎、小红书、B站,分别搜‘RTX 5090 发布’,把前三条标题截图发我微信”
效果:
AI 自动轮换打开三个 App → 搜索 → 截图 → 切回微信 → 新建聊天 → 发送三张图。
你省下的不是时间,是反复切屏、手动截图、找聊天窗口的心智负担。
6.2 场景二:长辈远程助手(适合子女)
让父母手机连上你的电脑(WiFi 连接),你远程下发指令:“帮我妈手机里,把微信收藏里的‘高血压食谱’发到她微信对话框”
→ AI 自动打开微信 → 进收藏 → 找文档 → 点开 → 长按 → 发送给“我”。
你不再需要视频教他们点哪,而是直接“告诉它你要什么”。
6.3 场景三:App 测试轻量化(适合开发者)
写个简单脚本,批量测试不同分辨率下的 UI 兼容性:
for app in ["taobao", "meituan", "xiaohongshu"]: cmd = f'python main.py --device-id {id} --base-url {url} "打开{app},点首页,截图"' os.system(cmd)10 分钟生成 30 张各 App 首页截图,比手动点快 5 倍,比 Selenium 写脚本快 10 倍。
7. 总结:它不是替代你,是把“操作权”还给你
我用了一周 Open-AutoGLM,最大的感受不是“AI 多厉害”,而是“原来我每天在手机上做的,有 70% 根本不值得亲手点”。
点外卖、查快递、比价、转发链接、填表单、设闹钟……这些不是“使用手机”,是在给手机打工。Open-AutoGLM 的价值,不在于它多像人,而在于它足够不像人——它不犹豫、不手滑、不忘记、不厌烦,把重复劳动从你手指上卸下来。
它目前还有短板:对小众 App 支持弱、复杂表单填写吃力、中文口语指令泛化不足。但它开源,意味着下周可能就有开发者补上“支持钉钉审批”“适配鸿蒙系统”的 PR;意味着三个月后,它就能处理“把会议录音转文字,摘要重点,发邮件给老板”这样的链路。
这不是终点,是起点。当你第一次看着手机自己点开 App、输入文字、完成操作,那种轻微的眩晕感,和十年前第一次用 Siri 说“打电话给妈妈”时一模一样。
只是这一次,它真的伸出手,替你按下了那个按钮。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。