亲测Open-AutoGLM：一句话让AI替我操作手机太爽了-编程阁

亲测Open-AutoGLM：一句话让AI替我操作手机太爽了

1. 这不是科幻，是我昨晚刚用上的真实体验

昨天晚上十一点，我瘫在沙发上刷小红书，看到一条“打开美团搜附近川菜馆”的评论。手一滑，顺手把这句话复制进终端——回车执行。三秒后，我的手机屏幕自动亮起，解锁、打开美团、跳转到搜索页、输入“川菜馆”，连定位都自动开了。我甚至没来得及放下薯片袋子。

这不是录屏，不是脚本，也不是预设流程。就是一句话，一个模型，一次真实的多模态理解与执行闭环。

Open-AutoGLM 不是又一个“能说会道”的大模型，它是第一个真正意义上看懂你手机屏幕、听懂你自然语言、然后替你点下去的 AI 手机助理。它不生成文字，不画图，不配音——它直接接管你的设备，像一个坐在你旁边、手指比你还快的朋友。

这篇文章不讲架构图、不列参数表、不谈“端云协同”这种虚词。我会带你从零开始，用一台旧安卓机、一台笔记本电脑，实打实跑通整个流程。你会看到：

怎么让 AI 看懂微信聊天框里的“帮我订明天上午十点去首都机场的滴滴”
它怎么识别弹窗、跳过广告、在验证码出现时主动喊你“该你输数字了”
为什么说“打开小红书搜美食”背后，藏着视觉理解 + 意图解析 + 动作规划三重能力
以及，它目前最真实的能力边界在哪——哪些事它干得比你利索，哪些事它还在挠头

全程不用改一行源码，不配一个环境变量（除了 ADB），不碰任何配置文件。就像装个普通软件那样简单。

2. 准备工作：三步搞定硬件与连接

2.1 你只需要这四样东西

一台 Android 7.0+ 的真机（别用模拟器，它真要操作屏幕）
一台 Windows 或 macOS 电脑（Mac 用户注意：别用 M 系列芯片的 Rosetta 模式运行 ADB，会掉线）
一根 USB 数据线（WiFi 连接可选，但首次务必用 USB）
十分钟耐心——真的，十分钟

不需要显卡，不跑本地大模型，所有 AI 推理都在云端完成。你本地只跑一个轻量控制端，负责截图、传图、发指令、执行点击。

2.2 手机设置：三分钟开好“遥控开关”

别被“开发者模式”吓到，这比连蓝牙耳机还简单：

开开发者模式：手机「设置」→「关于手机」→连续点击「版本号」7 次，直到弹出“您现在是开发者”
开 USB 调试：返回上一级，进「开发者选项」→ 找到「USB 调试」，打开它
装 ADB Keyboard（关键！）：
- 去 GitHub 下载 ADBKeyboard.apk（最新版 v1.3）
- 安装后，进「设置」→「语言与输入法」→「当前键盘」→ 切换为「ADB Keyboard」
- 这一步决定了 AI 能不能往输入框里打字。没有它，所有“搜索”“登录”“发消息”都会卡住。

小贴士：如果手机提示“未知来源应用”，请在安装界面点右上角三个点 → 允许此来源安装。

2.3 电脑装 ADB：Windows 和 Mac 都只需两行命令

Windows 用户：去 Android SDK Platform-Tools 页面下载 zip 包 → 解压到C:\adb→ 右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→填入C:\adb→ 打开 CMD 输入adb version，看到版本号就成功了

Mac 用户：终端执行

curl https://dl.google.com/android/repository/platform-tools-latest-darwin.zip -o platform-tools.zip unzip platform-tools.zip export PATH="$PATH:$(pwd)/platform-tools" adb version

验证成功的标志：手机连上 USB 后，在电脑终端输入adb devices，返回类似ZY322XXXXX device的一行，而不是unauthorized或空行。

如果显示unauthorized，请检查手机是否弹出了“允许 USB 调试吗？”的授权弹窗——点“允许”，并勾选“始终允许”。

3. 一分钟部署：克隆、安装、启动

3.1 控制端代码：真正的“一键获取”

打开终端（Windows 用 CMD/PowerShell，Mac 用 Terminal），依次执行：

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .

全程无报错即成功。pip install -e .是为了让 Python 能直接 import 项目内的模块，不是可有可无的步骤。

3.2 连接你的手机：USB 是最稳的选择

确保手机已通过 USB 连接电脑，并且adb devices显示device状态。记下那一串字母数字组合，比如ZY322XXXXX——这就是你的--device-id。

注意：不要用emulator-5554这类模拟器 ID。Open-AutoGLM 目前对模拟器支持不稳定，真机才是唯一推荐路径。

3.3 启动代理：一句话触发整套流程

现在，最关键的一步来了。在Open-AutoGLM目录下，执行：

python main.py \ --device-id ZY322XXXXX \ --base-url http://127.0.0.1:8000/v1 \ "打开微信，给张三发消息：今晚火锅局，老地方见！"

等等——http://127.0.0.1:8000/v1是哪来的？这是默认指向本地运行的 vLLM 服务。但别慌，我们不用自己搭。

实测建议：直接使用智谱官方提供的免费 API 服务（需注册获取 key）。替换为：
--base-url https://open.bigmodel.cn/api/phone/v1
并在命令末尾加--api-key your_api_key_here

不过，为了让你立刻上手，我们先用更轻量的方式：跳过自建推理服务，直接调用已部署好的公开 demo 端点（测试用，非生产环境）：

python main.py \ --device-id ZY322XXXXX \ --base-url https://autoglm-demo.zhipu.ai/v1 \ "打开淘宝，搜‘无线充电宝’，按销量排序，点第一个商品"

你将亲眼看到：

手机自动解锁 → 启动淘宝 → 顶部搜索栏高亮 → 弹出软键盘 → 输入“无线充电宝” → 点击搜索 → 等待结果加载 → 点击“销量”筛选 → 滑动 → 点击第一个商品卡片

整个过程无需人工干预，AI 自己判断每一步该点哪、等多久、要不要滑动。

4. 实测效果：它到底能干啥？哪些事它真比你强？

我用同一台小米 12（Android 13），连续测试了 12 类日常指令，以下是真实记录（非理想化描述）：

4.1 它干得又快又准的事（成功率 95%+）

指令示例	实际表现	耗时	备注
“打开小红书，搜‘露营装备推荐’”	自动打开 App → 点搜索框 → 输入 → 点搜索 → 加载完成	4.2 秒	中文识别稳定，错别字容忍度高
“打开设置，关蓝牙”	进设置 → 滑动找“蓝牙” → 点击 → 关开关	3.8 秒	对图标位置判断准确，不依赖文字识别
“打开相册，选最近一张照片，分享到微信”	进相册 → 点最新图 → 点分享 → 选微信 → 发送	6.1 秒	能区分“分享”和“发送”，不误触“编辑”

核心优势：对主流 App（微信、淘宝、小红书、美团、设置、相册、浏览器）的 UI 结构理解成熟，动作规划逻辑清晰，响应延迟低（平均单步 1.2 秒）。

4.2 它会卡壳、需要你帮一把的事（成功率 60–75%）

指令示例	卡点位置	你该做什么	原因分析
“登录支付宝，输账号 138****1234，密码 123456”	在密码框弹出时，AI 停住不动	手动点一下密码框，它立刻继续输入	当前版本对“安全键盘”兼容性弱，需人工激活输入焦点
“打开京东，搜‘iPhone 15’，加购第一个，去结算”	加购成功，但结算页未自动点“提交订单”	提示“请确认收货地址”，你点一下地址栏	多级弹窗+地址选择逻辑复杂，需更多上下文训练
“打开知乎，搜‘大模型怎么学’，点阅读量最高的回答”	搜索成功，但无法准确识别“阅读量最高”标签	手动滑动两下，它立刻识别并点击	长列表中排序标识位置不固定，视觉模型需更强空间推理

真实提醒：它不是魔法，是仍在快速迭代的工程产品。它的强项是结构化任务流（打开→搜索→点击→输入），弱项是模糊语义+动态界面（“最好的”“最火的”“随便挑一个”）。但它会在卡住时明确告诉你：“正在等待用户确认验证码”或“检测到登录弹窗，请手动输入”。

4.3 它让我惊呼“原来还能这样”的隐藏能力

跨 App 协同：
“把微信里王五发的链接，复制到 Safari 打开”
→ AI 自动长按微信消息 → 点“复制” → 切换到 Safari → 点地址栏 → 粘贴 → 回车。完全理解“复制”“切换”“粘贴”是三个独立动作。
图文混合理解：
截图一张带二维码的公众号文章，发指令：“扫这个码，关注‘AI前线’”
→ AI 识别图中二维码 → 调起微信扫码 → 自动关注。它真能“看图办事”。
容错式重试：
指令“打开微博，搜‘台风预警’，点第一条带视频的微博”
→ 第一次没找到视频图标，它自动滑动一页 → 再识别 → 找到后点击。失败不报错，而是主动探索。

这些不是文档里写的“支持”，是我在凌晨两点随手试出来的、带着生活毛边的真实能力。

5. 为什么它能做到？三句话说清技术内核

别被“多模态”“Agent”这些词绕晕。Open-AutoGLM 的聪明，就藏在三个务实设计里：

5.1 它不“读”屏幕，它“看”屏幕

传统自动化工具（如 Auto.js）靠坐标、ID、文本匹配。Open-AutoGLM 用 GLM-4.5V 视觉模型，把整张手机截图当一张图来理解——按钮是凸起的，输入框有光标，广告有“关闭”小叉，弹窗有半透明蒙层。它不依赖 App 是否开放 Accessibility 权限，只要屏幕亮着，它就能工作。

5.2 它不“执行”指令，它“规划”动作

你输入“打开抖音搜美食”，它内部拆解为：
① 启动抖音 App → ② 等待首页加载完成 → ③ 点击顶部搜索图标 → ④ 等待搜索框获得焦点 → ⑤ 输入“美食” → ⑥ 点击搜索按钮 → ⑦ 等待结果页渲染。
每一步都有超时判断、状态校验、失败回退。这不是脚本，是带反馈的闭环。

5.3 它不“越权”，它“守界”

所有敏感操作（支付、删除、发送私密消息）前，它会暂停并弹出通知：“即将向张三发送消息，确认执行？”。你点“是”，它才继续。它不会偷偷操作，而是把你放在决策环里——这才是真正可用的 AI 助理。

6. 现在就能动手的三个实用场景

别再想“未来怎样”，今天就能用起来。我整理了三个零门槛、高回报的落地方式：

6.1 场景一：信息聚合员（适合所有人）

指令：
“打开知乎、小红书、B站，分别搜‘RTX 5090 发布’，把前三条标题截图发我微信”

效果：
AI 自动轮换打开三个 App → 搜索 → 截图 → 切回微信 → 新建聊天 → 发送三张图。
你省下的不是时间，是反复切屏、手动截图、找聊天窗口的心智负担。

6.2 场景二：长辈远程助手（适合子女）

让父母手机连上你的电脑（WiFi 连接），你远程下发指令：
“帮我妈手机里，把微信收藏里的‘高血压食谱’发到她微信对话框”
→ AI 自动打开微信 → 进收藏 → 找文档 → 点开 → 长按 → 发送给“我”。
你不再需要视频教他们点哪，而是直接“告诉它你要什么”。

6.3 场景三：App 测试轻量化（适合开发者）

写个简单脚本，批量测试不同分辨率下的 UI 兼容性：

for app in ["taobao", "meituan", "xiaohongshu"]: cmd = f'python main.py --device-id {id} --base-url {url} "打开{app}，点首页，截图"' os.system(cmd)

10 分钟生成 30 张各 App 首页截图，比手动点快 5 倍，比 Selenium 写脚本快 10 倍。

7. 总结：它不是替代你，是把“操作权”还给你

我用了一周 Open-AutoGLM，最大的感受不是“AI 多厉害”，而是“原来我每天在手机上做的，有 70% 根本不值得亲手点”。

点外卖、查快递、比价、转发链接、填表单、设闹钟……这些不是“使用手机”，是在给手机打工。Open-AutoGLM 的价值，不在于它多像人，而在于它足够不像人——它不犹豫、不手滑、不忘记、不厌烦，把重复劳动从你手指上卸下来。

它目前还有短板：对小众 App 支持弱、复杂表单填写吃力、中文口语指令泛化不足。但它开源，意味着下周可能就有开发者补上“支持钉钉审批”“适配鸿蒙系统”的 PR；意味着三个月后，它就能处理“把会议录音转文字，摘要重点，发邮件给老板”这样的链路。

这不是终点，是起点。当你第一次看着手机自己点开 App、输入文字、完成操作，那种轻微的眩晕感，和十年前第一次用 Siri 说“打电话给妈妈”时一模一样。

只是这一次，它真的伸出手，替你按下了那个按钮。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

亲测Open-AutoGLM：一句话让AI替我操作手机太爽了