5分钟上手Open-AutoGLM：小白也能玩转AI手机助理-编程阁

5分钟上手Open-AutoGLM：小白也能玩转AI手机助理

1. 什么是Open-AutoGLM？

1.1 让你的手机拥有“超级大脑”

你有没有想过，有一天只要说一句话，手机就能自动帮你完成所有操作？比如：“打开小红书搜美食”、“给妈妈发消息说我今晚不回家吃饭”，甚至“点一份黄焖鸡米饭”。听起来像科幻电影？其实现在就能实现。

Open-AutoGLM就是这样一个神奇的开源项目。它是智谱AI推出的手机端AI智能助理框架，基于视觉语言模型（VLM）构建，能通过多模态方式理解屏幕内容，并借助ADB自动操控安卓设备。你只需要用自然语言下达指令，剩下的事——识别界面、规划路径、点击滑动、输入文字——全部由AI来完成。

这个项目最大的亮点在于：它不是云端服务，而是可以部署在本地电脑上的完整解决方案。这意味着你的隐私更安全，数据不会上传到任何服务器；同时还能离线使用，完全摆脱网络依赖。

1.2 它到底能做什么？

别以为这只是个“语音助手+自动化脚本”的简单组合。Open-AutoGLM的核心能力远超传统工具：

看懂屏幕：不仅能截图，还能解析UI结构和当前应用状态
听懂人话：支持复杂语义理解，比如“先打开微信，找到昨天聊过的那个人，发条消息说改时间了”
自主决策：根据当前界面动态规划下一步动作，而不是死板执行预设流程
安全可控：遇到支付、登录等敏感操作时会暂停并提示人工接管

换句话说，它已经接近一个真正意义上的“AI代理”（AI Agent），具备感知、思考、行动的闭环能力。

2. 核心工作原理揭秘

2.1 AI是如何控制手机的？

很多人第一次听说“AI控制手机”都会觉得不可思议。其实整个过程并不复杂，可以用三个关键词概括：感知 → 思考 → 行动

想象一下你自己操作手机的过程：

看一眼屏幕，知道现在在哪个App、有哪些按钮可点（感知）
想清楚接下来要做什么，比如“我要进设置关蓝牙”（思考）
手指点击对应位置完成操作（行动）

Open-AutoGLM正是模仿了这一整套人类行为逻辑。

感知层：AI如何“看见”屏幕？

系统通过ADB从手机获取三类信息：

数据类型	获取方式	用途
屏幕图像	`adb shell screencap -p`	视觉识别当前画面
UI结构树	`adb shell uiautomator dump`	精确定位按钮坐标
应用状态	`dumpsys activity`	判断当前是否在目标页面

这些信息会被打包传给视觉语言模型，作为AI做决策的基础。

推理层：模型是怎么“想”的？

使用的模型叫AutoGLM-Phone-9B，是一个专为手机场景优化的多模态大模型。它的输入包括：

用户的自然语言指令
当前手机屏幕截图
上下文历史记录

输出则是一段结构化指令，格式如下：

<think>我需要先找到抖音App图标，然后点击进入，再搜索指定账号...</think> <answer>{"action": "Tap", "element": [500, 800]}</answer>

其中<think>是模型的内部推理过程，类似人类的“心里活动”；而<answer>则是具体的执行命令。

执行层：AI如何“动手”？

一旦生成操作指令，系统就会调用对应的ADB命令去实际控制手机：

操作	ADB命令示例
点击	`input tap 500 800`
滑动	`input swipe 300 1000 300 500`
输入文字	广播事件触发ADB Keyboard
启动App	`am start -n com.ss.android.ugc.aweme/.main.MainActivity`

就这样，一条条看似简单的指令，组成了完整的任务流。

3. 快速部署指南（5分钟搞定）

3.1 准备工作清单

别被“部署”两个字吓到，整个过程其实非常直观。你需要准备以下几样东西：

一台运行Windows或macOS的电脑
一部Android 7.0以上的安卓手机（或模拟器）
Python 3.10+ 环境
ADB调试工具
稳定的USB数据线（推荐原装）

如果你之前没接触过ADB也没关系，下面一步步教你。

3.2 手机端设置：开启开发者权限

第一步是在手机上启用调试功能。虽然不同品牌路径略有差异，但基本步骤都一样：

进入设置 → 关于手机
连续点击“版本号”7次，直到提示“您已进入开发者模式”
返回设置主菜单，进入系统 → 开发者选项
打开“USB调试”开关
如果有“USB安装”、“监控ADB安装”等选项，建议一并关闭

连接电脑后，手机会弹出“允许USB调试吗？”的提示，请勾选“始终允许”并确认。

3.3 安装ADB输入法（关键一步）

这是很多人忽略但极其重要的一步：为了让AI能输入中文，必须安装一个特殊的输入法——ADB Keyboard。

下载地址：https://github.com/senzhk/ADBKeyBoard/releases

安装方法有两种：

# 方法一：直接安装APK文件 adb install ADBKeyboard.apk # 方法二：如果已有APK文件在手机里 adb shell pm install /sdcard/ADBKeyboard.apk

安装完成后，在手机设置中将默认输入法切换为“ADB Keyboard”。

验证是否成功：

adb shell ime list -a | grep ADB

如果看到com.android.adbkeyboard/.AdbIME输出，说明安装成功。

3.4 配置本地控制端

现在回到电脑端，开始搭建控制环境。

克隆项目代码

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

安装依赖库

pip install -r requirements.txt pip install -e .

这一步会自动安装所有必要的Python包，包括用于图像处理、ADB通信和模型推理的相关模块。

测试设备连接

确保手机已通过USB连接电脑，然后运行：

adb devices

正常情况下你会看到类似这样的输出：

List of devices attached ABCDEF1234567890 device

只要有设备ID出现且状态为“device”，就说明连接成功。

4. 第一次让AI接管手机

4.1 最简单的启动方式

一切准备就绪后，就可以下达第一条指令了！

python main.py --device-id ABCDEF1234567890 "打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！"

替换--device-id参数为你自己的设备ID即可。

程序启动后，你会看到AI开始循环执行以下步骤：

截图获取当前屏幕
将截图和指令发送给模型
解析模型返回的操作指令
调用ADB执行点击/滑动/输入等动作
等待页面变化，重复上述流程

整个过程就像有人在替你操作手机，只不过这个人是个AI。

4.2 更灵活的交互模式

如果你不想每次只跑一个任务，也可以进入交互式模式：

python main.py --device-id ABCDEF1234567890

然后在提示符下连续输入多个指令：

> 打开微信 > 给张三发消息：会议推迟半小时 > 打开美团看看附近有什么好吃的 > 退出

这种模式特别适合测试和调试。

4.3 支持哪些常见操作？

目前框架支持多种基础操作，覆盖绝大多数日常使用场景：

操作类型	示例指令
打开App	“打开微博”
文本输入	“搜索周杰伦的歌”
点击按钮	“点击发布按钮”
滑动页面	“向上滑两下”
返回/回退	“返回上一页”
长按	“长按这条消息”
双击	“双击点赞”
等待加载	“等加载完再继续”

即使是复杂的多步任务，比如“登录淘宝→搜索商品→加入购物车→提交订单”，只要描述清晰，AI也能逐步完成。

5. 实际使用技巧与注意事项

5.1 如何写出高效的指令？

虽然系统能理解自然语言，但指令写得好不好直接影响执行成功率。这里有几个实用建议：

明确具体
❌ “帮我看点有趣的东西”
“打开B站随机刷5个视频”

避免歧义
❌ “发个消息给他”（谁是“他”？）
“给李四发消息：晚上一起吃饭吗？”

分步描述复杂任务
❌ “订一张明天北京到上海的高铁票”（涉及登录、选择、支付等多个环节）
先说“打开12306”，等进入后再补充“查明天上午的G字头列车”

5.2 WiFi无线连接（摆脱数据线）

不想一直连着USB线？可以用WiFi远程控制！

前提条件：手机和电脑在同一局域网内。

操作步骤：

# 1. 先用USB连接，开启TCP/IP模式 adb tcpip 5555 # 2. 断开USB，用IP连接 adb connect 192.168.1.100:5555

之后就可以拔掉数据线，继续用上面的方式运行AI代理。

提示：部分手机需要在“开发者选项”中手动开启“无线调试”功能。

5.3 敏感操作保护机制

出于安全考虑，系统对某些高风险操作会主动暂停并请求人工接管：

支付类操作（如微信付款、支付宝转账）
账户登录（尤其是带验证码的场景）
删除重要数据（如清空聊天记录）

当遇到这类情况时，终端会显示类似提示：

[WARNING] 检测到支付页面，已暂停执行，请手动完成操作后按回车继续...

这样既保证了便利性，又守住了安全性底线。

6. 常见问题与解决方法

6.1 设备无法识别

现象：adb devices显示为空或“unauthorized”。

可能原因及解决方案：

未授权调试：检查手机是否弹出授权窗口，务必点击“允许”
数据线问题：换一根支持数据传输的线缆（有些只能充电）
驱动问题（Windows）：安装官方ADB驱动或使用豌豆荚等辅助工具
端口占用：重启ADB服务

adb kill-server adb start-server

6.2 文字输入失败

症状：AI尝试输入但屏幕上无反应。

排查步骤：

确认已安装 ADB Keyboard
在手机设置中将其设为默认输入法
运行以下命令验证：

adb shell ime list -a | grep ADB

若仍无效，尝试重启输入法服务：

adb shell ime enable com.android.adbkeyboard/.AdbIME adb shell ime set com.android.adbkeyboard/.AdbIME

6.3 模型响应慢或卡住

如果是本地部署模型，可能是资源不足导致。

建议措施：

使用4-bit量化模型减少内存占用
关闭其他大型应用程序释放RAM
优先使用USB连接而非WiFi，提升截图传输速度
定期重启AI进程防止缓存堆积

7. 总结

7.1 你已经掌握了什么？

通过这篇教程，你应该已经学会了：

如何配置Open-AutoGLM的基本运行环境
怎样用自然语言指令让AI自动操作手机
如何处理常见的连接与执行问题
掌握了一些提升成功率的实用技巧

更重要的是，你体验到了一种全新的交互范式：不再是一个个手动点击，而是用一句话表达意图，让AI替你完成全过程。

7.2 下一步可以怎么玩？

这个项目还有很多玩法值得探索：

搭建专属的家庭自动化中心，定时帮老人刷健康码
结合语音识别，打造真正的“免动手”手机助手
在服务器上部署多个实例，批量管理多台设备
修改提示词模板，定制更适合自己的行为风格

技术的本质是服务于人。Open-AutoGLM不仅是一个工具，更是一种对未来人机协作方式的预演。而现在，你已经站在了这场变革的起点。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

5分钟上手Open-AutoGLM：小白也能玩转AI手机助理