5分钟上手Open-AutoGLM:小白也能玩转AI手机助理
1. 什么是Open-AutoGLM?
1.1 让你的手机拥有“超级大脑”
你有没有想过,有一天只要说一句话,手机就能自动帮你完成所有操作?比如:“打开小红书搜美食”、“给妈妈发消息说我今晚不回家吃饭”,甚至“点一份黄焖鸡米饭”。听起来像科幻电影?其实现在就能实现。
Open-AutoGLM就是这样一个神奇的开源项目。它是智谱AI推出的手机端AI智能助理框架,基于视觉语言模型(VLM)构建,能通过多模态方式理解屏幕内容,并借助ADB自动操控安卓设备。你只需要用自然语言下达指令,剩下的事——识别界面、规划路径、点击滑动、输入文字——全部由AI来完成。
这个项目最大的亮点在于:它不是云端服务,而是可以部署在本地电脑上的完整解决方案。这意味着你的隐私更安全,数据不会上传到任何服务器;同时还能离线使用,完全摆脱网络依赖。
1.2 它到底能做什么?
别以为这只是个“语音助手+自动化脚本”的简单组合。Open-AutoGLM的核心能力远超传统工具:
- 看懂屏幕:不仅能截图,还能解析UI结构和当前应用状态
- 听懂人话:支持复杂语义理解,比如“先打开微信,找到昨天聊过的那个人,发条消息说改时间了”
- 自主决策:根据当前界面动态规划下一步动作,而不是死板执行预设流程
- 安全可控:遇到支付、登录等敏感操作时会暂停并提示人工接管
换句话说,它已经接近一个真正意义上的“AI代理”(AI Agent),具备感知、思考、行动的闭环能力。
2. 核心工作原理揭秘
2.1 AI是如何控制手机的?
很多人第一次听说“AI控制手机”都会觉得不可思议。其实整个过程并不复杂,可以用三个关键词概括:感知 → 思考 → 行动
想象一下你自己操作手机的过程:
- 看一眼屏幕,知道现在在哪个App、有哪些按钮可点(感知)
- 想清楚接下来要做什么,比如“我要进设置关蓝牙”(思考)
- 手指点击对应位置完成操作(行动)
Open-AutoGLM正是模仿了这一整套人类行为逻辑。
感知层:AI如何“看见”屏幕?
系统通过ADB从手机获取三类信息:
| 数据类型 | 获取方式 | 用途 |
|---|---|---|
| 屏幕图像 | adb shell screencap -p | 视觉识别当前画面 |
| UI结构树 | adb shell uiautomator dump | 精确定位按钮坐标 |
| 应用状态 | dumpsys activity | 判断当前是否在目标页面 |
这些信息会被打包传给视觉语言模型,作为AI做决策的基础。
推理层:模型是怎么“想”的?
使用的模型叫AutoGLM-Phone-9B,是一个专为手机场景优化的多模态大模型。它的输入包括:
- 用户的自然语言指令
- 当前手机屏幕截图
- 上下文历史记录
输出则是一段结构化指令,格式如下:
<think>我需要先找到抖音App图标,然后点击进入,再搜索指定账号...</think> <answer>{"action": "Tap", "element": [500, 800]}</answer>其中<think>是模型的内部推理过程,类似人类的“心里活动”;而<answer>则是具体的执行命令。
执行层:AI如何“动手”?
一旦生成操作指令,系统就会调用对应的ADB命令去实际控制手机:
| 操作 | ADB命令示例 |
|---|---|
| 点击 | input tap 500 800 |
| 滑动 | input swipe 300 1000 300 500 |
| 输入文字 | 广播事件触发ADB Keyboard |
| 启动App | am start -n com.ss.android.ugc.aweme/.main.MainActivity |
就这样,一条条看似简单的指令,组成了完整的任务流。
3. 快速部署指南(5分钟搞定)
3.1 准备工作清单
别被“部署”两个字吓到,整个过程其实非常直观。你需要准备以下几样东西:
- 一台运行Windows或macOS的电脑
- 一部Android 7.0以上的安卓手机(或模拟器)
- Python 3.10+ 环境
- ADB调试工具
- 稳定的USB数据线(推荐原装)
如果你之前没接触过ADB也没关系,下面一步步教你。
3.2 手机端设置:开启开发者权限
第一步是在手机上启用调试功能。虽然不同品牌路径略有差异,但基本步骤都一样:
- 进入设置 → 关于手机
- 连续点击“版本号”7次,直到提示“您已进入开发者模式”
- 返回设置主菜单,进入系统 → 开发者选项
- 打开“USB调试”开关
- 如果有“USB安装”、“监控ADB安装”等选项,建议一并关闭
连接电脑后,手机会弹出“允许USB调试吗?”的提示,请勾选“始终允许”并确认。
3.3 安装ADB输入法(关键一步)
这是很多人忽略但极其重要的一步:为了让AI能输入中文,必须安装一个特殊的输入法——ADB Keyboard。
下载地址:https://github.com/senzhk/ADBKeyBoard/releases
安装方法有两种:
# 方法一:直接安装APK文件 adb install ADBKeyboard.apk # 方法二:如果已有APK文件在手机里 adb shell pm install /sdcard/ADBKeyboard.apk安装完成后,在手机设置中将默认输入法切换为“ADB Keyboard”。
验证是否成功:
adb shell ime list -a | grep ADB如果看到com.android.adbkeyboard/.AdbIME输出,说明安装成功。
3.4 配置本地控制端
现在回到电脑端,开始搭建控制环境。
克隆项目代码
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM安装依赖库
pip install -r requirements.txt pip install -e .这一步会自动安装所有必要的Python包,包括用于图像处理、ADB通信和模型推理的相关模块。
测试设备连接
确保手机已通过USB连接电脑,然后运行:
adb devices正常情况下你会看到类似这样的输出:
List of devices attached ABCDEF1234567890 device只要有设备ID出现且状态为“device”,就说明连接成功。
4. 第一次让AI接管手机
4.1 最简单的启动方式
一切准备就绪后,就可以下达第一条指令了!
python main.py --device-id ABCDEF1234567890 "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"替换--device-id参数为你自己的设备ID即可。
程序启动后,你会看到AI开始循环执行以下步骤:
- 截图获取当前屏幕
- 将截图和指令发送给模型
- 解析模型返回的操作指令
- 调用ADB执行点击/滑动/输入等动作
- 等待页面变化,重复上述流程
整个过程就像有人在替你操作手机,只不过这个人是个AI。
4.2 更灵活的交互模式
如果你不想每次只跑一个任务,也可以进入交互式模式:
python main.py --device-id ABCDEF1234567890然后在提示符下连续输入多个指令:
> 打开微信 > 给张三发消息:会议推迟半小时 > 打开美团看看附近有什么好吃的 > 退出这种模式特别适合测试和调试。
4.3 支持哪些常见操作?
目前框架支持多种基础操作,覆盖绝大多数日常使用场景:
| 操作类型 | 示例指令 |
|---|---|
| 打开App | “打开微博” |
| 文本输入 | “搜索周杰伦的歌” |
| 点击按钮 | “点击发布按钮” |
| 滑动页面 | “向上滑两下” |
| 返回/回退 | “返回上一页” |
| 长按 | “长按这条消息” |
| 双击 | “双击点赞” |
| 等待加载 | “等加载完再继续” |
即使是复杂的多步任务,比如“登录淘宝→搜索商品→加入购物车→提交订单”,只要描述清晰,AI也能逐步完成。
5. 实际使用技巧与注意事项
5.1 如何写出高效的指令?
虽然系统能理解自然语言,但指令写得好不好直接影响执行成功率。这里有几个实用建议:
明确具体
❌ “帮我看点有趣的东西”
“打开B站随机刷5个视频”
避免歧义
❌ “发个消息给他”(谁是“他”?)
“给李四发消息:晚上一起吃饭吗?”
分步描述复杂任务
❌ “订一张明天北京到上海的高铁票”(涉及登录、选择、支付等多个环节)
先说“打开12306”,等进入后再补充“查明天上午的G字头列车”
5.2 WiFi无线连接(摆脱数据线)
不想一直连着USB线?可以用WiFi远程控制!
前提条件:手机和电脑在同一局域网内。
操作步骤:
# 1. 先用USB连接,开启TCP/IP模式 adb tcpip 5555 # 2. 断开USB,用IP连接 adb connect 192.168.1.100:5555之后就可以拔掉数据线,继续用上面的方式运行AI代理。
提示:部分手机需要在“开发者选项”中手动开启“无线调试”功能。
5.3 敏感操作保护机制
出于安全考虑,系统对某些高风险操作会主动暂停并请求人工接管:
- 支付类操作(如微信付款、支付宝转账)
- 账户登录(尤其是带验证码的场景)
- 删除重要数据(如清空聊天记录)
当遇到这类情况时,终端会显示类似提示:
[WARNING] 检测到支付页面,已暂停执行,请手动完成操作后按回车继续...这样既保证了便利性,又守住了安全性底线。
6. 常见问题与解决方法
6.1 设备无法识别
现象:adb devices显示为空或“unauthorized”。
可能原因及解决方案:
- 未授权调试:检查手机是否弹出授权窗口,务必点击“允许”
- 数据线问题:换一根支持数据传输的线缆(有些只能充电)
- 驱动问题(Windows):安装官方ADB驱动或使用豌豆荚等辅助工具
- 端口占用:重启ADB服务
adb kill-server adb start-server6.2 文字输入失败
症状:AI尝试输入但屏幕上无反应。
排查步骤:
- 确认已安装 ADB Keyboard
- 在手机设置中将其设为默认输入法
- 运行以下命令验证:
adb shell ime list -a | grep ADB- 若仍无效,尝试重启输入法服务:
adb shell ime enable com.android.adbkeyboard/.AdbIME adb shell ime set com.android.adbkeyboard/.AdbIME6.3 模型响应慢或卡住
如果是本地部署模型,可能是资源不足导致。
建议措施:
- 使用4-bit量化模型减少内存占用
- 关闭其他大型应用程序释放RAM
- 优先使用USB连接而非WiFi,提升截图传输速度
- 定期重启AI进程防止缓存堆积
7. 总结
7.1 你已经掌握了什么?
通过这篇教程,你应该已经学会了:
- 如何配置Open-AutoGLM的基本运行环境
- 怎样用自然语言指令让AI自动操作手机
- 如何处理常见的连接与执行问题
- 掌握了一些提升成功率的实用技巧
更重要的是,你体验到了一种全新的交互范式:不再是一个个手动点击,而是用一句话表达意图,让AI替你完成全过程。
7.2 下一步可以怎么玩?
这个项目还有很多玩法值得探索:
- 搭建专属的家庭自动化中心,定时帮老人刷健康码
- 结合语音识别,打造真正的“免动手”手机助手
- 在服务器上部署多个实例,批量管理多台设备
- 修改提示词模板,定制更适合自己的行为风格
技术的本质是服务于人。Open-AutoGLM不仅是一个工具,更是一种对未来人机协作方式的预演。而现在,你已经站在了这场变革的起点。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。