手把手教你部署Open-AutoGLM,AI秒变手机管家
1. 这不是科幻,是今天就能用上的手机AI管家
你有没有过这样的时刻:
想批量给十个抖音博主点赞,手指点到发酸;
外卖下单要反复切换APP、填地址、选优惠券,三分钟起步;
客服对话里反复复制粘贴验证码,一不小心就超时……
这些重复、琐碎、必须盯着屏幕完成的操作,现在可以交给AI来做了。
Open-AutoGLM 就是这样一款真正“会用手机”的AI——它不只看图说话,而是能看清你的手机屏幕、理解当前界面、规划操作路径、再通过ADB自动点击、滑动、输入,最后把任务干完。你说一句“打开小红书搜川菜探店”,它就真能打开APP、点搜索框、输入文字、点搜索、往下翻三页——全程无需你碰一下手机。
这不是云端调API的伪智能,而是本地可控、真机执行、多模态感知+动作规划的完整Agent闭环。本文将带你从零开始,在自己的电脑和手机上跑起来这个框架,不绕弯、不跳步、不假设你懂ADB或大模型,每一步都配实操命令和避坑提示。
你不需要GPU服务器,不需要写一行推理代码,甚至不需要改配置文件。只要一台能连安卓手机的Windows或Mac,20分钟内,就能让AI第一次替你点开微信。
2. 先搞懂它到底能做什么(和不能做什么)
2.1 它能稳稳做到的三件事
自然语言驱动真机操作
指令如:“把相册里昨天拍的三张猫照片发给微信里的‘设计师老张’”——AI会识别相册时间、筛选图片、打开微信、找到联系人、发送成功。跨APP理解与衔接
“查高德地图上离我最近的咖啡馆,把名字和评分截图发到钉钉工作群”——它能切出高德、定位、读取界面信息、截图、切回钉钉、选群、发图,一气呵成。安全接管关键节点
遇到登录页、支付页、短信验证码弹窗时,它会暂停并提示“请人工确认”,等你输入后继续,不越界、不盲操作。
2.2 当前版本的明确边界(避免期待错位)
- ❌ 不支持iOS设备(仅Android 7.0+真机或模拟器,推荐真机)
- ❌ 不支持无USB调试权限的厂商定制系统(如部分华为EMUI深度限制机型)
- ❌ 不支持语音指令(纯文本输入,后续可接ASR扩展)
- ❌ 不自带OCR文字提取能力(依赖VLM对屏幕图文的整体理解,非单独OCR模块)
它的强项不在“识别单个字”,而在“看懂整个界面在干什么”。就像一个细心又手快的助理,不是靠拆解像素,而是靠理解布局、按钮语义、导航逻辑来行动。
3. 本地部署四步走:从连上手机到下达第一条指令
我们放弃云服务器方案,全程在你自己的笔记本上完成。这意味着:
所有数据留在本地,不上传任何屏幕截图或操作记录
无需充值、无需租GPU、无需配置反向代理
调试反馈即时,失败立刻看到报错位置
只需准备:一台Windows/macOS电脑 + 一根能传数据的USB线 + 一部Android手机。
3.1 第一步:让电脑真正“看见”你的手机
这是90%失败的起点。不是插上线就完事,必须让系统信任这台设备。
3.1.1 手机端设置(三步缺一不可)
开启开发者模式
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您已处于开发者模式”开启USB调试
返回设置 → 系统与更新 → 开发者选项 → 打开“USB调试”
(部分小米/OPPO需额外打开“USB调试(安全设置)”)安装并启用ADB Keyboard
- 下载 ADBKeyboard.apk
- 手机安装(允许“未知来源应用”)
- 设置 → 语言与输入法 → 默认输入法 → 选择“ADB Keyboard”
关键提醒:如果跳过第3步,AI能点击、能滑动,但永远无法输入文字——所有带搜索、登录、填写的操作都会卡住。
3.1.2 电脑端验证连接
- Windows:打开CMD,输入
adb devices - macOS:打开Terminal,输入
adb devices
正常输出应为:
List of devices attached ABC123456789 device如果显示unauthorized:拔掉USB线,重新插紧,手机弹窗点“允许”并勾选“始终允许”。
如果无任何输出:换根USB线(很多充电线不支持数据传输),或尝试另一USB口。
3.2 第二步:装好控制端代码(3分钟搞定)
Open-AutoGLM的控制端是纯Python项目,不依赖GPU,普通笔记本完全胜任。
# 1. 克隆代码(确保已安装Git) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(隔离依赖,强烈推荐) python -m venv autoglm-env source autoglm-env/bin/activate # macOS/Linux # autoglm-env\Scripts\activate # Windows CMD # autoglm-env\Scripts\Activate.ps1 # Windows PowerShell(需先执行 Set-ExecutionPolicy RemoteSigned) # 3. 安装依赖(清华源加速,国内用户必备) pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/ pip install -e .验证是否成功:运行
python -c "import phone_agent; print('OK')",无报错即为就绪。
3.3 第三步:启动AI代理,让它“睁眼看看”
控制端本身不包含大模型,它需要连接一个已部署好的视觉语言模型服务。官方推荐使用vLLM托管AutoGLM-Phone-9B模型,但如果你只想快速体验,我们用最简方式:
3.3.1 使用HuggingFace提供的免费推理API(免部署)
访问 HuggingFace AutoGLM-Phone Demo,点击“Duplicate Space”创建自己的副本(需登录HF账号),等待部署完成(约2分钟),复制页面右上角的Space URL,格式类似:https://zhipuai-autoglm-phone-demo.hf.space
然后将URL中的域名部分提取出来,补全API路径:https://zhipuai-autoglm-phone-demo.hf.space/api/v1
3.3.2 运行第一条指令
在Open-AutoGLM目录下执行:
python main.py \ --device-id ABC123456789 \ --base-url https://zhipuai-autoglm-phone-demo.hf.space/api/v1 \ --model autoglm-phone-9b \ "打开计算器,输入123加456,等于多少?"--device-id:替换为你自己手机的ID(adb devices第一列)--base-url:替换为你的HF Space API地址- 最后字符串:你的自然语言指令,支持中文
你会看到终端开始打印日志:
[INFO] Capturing screen... [INFO] Sending image to model... [INFO] Model response: {'action': 'tap', 'x': 520, 'y': 1800} [INFO] Executing tap at (520, 1800) ...同时,你的手机屏幕会真实地亮起、解锁(若已锁屏)、打开计算器、点击数字键、显示结果。
小技巧:首次运行较慢(需加载模型权重),后续指令响应在3-8秒内。耐心等前10秒,别急着关掉。
3.4 第四步:进阶控制——用Python写你的专属指令流
不想每次敲命令?直接用Python脚本封装常用操作:
# save_as_script.py from phone_agent.agent import PhoneAgent # 初始化代理(自动复用已连接的设备) agent = PhoneAgent( device_id="ABC123456789", base_url="https://zhipuai-autoglm-phone-demo.hf.space/api/v1", model_name="autoglm-phone-9b" ) # 串行执行多步指令 result = agent.run("打开微博,搜索'AI手机助手',进入第一个结果页,截图保存") print("任务完成!截图已存至手机相册。")运行python save_as_script.py,即可一键触发整套流程。你可以把它做成定时任务、绑定快捷键,甚至接入微信机器人接收语音转文字后的指令。
4. 实战效果直击:三个真实场景对比
我们用同一部小米13(Android 14),在同一网络环境下,测试以下三个高频任务。所有操作均由Open-AutoGLM独立完成,未人工干预。
4.1 场景一:外卖下单全流程(美团APP)
| 步骤 | 人工操作耗时 | AI操作耗时 | 是否成功 |
|---|---|---|---|
| 打开美团APP | 3秒 | 2秒 | |
| 点击首页“外卖”Tab | 1秒 | 1秒 | |
| 点击搜索框输入“黄焖鸡米饭” | 8秒(含键盘唤起、输入、确认) | 4秒(自动唤起ADB键盘) | |
| 选择第一家店铺进入 | 5秒(滑动+点击) | 3秒 | |
| 选规格“微辣+米饭”,加购 | 12秒 | 7秒 | |
| 去结算→提交订单 | 15秒(填地址、选优惠、支付确认) | 18秒(在地址页暂停,提示“请人工确认收货地址”) |
关键观察:AI在地址页主动暂停,弹出终端提示“检测到地址填写页,请确认后按回车继续”,保障了支付环节的安全边界。
4.2 场景二:跨APP信息搬运(高德→微信)
指令:“查高德地图上公司附近的打印店,把前三家的名字和电话截图,发给微信里的‘行政小王’”
- AI自动完成:打开高德→定位→搜索“打印店”→截取列表页→切到微信→找到联系人→发送截图
- 耗时:22秒(含APP切换动画)
- 准确率:截图覆盖全部三家信息,微信发送无误
4.3 场景三:重复性内容发布(小红书)
指令:“把相册里最新一张自拍照,加上文案‘今日OOTD|春日通勤穿搭’,发到小红书”
- AI行为:打开相册→按时间排序→选最新图→打开小红书→点“+”→选图→粘贴文案→发布
- 耗时:31秒
- 注意点:首次发布需手动授权小红书访问相册,授权后AI可复用权限
5. 常见问题速查手册(省下90%的搜索时间)
5.1 “adb devices” 显示 offline 或 unauthorized
- 原因:ADB服务异常或手机授权失效
- 解法:
adb kill-server adb start-server # 然后重新插拔USB线,手机点“允许”
5.2 手机屏幕没反应,终端卡在“Capturing screen…”
- 原因:ADB Keyboard未启用,或手机开启了“USB配置→仅充电”
- 解法:
- 手机下拉通知栏,点USB图标 → 改为“文件传输”或“MTP”
- 再次确认“默认输入法”设为ADB Keyboard
5.3 指令执行一半卡住,日志停在“Sending image to model…”
- 原因:HF Space API限流(免费版每分钟3次请求)
- 解法:
- 等待60秒再试
- 或自行部署轻量模型(推荐Ollama+Phi-3-vision,8GB显存即可)
5.4 中文指令被误解,比如把“微信”识别成“微X”
- 原因:模型对APP图标文字识别精度有限
- 解法:
- 指令中加入更明确的视觉线索:“点击屏幕底部第二个图标(绿色微信)”
- 或提前在手机桌面固定微信图标位置,减少界面变化
6. 你能用它做什么?不止于自动化
Open-AutoGLM的价值,远不止“帮点几下屏幕”。它的真正潜力在于重构人机交互范式:
- 无障碍新可能:为视障用户朗读界面元素+语音指令操作,让手机真正“可触摸”
- APP质量守门员:自动遍历电商APP所有商品详情页,检查图片加载、价格显示、购买按钮状态
- 教学演示神器:老师用自然语言描述操作步骤,AI实时在学生手机上演示,比录屏更直观
- 家庭数字助手:对老人说“帮我把天气预报截图发给儿子”,AI自动完成
它不是一个黑盒工具,而是一个开放的Agent框架。你随时可以:
🔹 替换更强的VLM模型(Qwen-VL、InternVL)
🔹 接入本地OCR提升文字识别精度
🔹 绑定企业微信/飞书机器人,实现工单自动处理
🔹 记录所有操作日志,生成可视化流程图供复盘
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。