5分钟上手Open-AutoGLM,小白也能玩转AI手机Agent
你有没有想过,让AI替你点外卖、刷短视频、填验证码、批量关注博主?不是靠写脚本,也不是靠录屏回放——而是像人一样“看懂”手机屏幕,再用自然语言下指令:“打开小红书搜美食”,它就真的能理解界面、规划步骤、点击输入、完成任务。
Open-AutoGLM 就是这样一个让梦想落地的工具。它不是概念Demo,而是智谱AI开源的、已在真实安卓设备上稳定运行的手机端AI Agent框架。没有复杂模型训练,不需写一行ADB命令,连“adb devices”都只用输一次——5分钟,真能跑通第一条指令。
这篇文章不讲原理、不堆参数、不画架构图。我们只做一件事:带你从零开始,在自己电脑+真机上,亲手让AI第一次接管你的手机。全程无需GPU服务器、不碰云部署、不配vLLM服务,所有操作都在本地完成,适合完全没接触过ADB或Agent概念的新手。
准备好了吗?我们直接开始。
1. 为什么说这是“小白友好”的第一步?
很多AI Agent教程一上来就要求租A100、配vLLM、搭API服务、调prompt工程……对新手来说,光是看到“CUDA版本冲突”四个字就想关网页。
而 Open-AutoGLM 的本地控制端(Open-AutoGLM)设计初衷,就是把AI能力“封装进一个命令行”里。它的核心逻辑非常清晰:
- 你负责:连好手机、装好ADB、写一句中文指令
- 它负责:截图→理解当前界面→拆解任务→生成操作序列→调用ADB执行→循环直到完成
整个过程,你不需要知道什么是VLM、什么是Action Space、什么是Thought-Action-Observation循环。就像给朋友发微信:“帮我搜一下‘北京烤鸭’,截个图发我”,朋友照做——AI就是那个“听得懂人话、干得了实事”的朋友。
更关键的是:它不依赖你本地有显卡。模型推理走云端(官方提供免费试用接口),你本地只跑轻量级控制逻辑。这意味着——
一台2018年的MacBook Air也能跑
Windows笔记本不用装WSL或Docker
手机只要Android 7.0+、能开USB调试就行
下面这四步,就是你和AI手机助手的第一次握手。
2. 四步极简准备:连手机、装工具、下代码、配环境
2.1 连上你的安卓手机(3分钟搞定)
这不是“插上线就行”,而是要让电脑真正“认出”并“信任”你的手机。按顺序来,避免反复授权:
开启开发者模式:
手机「设置」→「关于手机」→连续点击「版本号」7次 → 弹出“您现在处于开发者模式”。开启USB调试:
返回「设置」→「系统与更新」→「开发者选项」→ 打开「USB调试」。
有些品牌(如小米、华为)还需额外打开「USB调试(安全设置)」。用数据线连接电脑:
插上后,手机弹出“允许USB调试吗?”→ 勾选「始终允许」→ 点击「确定」。
验证是否成功:在电脑终端输入adb devices,应看到类似输出:List of devices attached 1234567890abcdef device
小贴士:如果显示
unauthorized,说明授权失败。拔掉重插,手机重新点“允许”;如果根本没反应,换一根支持数据传输的USB线(很多充电线只能供电)。
2.2 装好ADB工具(1分钟,Windows/macOS通用)
ADB(Android Debug Bridge)是电脑和安卓设备通信的“翻译官”。你不需要懂它怎么工作,只需要让它能运行。
Windows用户:
- 下载 platform-tools(选zip包)
- 解压到任意文件夹,比如
C:\adb - 右键「此电脑」→「属性」→「高级系统设置」→「环境变量」→ 在「系统变量」中找到
Path→「编辑」→「新建」→ 粘贴C:\adb→「确定」
macOS用户:
在终端执行(路径按你实际解压位置调整):echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc
验证:终端输入adb version,看到版本号即成功。
2.3 安装ADB Keyboard(1分钟,关键!)
这是Open-AutoGLM能“打字”的前提。没有它,AI可以点图标,但无法输入文字(比如搜索关键词、填密码)。
- 下载 ADBKeyboard.apk
- 传到手机并安装(需在「设置」→「安全」中允许“未知来源应用”)
- 启用为默认输入法:
「设置」→「语言和输入法」→「默认输入法」→ 选择「ADB Keyboard」
验证:打开任意输入框(如微信聊天),长按输入框 →「输入法」→ 应能看到「ADB Keyboard」被选中。
2.4 下载并安装Open-AutoGLM控制端(1分钟)
这一步,你只是把“遥控器”拿到手,不涉及模型下载或编译:
# 克隆代码(无需git基础,复制粘贴即可) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装Python依赖(自动跳过已安装项) pip install -r requirements.txt # 注册为可调用模块(让命令行能直接识别phone_agent) pip install -e .验证:输入python -c "import phone_agent; print('OK')",输出OK即成功。
到这里,你已完成全部前置准备。没有配置文件、没有端口映射、没有防火墙设置——只有四步干净利落的操作。
3. 第一条指令:让AI打开抖音并搜索博主
现在,我们执行那句最经典的指令:
“打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!”
注意:这不是演示,这是你马上就能复现的真实操作。
3.1 获取你的设备ID(只需一次)
回到终端,确保手机已连接且adb devices显示device状态,然后运行:
adb devices你会看到类似这样的输出:
List of devices attached 8675309123456789 device记下那一串字母数字组合(如8675309123456789),这就是你的--device-id。
3.2 直接运行,不改任何配置
Open-AutoGLM 提供了官方托管的免费推理服务(autoglm-phone-9b模型),你无需自己部署模型。只需一条命令:
python main.py \ --device-id 8675309123456789 \ --base-url https://autoglm-phone-api.zhipuai.com/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"替换说明:
--device-id:填你刚才查到的ID- 其余参数保持原样(
--base-url和--model已指向官方可用服务) - 最后引号内的中文,就是你下达的自然语言指令
你会看到终端开始滚动日志:
[INFO] 截取屏幕... [INFO] VLM理解中:当前界面为桌面,含抖音图标 [INFO] 规划动作:点击抖音图标 [INFO] 执行ADB:tap 200 400 [INFO] 截取屏幕... [INFO] VLM理解中:当前界面为抖音首页,搜索框可见 [INFO] 规划动作:点击搜索框 → 输入'dycwo11nt61d' → 点击搜索 ...同时,你的手机会真实发生这些动作:自动点亮屏幕 → 打开抖音 → 点击搜索栏 → 输入ID → 点击搜索 → 进入博主主页 → 点击“关注”。
整个过程约20–40秒,取决于网络和手机响应速度。
这不是模拟,不是录屏,不是预设脚本——AI在实时观察每一帧画面,动态决定下一步该做什么。
3.3 如果第一次没成功?三个高频原因自查
| 现象 | 最可能原因 | 一句话解决 |
|---|---|---|
终端报错Connection refused或卡在VLM理解中 | 网络未连通官方API | 检查是否能访问 https://autoglm-phone-api.zhipuai.com (浏览器打开试试) |
| 手机无反应,或只点了图标但没后续 | ADB Keyboard未启用 | 回到手机「设置」→「语言和输入法」→ 确认「ADB Keyboard」是默认输入法 |
终端报错device not found | ADB连接断开 | 重新执行adb devices,若无设备,拔插USB线并重新授权 |
这些问题90%以上都能在1分钟内解决。别担心,我们不是在调试一个黑盒系统,而是在校准一个“人机协作流程”。
4. 举一反三:5个真实可用的指令模板
学会第一条指令,你就掌握了全部逻辑。下面这些,你随时可以复制粘贴运行:
4.1 日常效率类
python main.py --device-id YOUR_ID --base-url https://autoglm-phone-api.zhipuai.com/v1 --model "autoglm-phone-9b" "打开微信,给备注为‘老板’的人发消息:‘方案已发邮箱,请查收’"4.2 信息获取类
python main.py --device-id YOUR_ID --base-url https://autoglm-phone-api.zhipuai.com/v1 --model "autoglm-phone-9b" "打开高德地图,搜索‘最近的星巴克’,截图结果页面"4.3 社交互动类
python main.py --device-id YOUR_ID --base-url https://autoglm-phone-api.zhipuai.com/v1 --model "autoglm-phone-9b" "打开小红书,搜索‘健身餐食谱’,点赞前3篇笔记"4.4 电商购物类
python main.py --device-id YOUR_ID --base-url https://autoglm-phone-api.zhipuai.com/v1 --model "autoglm-phone-9b" "打开淘宝,搜索‘无线降噪耳机’,按销量排序,截图第一页商品列表"4.5 自动化验证类(适合测试)
python main.py --device-id YOUR_ID --base-url https://autoglm-phone-api.zhipuai.com/v1 --model "autoglm-phone-9b" "打开计算器,输入‘123+456=’,截图结果"关键技巧:
- 指令越具体越好(明确APP名、操作对象、动作目标)
- 避免模糊词如“那个”“这个”“上面”(AI看不到你的手指指向)
- 中文标点用全角(如“:”而非“:”),更稳定
你不需要背指令格式。记住一个心法:把它当成对真人助理说话——你说得清楚,它就做得明白。
5. 进阶提示:让AI更听话、更安全、更可控
Open-AutoGLM 不是“全自动永动机”,它内置了多重保障机制,让你既能放手,又保有掌控权。
5.1 敏感操作人工确认(默认开启)
当AI识别到以下动作时,会自动暂停并等待你确认:
- 点击“支付”“确认付款”“删除联系人”等高风险按钮
- 尝试输入手机号、身份证号、银行卡号等敏感字段
- 进入银行类、金融类APP的深度操作流程
此时终端会显示:
[ALERT] 检测到潜在敏感操作:点击「确认支付」按钮 请在手机上手动确认,或按 Ctrl+C 中断执行。你只需看着手机,觉得没问题就点一下,AI继续;觉得不对劲就按Ctrl+C终止。安全边界由你定义,不是由代码硬编码。
5.2 登录/验证码场景:无缝人工接管
很多APP首次登录需要短信验证码,或需要人脸识别。Open-AutoGLM 的设计哲学是:AI负责“导航”,人负责“临门一脚”。
当你运行指令如:“打开闲鱼,登录我的账号”
AI会自动:
- 打开闲鱼 → 点击“我的” → 点击“登录” → 输入你预设的手机号(若已配置)
- 然后停在验证码输入框,终端提示:
[WAIT] 请在手机上查看短信验证码,并手动输入到输入框中 输入完成后,按任意键继续...
你输入完验证码,回车,AI立刻接管后续操作(如点击“登录”按钮)。整个过程丝滑,毫无割裂感。
5.3 WiFi远程控制(摆脱USB线束缚)
不想一直插着线?Open-AutoGLM 支持WiFi ADB,让手机和电脑在同一个局域网内无线协作。
只需两步:
- USB连接时,运行:
adb tcpip 5555 - 断开USB,用手机WiFi IP连接(如
192.168.1.100):
验证:adb connect 192.168.1.100:5555adb devices应显示192.168.1.100:5555 device
之后,所有--device-id参数直接填192.168.1.100:5555即可。手机放桌上,你在沙发上发指令,它照样执行。
6. 总结:你刚刚完成了什么?
你不是在“跑一个Demo”,而是在自己的设备上,亲手激活了一个具备真实行动力的AI伙伴。回顾这5分钟:
- 你让AI第一次“看见”了你的手机屏幕
- 你用一句中文,指挥它完成了跨APP、多步骤、带输入的复杂任务
- 你验证了它的可靠性(自动暂停敏感操作)、灵活性(支持WiFi无线)、易用性(零模型部署)
Open-AutoGLM 的价值,不在于它有多大的参数量,而在于它把前沿的多模态理解、任务规划、自动化执行,压缩成了一条命令、一句中文、一次点击。
接下来,你可以:
🔹 把常用指令保存为Shell脚本,一键执行
🔹 用Python API集成到自己的工具链中(参考文档里的phone_agent.adb模块)
🔹 尝试更复杂的指令,比如“对比美团和饿了么上‘宫保鸡丁’的价格,截图最低价那家”
技术从来不该是门槛,而应是杠杆。你已经握住了支点。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。