新手必看:Open-AutoGLM手机端AI代理快速上手
你有没有想过,只要说一句“帮我打开小红书搜美食”,手机就自动完成打开App、输入关键词、点击搜索、滑动浏览——全程不用你点一下屏幕?这不是科幻电影,而是今天就能用上的真实能力。Open-AutoGLM 就是这样一款由智谱AI开源的手机端AI智能助理框架,它不依赖云端App或复杂配置,而是真正让AI“看见”你的手机屏幕、“听懂”你的自然语言,并“动手”帮你操作。
这篇文章不是讲原理、不堆参数、不谈架构,而是专为零基础用户准备的一份可执行、可复现、能立刻见效的实操指南。从连上手机到发出第一条指令,全程控制在15分钟内。无论你是想解放双手点外卖,还是帮父母自动查健康码,或是批量处理工作消息,这篇就是为你写的。
1. 它到底能做什么?先看三个真实场景
别急着装环境,我们先确认一件事:这东西值不值得你花15分钟试试?
场景一:点外卖不翻页
你说:“打开美团,搜‘附近2公里内的川菜馆’,按评分排序,选第一家,点‘水煮鱼双人套餐’,加辣,下单。”
→ Open-AutoGLM 自动完成:启动App → 点击搜索框 → 输入文字 → 点击搜索 → 滑动找店 → 点击进店 → 找套餐 → 加选项 → 提交订单。整个过程像真人操作,连键盘弹出、加载动画都等得恰到好处。场景二:微信消息批量处理
你说:“给最近3个发消息的家人各回一句‘收到,谢谢!’,再把文件传输助手发来的PDF转成文字发给我。”
→ 它自动识别聊天列表、逐个进入对话、调起键盘、输入固定话术;接着切换到文件传输助手、长按PDF、选择“提取文字”、复制结果、粘贴发送。场景三:验证码人工接管
你说:“登录支付宝,输手机号138****1234,等我输完验证码再继续。”
→ 它会自动打开支付宝、点击登录、输入号码、停在验证码输入框,弹出提示:“请手动输入验证码,完成后按回车继续”。你输完,它立刻接手下一步。
这些不是Demo视频里的剪辑效果,而是基于真实ADB控制+多模态视觉理解实现的端到端流程。它不靠预设脚本,不靠固定坐标,而是“看图说话”——每一步都基于当前屏幕内容动态决策。
2. 准备工作:三步搞定硬件与环境
不需要服务器、不刷机、不越狱。只需要一台电脑(Windows/macOS)、一部安卓手机(Android 7.0+),和10分钟耐心。
2.1 电脑端:装好ADB和Python
Python版本:建议 Python 3.10 或 3.11(太新或太旧可能报错)
验证方式:终端输入python --version,看到3.10.x或3.11.x即可ADB工具:这是连接手机的“桥梁”
- Windows:去 Android SDK Platform-Tools 下载zip包,解压到
C:\adb这类简单路径 - macOS:终端运行
curl -O https://dl.google.com/android/repository/platform-tools-latest-darwin.zip unzip platform-tools-latest-darwin.zip export PATH="$PATH:$(pwd)/platform-tools"
验证方式:终端输入
adb version,看到类似Android Debug Bridge version 34.0.5即成功- Windows:去 Android SDK Platform-Tools 下载zip包,解压到
小贴士:如果
adb devices始终不显示设备,请先跳到2.2节完成手机设置,再回来验证。
2.2 手机端:开启“被操控权限”
这步最关键,但只需一次性设置。操作路径因品牌略有差异,核心就三件事:
| 步骤 | 操作说明 | 常见位置(以主流品牌为例) |
|---|---|---|
| ① 开启开发者模式 | 在“关于手机”里连续点击“版本号”7次 | 华为/小米/OPPO:设置 → 关于手机 → 版本号 vivo:设置 → 系统管理 → 关于手机 → 版本号 |
| ② 开启USB调试 | 在“开发者选项”中打开开关 | 设置 → 更多设置 → 开发者选项 → USB调试(勾选) |
| ③ 安装ADB Keyboard | 让AI能“打字”,否则无法输入文字 | GitHub Release页面下载apk → 安装 → 设置 → 语言与输入法 → 默认输入法 → 选择“ADB Keyboard” |
注意:部分手机(如华为鸿蒙4+)需额外开启“仅充电模式下允许ADB调试”;小米还需关闭“MIUI优化”。若不确定,搜索“你的手机型号 + ADB调试开启方法”即可。
2.3 连接验证:确保电脑“认得”你的手机
用USB线连接手机和电脑后,在终端执行:
adb devices正常输出应类似:
List of devices attached ZY225XXXXX device出现一串字母数字+device,说明连接成功。
❌ 若显示unauthorized,请在手机弹出的授权窗口点“允许”;若为空白,检查USB线是否支持数据传输(有些充电线不行)。
3. 部署控制端:5行命令完成安装
所有操作都在电脑终端(Windows用CMD/PowerShell,macOS用Terminal)中进行。
3.1 克隆代码并安装依赖
# 1. 下载项目代码 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免污染全局Python) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装依赖(注意:requirements.txt已适配最新版) pip install -r requirements.txt pip install -e .验证:运行
python -c "import phone_agent; print('OK')"不报错即成功。
3.2 选择模型服务方式(新手推荐魔搭)
Open-AutoGLM本身是“大脑指挥官”,需要对接一个能理解图文的AI模型。有三种方式,新手强烈推荐第2种(ModelScope),免部署、免显卡、免API密钥申请(测试期免费):
| 方式 | 是否需要显卡 | 是否需申请Key | 上手难度 | 推荐指数 |
|---|---|---|---|---|
| ① 智谱BigModel API | ❌ 否 | 是(官网注册) | ★★☆☆☆ | ☆☆ |
| ② ModelScope(魔搭) | ❌ 否 | ❌ 否(直接调用) | ★☆☆☆☆ | |
| ③ 本地vLLM部署 | 是(需24G+显存) | ❌ 否 | ★★★★★ | ☆☆☆ |
选择魔搭方式(推荐):无需任何配置,直接使用。模型地址固定为:https://api-inference.modelscope.cn/v1
模型名称固定为:ZhipuAI/AutoGLM-Phone-9B
4. 第一次运行:从“Hello World”到真机操作
现在,我们用一条命令,让AI第一次真正操控你的手机。
4.1 获取设备ID(关键!)
仍在终端中,执行:
adb devices记下输出中device前面那一串字符,例如ZY225XXXXX——这就是你的--device-id。
4.2 发出第一条指令(务必复制粘贴,避免空格错误)
python main.py \ --device-id ZY225XXXXX \ --base-url https://api-inference.modelscope.cn/v1 \ --model ZhipuAI/AutoGLM-Phone-9B \ "打开设置,找到'电池',查看当前剩余电量"替换说明:
ZY225XXXXX→ 替换为你自己的设备ID- 全部用英文引号包裹指令,中文无问题
- 指令越具体越好,避免“帮我弄一下”这类模糊表达
你会看到终端滚动输出:[INFO] 截取屏幕...→...已上传图像→...AI正在思考→...执行 tap(320, 180)→...再次截屏验证
几秒后,手机屏幕会自动亮起、滑动、点击,最终停留在电池设置页。整个过程就像有人在替你操作。
4.3 如果失败?三个高频问题自查
| 现象 | 可能原因 | 快速解决 |
|---|---|---|
报错Connection refused | 魔搭API临时限流或网络问题 | 换条网络,或稍等1分钟重试;也可改用智谱API(需Key) |
手机没反应,终端卡在waiting for screen capture | ADB Keyboard未启用或权限被拒 | 手机设置 → 应用管理 → ADB Keyboard → 权限 → 开启“显示在其他应用上层” |
| AI乱点、点错位置 | 屏幕分辨率过高(如2K屏),模型未适配 | 在手机设置 → 显示 → 屏幕分辨率 → 临时调为“FHD+”或“HD+”,操作完再调回 |
5. 进阶技巧:让AI更懂你、更稳更准
装好了只是开始。下面这些技巧,能让你从“能用”升级到“好用”。
5.1 指令怎么写才有效?记住这三条铁律
铁律1:动词开头,目标明确
“打开微信,搜索‘张三’,发消息‘会议改到3点’”
❌ “我想联系张三,告诉他会议时间变了”(AI不理解“我”“他”指代)铁律2:避免绝对坐标,用界面元素描述
“点击右上角的‘+’号,选择‘拍摄’”
❌ “点击坐标(920, 120)”(不同手机坐标完全不同)铁律3:复杂任务分步下达
先运行:"打开淘宝,搜索‘无线耳机’"
再运行:"点击销量最高的商品,加入购物车"
❌ 试图一句完成全部(模型单次推理有步数限制)
5.2 敏感操作安全锁:防止误触支付
系统默认对以下行为强制人工确认:
- 任何含“支付”“付款”“转账”“余额”的指令
- 进入“设置→隐私”“设置→密码与安全”等页面
- 点击“删除”“卸载”“清除数据”类按钮
当触发时,终端会暂停并提示:检测到敏感操作:即将进入支付页面。请手动确认后按回车继续
你只需看一眼、按一下回车,AI才继续——安全和效率兼得。
5.3 WiFi远程控制:摆脱USB线束缚
家里WiFi稳定?可以拔掉USB线,让AI隔空操控:
# 1. 先用USB连着时执行(只做一次) adb tcpip 5555 # 2. 拔掉USB线,查看手机IP(设置→关于手机→状态→IP地址) # 3. 用WiFi连接(替换192.168.1.100为你的手机IP) adb connect 192.168.1.100:5555 # 4. 后续指令中的 --device-id 改为 IP:5555 python main.py --device-id 192.168.1.100:5555 --base-url ... "打开抖音"成功后,手机离电脑3米远也能精准响应,适合放在支架上当“数字员工”。
6. 实用案例库:抄作业,直接复用
别再苦思冥想指令怎么写。这里整理了10个高频、开箱即用的真实指令,复制粘贴就能跑:
| 场景 | 指令示例 | 适用人群 |
|---|---|---|
| 信息查询 | "打开高德地图,查‘北京南站’到‘首都机场’的最快路线" | 出差党、学生党 |
| 社交管理 | "打开微博,关注‘人民日报’,点赞其最新一条带图片的微博" | 运营新人、内容创作者 |
| 电商比价 | "依次打开淘宝、京东、拼多多,搜索‘iPhone 15 128G’,截图价格页并保存到相册" | 理性消费者、数码爱好者 |
| 健康监测 | "打开支付宝,进入‘市民中心’→‘医保电子凭证’,截图二维码" | 中老年用户家属 |
| 办公提效 | "打开WPS,新建空白文档,标题写‘周报’,正文写‘本周完成:1. XXX;2. YYY’,保存为‘20240520_周报.docx’" | 白领、行政人员 |
| 学习辅助 | "打开小猿搜题,拍照识别这张数学题(已存在相册),给出解题步骤" | 学生、家长 |
| 娱乐休闲 | "打开网易云音乐,搜索‘周杰伦’,播放其最新专辑第一首歌,调音量到60%" | 音乐爱好者 |
| 生活服务 | "打开美团,搜‘家政保洁’,筛选评分4.8以上、距离3公里内,电话联系第一家" | 家庭主妇、租房族 |
| 旅行规划 | "打开携程,搜索‘上海→杭州’5月25日高铁,按出发时间排序,截图前3班次" | 自由行玩家 |
| 设备维护 | "打开设置,进入‘应用管理’,找到‘微信’,点击‘存储’→‘清除缓存’,确认" | 手机卡顿用户 |
进阶玩法:把常用指令保存为
.sh(macOS)或.bat(Windows)脚本,双击一键执行。
7. 总结:这不是玩具,而是你下一个生产力伙伴
Open-AutoGLM 的价值,不在于它多酷炫,而在于它足够“老实”——不承诺100%成功率,但每次失败都给你明确反馈;不鼓吹取代人类,却实实在在把重复点击、跨App搬运、信息比对这些“脏活累活”接了过去。
它适合三类人立刻上手:
- 普通用户:想让父母一键查健康码、帮孩子自动打卡、自己点外卖不翻页;
- 运营/客服:批量回复消息、监控竞品App更新、生成多平台宣传图;
- 开发者:基于其ADB封装快速构建定制化自动化工具,比如“自动抢演唱会门票脚本”“App崩溃日志自动归档”。
技术永远服务于人。当你不再为点开10个App、输入5次密码、反复滑动找按钮而皱眉时,你就已经站在了AI真正落地的起点上。
现在,合上这篇文章,拿起手机,连上电脑,打出那句:“打开小红书,搜美食。”
剩下的,交给Open-AutoGLM。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。