手把手教你部署Open-AutoGLM,轻松打造专属手机助理
1. 为什么你需要一个“会看会点”的手机AI助手
你有没有过这样的时刻:
想查个快递,却要先解锁手机、找到快递App、输入单号、等页面加载——整个过程比泡面还慢;
想给朋友发小红书笔记,得截图、打开App、粘贴文字、选图、编辑标题、反复预览……最后干脆放弃;
语音助手听懂了“打开微信”,却对“把上周会议纪要发到工作群”束手无策。
这不是你的问题,是现有交互方式的天花板。
Siri、小爱同学、Bixby这些语音助手本质是“系统级指令翻译器”,它们能调用相机、发短信、设闹钟,但一旦进入微信、抖音、美团这类第三方App,就立刻失明失手——既看不见界面,也点不了按钮。
而Open-AutoGLM不一样。它不是在“猜你想做什么”,而是真正在“看”你的屏幕、“理解”当前状态、“规划”操作路径、“执行”点击滑动。
它像一位坐在你旁边、眼睛盯着你手机、手指随时准备操作的真人助理:你说“帮我订一杯瑞幸拿铁”,它会自动打开瑞幸App、定位附近门店、选择热美式、加一份燕麦奶、确认地址、跳转支付——全程无需你碰一下屏幕。
这背后,是智谱开源的AutoGLM-Phone框架带来的范式升级:视觉语言模型(VLM)+ ADB自动化 + 自主任务规划 = 真正意义上的手机端AI Agent。
它不依赖App内嵌SDK,不挑机型,不改系统,只要一部安卓手机+一台普通电脑,就能跑起来。
本文不讲论文、不堆参数,只做一件事:带你从零开始,用最短路径把Open-AutoGLM跑通,让AI第一次替你真正“用手机”。
无论你是开发者、产品经理,还是单纯想尝鲜的科技爱好者,只要你会装软件、连数据线、敲几行命令,就能完成全部部署。
2. 部署前必知的三件事
2.1 它到底在哪儿运行?本地还是云端?
Open-AutoGLM采用“轻客户端+重服务端”架构,这意味着:
- 你的电脑只负责“指挥”和“连接”:安装控制脚本、配置ADB、发送自然语言指令、接收执行结果;
- 真正的“大脑”在云端或本地GPU服务器上:视觉理解、意图解析、动作规划、UI控件坐标预测,全部由AutoGLM-Phone模型完成;
- 手机只是“执行终端”:不装模型、不跑大模型、不耗电量,只接受ADB指令完成点击、滑动、输入等操作。
所以你完全不需要显卡——用智谱BigModel API,免费额度就够日常测试;如果追求低延迟和隐私性,也可以自己部署vLLM服务端(后文会提)。
2.2 硬件和环境,最低配怎么搭?
| 组件 | 最低要求 | 说明 |
|---|---|---|
| 电脑 | Windows 10 / macOS Monterey+ | 仅需Python环境,无GPU要求 |
| 手机 | Android 7.0+(真机优先) | 模拟器可运行但部分UI识别不准,推荐vivo、小米、华为等主流品牌 |
| 连接方式 | USB线(首选)或同一WiFi | USB更稳定;WiFi需开启ADB over TCP/IP,首次需USB授权 |
| Python | 3.10+(强烈建议conda虚拟环境) | 避免包冲突,后续所有pip安装都在该环境中进行 |
注意:iOS设备暂不支持。ADB是Android专属调试桥,目前无官方等效方案。
2.3 安全与边界:它能做什么,不能做什么?
Open-AutoGLM设计时已内置多重安全机制:
- 敏感操作二次确认:涉及支付、删除、权限授予等动作,会暂停并提示你手动确认;
- 人工接管通道:验证码弹窗、登录页、异常弹窗出现时,自动停止并等待你接管;
- 远程调试友好:支持WiFi连接,开发调试无需一直插着USB线;
- ❌不越权:不会读取短信、通讯录、后台进程等隐私数据,所有操作基于屏幕截图分析;
- ❌不越界:无法绕过系统级限制(如锁屏状态下无法操作、未授权App无法启动)。
它不是一个“全自动机器人”,而是一个高度可信的协作伙伴——你下指令,它执行;它卡住了,你接上;它不确定,你来拍板。
3. 四步搞定环境搭建:从ADB到键盘
3.1 安装ADB并验证连接
ADB(Android Debug Bridge)是控制安卓设备的“总开关”。没有它,AI再聪明也点不了屏幕。
Windows用户:
- 去Android官网下载最新platform-tools压缩包;
- 解压到一个简单路径,例如
C:\adb(避免中文和空格); - 右键“此电脑”→“属性”→“高级系统设置”→“环境变量”→“系统变量”→“Path”→“新建”,填入
C:\adb; - 打开新命令提示符,输入:
adb version看到类似Android Debug Bridge version 1.0.41即成功。
macOS用户: 在终端中执行:
# 下载解压后,假设路径为 ~/Downloads/platform-tools export PATH="$PATH:~/Downloads/platform-tools" # 加入shell配置文件(永久生效) echo 'export PATH="$PATH:~/Downloads/platform-tools"' >> ~/.zshrc source ~/.zshrc验证手机连接:
- 手机开启“开发者模式”(设置→关于手机→连续点击“版本号”7次);
- 开启“USB调试”(设置→开发者选项→USB调试);
- 用原装USB线连接电脑;
- 命令行输入:
adb devices若输出类似:
List of devices attached ZY322KDL9J device说明连接成功。device状态代表已授权,若显示unauthorized,请在手机弹窗点“允许”。
3.2 安装ADB Keyboard:让AI能“打字”
普通输入法无法被ADB直接控制。ADB Keyboard是一个专为自动化设计的输入法,它能让AI通过命令发送任意文本。
- 下载APK:ADBKeyboard.apk(直链,右键另存为);
- 命令行安装(替换为你保存的路径):
adb install -r "C:\Users\YourName\Downloads\ADBKeyboard.apk"- 手机设置→系统→语言与输入法→当前输入法→选择“ADB Keyboard”。
小技巧:安装后可在设置里将ADB Keyboard设为默认,避免每次切换。
3.3 克隆项目并安装依赖
打开终端(Windows用CMD/PowerShell,macOS用Terminal),确保已激活Python虚拟环境:
# 创建并激活虚拟环境(推荐) python -m venv autoglm-env autoglm-env\Scripts\activate # Windows # source autoglm-env/bin/activate # macOS # 克隆仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装核心依赖 pip install -r requirements.txt pip install -e .-e .表示“开发模式安装”,修改代码后无需重新install即可生效,适合后续调试。
3.4 获取智谱API Key(零成本起步)
无需自建模型服务,用智谱BigModel API即可快速验证效果:
- 访问 bigmodel.cn,注册/登录账号;
- 进入“API密钥管理”,点击“创建API Key”;
- 复制生成的key(形如
sk-xxx),妥善保存——它等同于你的密码。
新用户赠送充足免费额度(约200万tokens),足够完成数十次完整任务(如“搜美食→点外卖→查订单”全流程)。
4. 启动你的第一个AI手机助理
4.1 一行命令,让AI开始工作
回到Open-AutoGLM目录,在终端中执行:
python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "sk-你的API密钥" \ "打开高德地图,搜索‘南京夫子庙’,导航到那里"参数说明:
--base-url:智谱API固定地址;--model:指定使用手机Agent专用模型(注意不是通用chat模型);--apikey:你的密钥,必须用英文双引号包裹;- 最后字符串:你的自然语言指令,越具体越好。
你会看到类似这样的输出:
[INFO] 截取屏幕截图... [INFO] 已上传截图至模型服务... [INFO] 模型返回动作:点击坐标 (520, 180) [INFO] 执行ADB点击:adb shell input tap 520 180 [INFO] 模型返回动作:输入文本 '南京夫子庙' [INFO] 执行ADB输入:adb shell am broadcast -a ADB_INPUT_TEXT --es msg '南京夫子庙' ... Result: 已启动高德地图并开始导航至南京夫子庙。成功标志:手机屏幕真实发生了对应操作——App启动、文字输入、按钮点击、页面跳转。
4.2 进入交互模式:像聊天一样指挥AI
不想每次改命令?用交互模式:
python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "sk-你的API密钥"运行后会出现提示:
Enter your task:此时你可以连续输入多条指令,例如:
Enter your task: 打开小红书 Enter your task: 搜索‘北京胡同咖啡’ Enter your task: 点击第一篇笔记,保存图片AI会逐条理解、执行,并在终端打印每一步决策逻辑(如“识别到搜索框,坐标(320,120)”、“检测到‘保存’按钮,点击”)。
这是理解其工作原理的最佳方式:你看到的不仅是结果,更是AI的“思考过程”。
4.3 Windows编码报错?一招修复(实测有效)
部分Windows用户运行check_deployment_cn.py时会遇到:
UnicodeDecodeError: 'gbk' codec can't decode byte 0xb4 in position 80原因:脚本默认用GBK读取中文JSON文件,但文件实际是UTF-8编码。
修复方法(只需改1行): 打开scripts/check_deployment_cn.py,找到第28行左右:
with open(args.messages_file) as f:改为:
with open(args.messages_file, encoding='utf-8') as f:保存后重试,问题解决。
5. 实战案例:从“点外卖”到“做攻略”,AI如何一步步完成复杂任务
我们用一个真实场景还原Open-AutoGLM的完整能力链:
任务:“帮我找一家评分4.5以上、人均100元以内、有露台的南京火锅店,并生成周末两天旅游攻略”
这不是单次点击,而是跨App、多步骤、带条件筛选的复合任务。AI如何拆解?
5.1 任务分解:AI的“思维链”长什么样?
当你输入上述指令,模型内部会生成类似这样的推理路径:
意图识别:
- 主目标:找火锅店 + 生成旅游攻略
- 约束条件:南京、评分≥4.5、人均≤100、有露台
App调度规划:
- 第一步:打开大众点评(本地生活数据最全)
- 第二步:搜索“南京火锅”,筛选“有露台”“人均100元以下”
- 第三步:遍历结果,点击评分≥4.5的店铺,截图详情页
- 第四步:打开高德/百度地图,搜索该店位置,截图周边景点
- 第五步:打开小红书,搜索“南京两日游”,收集热门路线
- 第六步:综合信息,用自然语言生成结构化攻略
UI操作执行:
- 每一步都基于实时截图,精准定位“筛选按钮”“搜索框”“店铺卡片”“收藏按钮”等控件坐标
- 对于“露台”这种非标准标签,模型会结合图文描述(如“江景露台”“屋顶花园”)做语义匹配
5.2 效果实测:AI交出的答卷
以下是实际运行后AI生成的攻略节选(已去重优化排版):
## Day1: 南京博物馆 → 中山陵 → 音乐台 → 美龄宫 → 梧桐大道 → 夫子庙 ### 沿途推荐: - 梧桐大道:秋天梧桐叶金黄,适合骑行拍照 - 夫子庙:推荐「晚园江南火锅」——露台正对秦淮河,夜景绝美,人均98元,评分4.7 ## Day2: 回龙纪念馆 → 古鸡鸣寺 → 玄武湖 → 先锋书店 → 老门东 ### 沿途推荐: - 玄武湖:可租自行车环湖,推荐“樱洲春晓”观景台 - 老门东:必吃「秦淮八绝」,桂花糕松软不腻 ## 🏨 住宿建议 - 玄武湖地铁站旁「梧桐里民宿」:步行5分钟到湖边,露台可观景,评分4.8 ## 🍜 美食重点标注 晚园江南火锅(夫子庙店): - 特色:露台江景+九宫格锅底+手打虾滑 - 提示:周末需提前2小时排队,可线上取号整个过程耗时约90秒(含网络延迟),手机全程自动操作,你只需看着屏幕变化。
5.3 它的强项与当前局限
| 场景 | 表现 | 说明 |
|---|---|---|
| App内搜索与筛选 | 对大众点评、小红书、高德等主流App UI识别准确率>92% | |
| 多步骤流程串联 | 能完成“打开→搜索→点击→滑动→截图→切换App→再搜索”等10步内流程 | |
| 图文混合理解 | 可识别截图中的文字、图标、按钮位置,但复杂表格识别稍弱 | |
| 模糊指令处理 | “找个好吃的”会主动追问“偏好菜系?预算?位置?”;“快点”类催促无效 | |
| 实时交互响应 | API模式平均延迟3-5秒,本地部署vLLM可降至1秒内 |
关键洞察:它的价值不在“快”,而在“准”——能精准理解“露台”“江景”“九宫格”等非结构化需求,并映射到真实UI元素。
6. 进阶玩法:从能用到好用的三个关键技巧
6.1 提升成功率:写好指令的3个心法
别把AI当搜索引擎,要当“给实习生下派任务的主管”:
- 明确主体:不说“搜美食”,说“在大众点评App里搜索‘南京露台火锅’”;
- 限定范围:不说“找酒店”,说“在携程App筛选玄武湖地铁站500米内、评分4.7以上、有露台的民宿”;
- 拆分复杂任务:一次指令只聚焦一个目标,如“先找火锅店,再找附近景点”,比“一站式搞定”更可靠。
6.2 降低延迟:本地部署vLLM服务端(可选)
如果你有NVIDIA GPU(≥8G显存),可自建低延迟服务:
# 启动vLLM服务(以autoglm-phone-9b为例) python -m vllm.entrypoints.api_server \ --model zhipu/autoglm-phone-9b \ --tensor-parallel-size 1 \ --max-model-len 4096 \ --port 8000然后将main.py中的--base-url改为http://localhost:8000/v1,延迟可从秒级降至300ms内。
6.3 定制化扩展:修改提示词,让它更懂你
Open-AutoGLM的决策逻辑由系统提示词(system prompt)控制。你可以在phone_agent/agent.py中找到:
SYSTEM_PROMPT = """你是一个安卓手机AI助理,能看懂屏幕截图并执行点击、滑动、输入等操作... """尝试添加个性化指令:
- 加入“你服务的用户是南京本地人,熟悉夫子庙、老门东等地标”;
- 加入“优先选择支持线上取号的餐厅,避免排队”;
- 加入“生成攻略时,用emoji分隔章节,但不要用序号列表”。
微调提示词,比训练模型成本低得多,效果立竿见影。
7. 总结:这不是玩具,而是移动交互的下一幕
部署Open-AutoGLM的过程,远不止是“跑通一个Demo”。
当你第一次看到AI自动打开App、输入关键词、点击筛选、截图保存——那种“它真的在替我做事”的震撼,会彻底刷新你对人机关系的认知。
它证明了一件事:大模型的价值,不在于生成多少文字,而在于能否成为你身体的延伸。
键盘是手的延伸,鼠标是手的延伸,而Open-AutoGLM,是眼、脑、手的三重延伸。
当然,它还有成长空间:
- 当前依赖稳定网络,离线能力待加强;
- 对极简UI(如纯色背景+小图标)识别偶有偏差;
- 复杂表单填写(如身份证号、银行卡)需更多容错设计。
但这些,恰恰是接下来最值得投入的方向。
你可以基于它开发“老人手机助手”,一键帮父母挂号;
可以构建“电商运营工具”,自动巡检竞品App价格变动;
甚至做成“无障碍辅助”,为视障用户实时描述屏幕并代操作。
技术终将回归人的温度。而今天,你已经握住了那把钥匙。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。