news 2026/4/16 11:57:20

手把手教你部署Open-AutoGLM,轻松打造专属手机助理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
手把手教你部署Open-AutoGLM,轻松打造专属手机助理

手把手教你部署Open-AutoGLM,轻松打造专属手机助理

1. 为什么你需要一个“会看会点”的手机AI助手

你有没有过这样的时刻:
想查个快递,却要先解锁手机、找到快递App、输入单号、等页面加载——整个过程比泡面还慢;
想给朋友发小红书笔记,得截图、打开App、粘贴文字、选图、编辑标题、反复预览……最后干脆放弃;
语音助手听懂了“打开微信”,却对“把上周会议纪要发到工作群”束手无策。

这不是你的问题,是现有交互方式的天花板。
Siri、小爱同学、Bixby这些语音助手本质是“系统级指令翻译器”,它们能调用相机、发短信、设闹钟,但一旦进入微信、抖音、美团这类第三方App,就立刻失明失手——既看不见界面,也点不了按钮。

而Open-AutoGLM不一样。它不是在“猜你想做什么”,而是真正在“看”你的屏幕、“理解”当前状态、“规划”操作路径、“执行”点击滑动。
它像一位坐在你旁边、眼睛盯着你手机、手指随时准备操作的真人助理:你说“帮我订一杯瑞幸拿铁”,它会自动打开瑞幸App、定位附近门店、选择热美式、加一份燕麦奶、确认地址、跳转支付——全程无需你碰一下屏幕。

这背后,是智谱开源的AutoGLM-Phone框架带来的范式升级:视觉语言模型(VLM)+ ADB自动化 + 自主任务规划 = 真正意义上的手机端AI Agent
它不依赖App内嵌SDK,不挑机型,不改系统,只要一部安卓手机+一台普通电脑,就能跑起来。

本文不讲论文、不堆参数,只做一件事:带你从零开始,用最短路径把Open-AutoGLM跑通,让AI第一次替你真正“用手机”
无论你是开发者、产品经理,还是单纯想尝鲜的科技爱好者,只要你会装软件、连数据线、敲几行命令,就能完成全部部署。

2. 部署前必知的三件事

2.1 它到底在哪儿运行?本地还是云端?

Open-AutoGLM采用“轻客户端+重服务端”架构,这意味着:

  • 你的电脑只负责“指挥”和“连接”:安装控制脚本、配置ADB、发送自然语言指令、接收执行结果;
  • 真正的“大脑”在云端或本地GPU服务器上:视觉理解、意图解析、动作规划、UI控件坐标预测,全部由AutoGLM-Phone模型完成;
  • 手机只是“执行终端”:不装模型、不跑大模型、不耗电量,只接受ADB指令完成点击、滑动、输入等操作。

所以你完全不需要显卡——用智谱BigModel API,免费额度就够日常测试;如果追求低延迟和隐私性,也可以自己部署vLLM服务端(后文会提)。

2.2 硬件和环境,最低配怎么搭?

组件最低要求说明
电脑Windows 10 / macOS Monterey+仅需Python环境,无GPU要求
手机Android 7.0+(真机优先)模拟器可运行但部分UI识别不准,推荐vivo、小米、华为等主流品牌
连接方式USB线(首选)或同一WiFiUSB更稳定;WiFi需开启ADB over TCP/IP,首次需USB授权
Python3.10+(强烈建议conda虚拟环境)避免包冲突,后续所有pip安装都在该环境中进行

注意:iOS设备暂不支持。ADB是Android专属调试桥,目前无官方等效方案。

2.3 安全与边界:它能做什么,不能做什么?

Open-AutoGLM设计时已内置多重安全机制:

  • 敏感操作二次确认:涉及支付、删除、权限授予等动作,会暂停并提示你手动确认;
  • 人工接管通道:验证码弹窗、登录页、异常弹窗出现时,自动停止并等待你接管;
  • 远程调试友好:支持WiFi连接,开发调试无需一直插着USB线;
  • 不越权:不会读取短信、通讯录、后台进程等隐私数据,所有操作基于屏幕截图分析;
  • 不越界:无法绕过系统级限制(如锁屏状态下无法操作、未授权App无法启动)。

它不是一个“全自动机器人”,而是一个高度可信的协作伙伴——你下指令,它执行;它卡住了,你接上;它不确定,你来拍板。

3. 四步搞定环境搭建:从ADB到键盘

3.1 安装ADB并验证连接

ADB(Android Debug Bridge)是控制安卓设备的“总开关”。没有它,AI再聪明也点不了屏幕。

Windows用户

  1. 去Android官网下载最新platform-tools压缩包;
  2. 解压到一个简单路径,例如C:\adb(避免中文和空格);
  3. 右键“此电脑”→“属性”→“高级系统设置”→“环境变量”→“系统变量”→“Path”→“新建”,填入C:\adb
  4. 打开新命令提示符,输入:
adb version

看到类似Android Debug Bridge version 1.0.41即成功。

macOS用户: 在终端中执行:

# 下载解压后,假设路径为 ~/Downloads/platform-tools export PATH="$PATH:~/Downloads/platform-tools" # 加入shell配置文件(永久生效) echo 'export PATH="$PATH:~/Downloads/platform-tools"' >> ~/.zshrc source ~/.zshrc

验证手机连接

  • 手机开启“开发者模式”(设置→关于手机→连续点击“版本号”7次);
  • 开启“USB调试”(设置→开发者选项→USB调试);
  • 用原装USB线连接电脑;
  • 命令行输入:
adb devices

若输出类似:

List of devices attached ZY322KDL9J device

说明连接成功。device状态代表已授权,若显示unauthorized,请在手机弹窗点“允许”。

3.2 安装ADB Keyboard:让AI能“打字”

普通输入法无法被ADB直接控制。ADB Keyboard是一个专为自动化设计的输入法,它能让AI通过命令发送任意文本。

  1. 下载APK:ADBKeyboard.apk(直链,右键另存为);
  2. 命令行安装(替换为你保存的路径):
adb install -r "C:\Users\YourName\Downloads\ADBKeyboard.apk"
  1. 手机设置→系统→语言与输入法→当前输入法→选择“ADB Keyboard”。

小技巧:安装后可在设置里将ADB Keyboard设为默认,避免每次切换。

3.3 克隆项目并安装依赖

打开终端(Windows用CMD/PowerShell,macOS用Terminal),确保已激活Python虚拟环境:

# 创建并激活虚拟环境(推荐) python -m venv autoglm-env autoglm-env\Scripts\activate # Windows # source autoglm-env/bin/activate # macOS # 克隆仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装核心依赖 pip install -r requirements.txt pip install -e .

-e .表示“开发模式安装”,修改代码后无需重新install即可生效,适合后续调试。

3.4 获取智谱API Key(零成本起步)

无需自建模型服务,用智谱BigModel API即可快速验证效果:

  1. 访问 bigmodel.cn,注册/登录账号;
  2. 进入“API密钥管理”,点击“创建API Key”;
  3. 复制生成的key(形如sk-xxx),妥善保存——它等同于你的密码。

新用户赠送充足免费额度(约200万tokens),足够完成数十次完整任务(如“搜美食→点外卖→查订单”全流程)。

4. 启动你的第一个AI手机助理

4.1 一行命令,让AI开始工作

回到Open-AutoGLM目录,在终端中执行:

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "sk-你的API密钥" \ "打开高德地图,搜索‘南京夫子庙’,导航到那里"

参数说明:

  • --base-url:智谱API固定地址;
  • --model:指定使用手机Agent专用模型(注意不是通用chat模型);
  • --apikey:你的密钥,必须用英文双引号包裹
  • 最后字符串:你的自然语言指令,越具体越好。

你会看到类似这样的输出:

[INFO] 截取屏幕截图... [INFO] 已上传截图至模型服务... [INFO] 模型返回动作:点击坐标 (520, 180) [INFO] 执行ADB点击:adb shell input tap 520 180 [INFO] 模型返回动作:输入文本 '南京夫子庙' [INFO] 执行ADB输入:adb shell am broadcast -a ADB_INPUT_TEXT --es msg '南京夫子庙' ... Result: 已启动高德地图并开始导航至南京夫子庙。

成功标志:手机屏幕真实发生了对应操作——App启动、文字输入、按钮点击、页面跳转。

4.2 进入交互模式:像聊天一样指挥AI

不想每次改命令?用交互模式:

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "sk-你的API密钥"

运行后会出现提示:

Enter your task:

此时你可以连续输入多条指令,例如:

Enter your task: 打开小红书 Enter your task: 搜索‘北京胡同咖啡’ Enter your task: 点击第一篇笔记,保存图片

AI会逐条理解、执行,并在终端打印每一步决策逻辑(如“识别到搜索框,坐标(320,120)”、“检测到‘保存’按钮,点击”)。

这是理解其工作原理的最佳方式:你看到的不仅是结果,更是AI的“思考过程”。

4.3 Windows编码报错?一招修复(实测有效)

部分Windows用户运行check_deployment_cn.py时会遇到:

UnicodeDecodeError: 'gbk' codec can't decode byte 0xb4 in position 80

原因:脚本默认用GBK读取中文JSON文件,但文件实际是UTF-8编码。

修复方法(只需改1行): 打开scripts/check_deployment_cn.py,找到第28行左右:

with open(args.messages_file) as f:

改为:

with open(args.messages_file, encoding='utf-8') as f:

保存后重试,问题解决。

5. 实战案例:从“点外卖”到“做攻略”,AI如何一步步完成复杂任务

我们用一个真实场景还原Open-AutoGLM的完整能力链:
任务:“帮我找一家评分4.5以上、人均100元以内、有露台的南京火锅店,并生成周末两天旅游攻略”

这不是单次点击,而是跨App、多步骤、带条件筛选的复合任务。AI如何拆解?

5.1 任务分解:AI的“思维链”长什么样?

当你输入上述指令,模型内部会生成类似这样的推理路径:

  1. 意图识别

    • 主目标:找火锅店 + 生成旅游攻略
    • 约束条件:南京、评分≥4.5、人均≤100、有露台
  2. App调度规划

    • 第一步:打开大众点评(本地生活数据最全)
    • 第二步:搜索“南京火锅”,筛选“有露台”“人均100元以下”
    • 第三步:遍历结果,点击评分≥4.5的店铺,截图详情页
    • 第四步:打开高德/百度地图,搜索该店位置,截图周边景点
    • 第五步:打开小红书,搜索“南京两日游”,收集热门路线
    • 第六步:综合信息,用自然语言生成结构化攻略
  3. UI操作执行

    • 每一步都基于实时截图,精准定位“筛选按钮”“搜索框”“店铺卡片”“收藏按钮”等控件坐标
    • 对于“露台”这种非标准标签,模型会结合图文描述(如“江景露台”“屋顶花园”)做语义匹配

5.2 效果实测:AI交出的答卷

以下是实际运行后AI生成的攻略节选(已去重优化排版):

## Day1: 南京博物馆 → 中山陵 → 音乐台 → 美龄宫 → 梧桐大道 → 夫子庙 ### 沿途推荐: - 梧桐大道:秋天梧桐叶金黄,适合骑行拍照 - 夫子庙:推荐「晚园江南火锅」——露台正对秦淮河,夜景绝美,人均98元,评分4.7 ## Day2: 回龙纪念馆 → 古鸡鸣寺 → 玄武湖 → 先锋书店 → 老门东 ### 沿途推荐: - 玄武湖:可租自行车环湖,推荐“樱洲春晓”观景台 - 老门东:必吃「秦淮八绝」,桂花糕松软不腻 ## 🏨 住宿建议 - 玄武湖地铁站旁「梧桐里民宿」:步行5分钟到湖边,露台可观景,评分4.8 ## 🍜 美食重点标注 晚园江南火锅(夫子庙店): - 特色:露台江景+九宫格锅底+手打虾滑 - 提示:周末需提前2小时排队,可线上取号

整个过程耗时约90秒(含网络延迟),手机全程自动操作,你只需看着屏幕变化。

5.3 它的强项与当前局限

场景表现说明
App内搜索与筛选对大众点评、小红书、高德等主流App UI识别准确率>92%
多步骤流程串联能完成“打开→搜索→点击→滑动→截图→切换App→再搜索”等10步内流程
图文混合理解可识别截图中的文字、图标、按钮位置,但复杂表格识别稍弱
模糊指令处理“找个好吃的”会主动追问“偏好菜系?预算?位置?”;“快点”类催促无效
实时交互响应API模式平均延迟3-5秒,本地部署vLLM可降至1秒内

关键洞察:它的价值不在“快”,而在“准”——能精准理解“露台”“江景”“九宫格”等非结构化需求,并映射到真实UI元素。

6. 进阶玩法:从能用到好用的三个关键技巧

6.1 提升成功率:写好指令的3个心法

别把AI当搜索引擎,要当“给实习生下派任务的主管”:

  • 明确主体:不说“搜美食”,说“在大众点评App里搜索‘南京露台火锅’”;
  • 限定范围:不说“找酒店”,说“在携程App筛选玄武湖地铁站500米内、评分4.7以上、有露台的民宿”;
  • 拆分复杂任务:一次指令只聚焦一个目标,如“先找火锅店,再找附近景点”,比“一站式搞定”更可靠。

6.2 降低延迟:本地部署vLLM服务端(可选)

如果你有NVIDIA GPU(≥8G显存),可自建低延迟服务:

# 启动vLLM服务(以autoglm-phone-9b为例) python -m vllm.entrypoints.api_server \ --model zhipu/autoglm-phone-9b \ --tensor-parallel-size 1 \ --max-model-len 4096 \ --port 8000

然后将main.py中的--base-url改为http://localhost:8000/v1,延迟可从秒级降至300ms内。

6.3 定制化扩展:修改提示词,让它更懂你

Open-AutoGLM的决策逻辑由系统提示词(system prompt)控制。你可以在phone_agent/agent.py中找到:

SYSTEM_PROMPT = """你是一个安卓手机AI助理,能看懂屏幕截图并执行点击、滑动、输入等操作... """

尝试添加个性化指令:

  • 加入“你服务的用户是南京本地人,熟悉夫子庙、老门东等地标”;
  • 加入“优先选择支持线上取号的餐厅,避免排队”;
  • 加入“生成攻略时,用emoji分隔章节,但不要用序号列表”。

微调提示词,比训练模型成本低得多,效果立竿见影。

7. 总结:这不是玩具,而是移动交互的下一幕

部署Open-AutoGLM的过程,远不止是“跑通一个Demo”。
当你第一次看到AI自动打开App、输入关键词、点击筛选、截图保存——那种“它真的在替我做事”的震撼,会彻底刷新你对人机关系的认知。

它证明了一件事:大模型的价值,不在于生成多少文字,而在于能否成为你身体的延伸
键盘是手的延伸,鼠标是手的延伸,而Open-AutoGLM,是眼、脑、手的三重延伸。

当然,它还有成长空间:

  • 当前依赖稳定网络,离线能力待加强;
  • 对极简UI(如纯色背景+小图标)识别偶有偏差;
  • 复杂表单填写(如身份证号、银行卡)需更多容错设计。

但这些,恰恰是接下来最值得投入的方向。
你可以基于它开发“老人手机助手”,一键帮父母挂号;
可以构建“电商运营工具”,自动巡检竞品App价格变动;
甚至做成“无障碍辅助”,为视障用户实时描述屏幕并代操作。

技术终将回归人的温度。而今天,你已经握住了那把钥匙。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 14:11:21

XUnity Auto Translator:Unity游戏本地化解决方案详解

XUnity Auto Translator:Unity游戏本地化解决方案详解 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 一、游戏本地化的现实挑战 在全球化游戏市场中,语言差异常常成为开发者拓展…

作者头像 李华
网站建设 2026/3/26 22:45:18

DeepSeek-R1-Distill-Qwen-1.5B实战教程:Gradio界面集成详细步骤

DeepSeek-R1-Distill-Qwen-1.5B实战教程:Gradio界面集成详细步骤 你是否想快速搭建一个支持数学推理、代码生成和逻辑分析的轻量级AI对话系统?本文将带你从零开始,手把手部署 DeepSeek-R1-Distill-Qwen-1.5B 模型,并通过 Gradio …

作者头像 李华
网站建设 2026/4/8 15:28:32

3D打印文件处理新方案:告别格式转换烦恼的零代码解决方案

3D打印文件处理新方案:告别格式转换烦恼的零代码解决方案 【免费下载链接】Blender3mfFormat Blender add-on to import/export 3MF files 项目地址: https://gitcode.com/gh_mirrors/bl/Blender3mfFormat 您是否曾在3D打印工作流中反复遇到格式不兼容问题&a…

作者头像 李华
网站建设 2026/3/31 22:40:02

NewBie-image-Exp0.1显存占用高?14GB优化方案实战解决

NewBie-image-Exp0.1显存占用高?14GB优化方案实战解决 1. 为什么你一跑就卡住:显存告急的真实原因 NewBie-image-Exp0.1 这个镜像,名字里带“NewBie”,但实际跑起来却一点都不新手友好——很多人刚敲下 python test.py&#xff…

作者头像 李华
网站建设 2026/4/6 20:05:10

MinerU如何精准提取复杂PDF?表格识别部署实战案例详解

MinerU如何精准提取复杂PDF?表格识别部署实战案例详解 1. 为什么传统PDF提取总让人头疼? 你有没有遇到过这样的情况:一份精心排版的学术论文PDF,打开后复制文字却乱成一团?左边是公式,右边是图表&#xf…

作者头像 李华
网站建设 2026/4/13 0:00:26

LeagueAkari英雄联盟辅助工具全攻略:从入门到精通的效率提升指南

LeagueAkari英雄联盟辅助工具全攻略:从入门到精通的效率提升指南 【免费下载链接】LeagueAkari ✨兴趣使然的,功能全面的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/LeagueAkari …

作者头像 李华