手把手教你部署Open-AutoGLM,轻松打造私人手机助手
1. 这不是科幻,是今天就能用上的手机AI助理
你有没有想过,让AI替你点外卖、刷短视频、填表单、批量关注博主?不是靠写脚本,而是像对朋友说话一样,直接说:“打开小红书搜‘健身食谱’,把前五篇收藏”,然后它就真的做了。
Open-AutoGLM 就是这样一套真实可用的系统。它不是概念演示,也不是云端黑盒——它是一个开源、可私有化部署、真正能“看见”手机屏幕并“动手”操作的 AI Agent 框架。背后没有魔法,只有清晰的多模态理解 + 精准的动作规划 + 稳定的 ADB 控制链路。
这篇文章不讲大道理,不堆术语,只带你从零开始,在本地电脑上连上自己的安卓手机,跑通第一个自然语言指令。全程不需要云服务器、不依赖网络API、不碰复杂配置。只要一台能装Python的电脑、一部安卓真机、一根数据线,20分钟内,你就能亲眼看到AI替你点开APP、输入文字、点击按钮。
我们不预设你懂ADB、没接触过vLLM、甚至没写过一行Python。每一步都告诉你为什么这么做,哪里容易卡住,以及卡住了怎么快速解。
准备好了吗?我们这就开始。
2. 先搞懂它到底在做什么(一句话说清)
Open-AutoGLM 的核心能力,可以用一个闭环来概括:
你看得见的界面 → 它看得懂的图像 → 它想得到的步骤 → 它动得了的手指
具体来说:
- 看:它通过截图获取当前手机屏幕画面,用视觉语言模型(VLM)理解界面上有什么——比如“顶部是搜索框,中间是‘小红书’图标,右下角是‘我’的Tab”;
- 想:结合你输入的自然语言指令(如“登录微信并发送‘收到’给张三”),推理出要完成任务需要哪几步:先点微信图标 → 等待加载 → 找到张三聊天窗口 → 点击输入框 → 输入文字 → 点击发送;
- 做:调用 ADB 命令,精准模拟人类操作:
adb shell input tap x y(点击)、adb shell input text "收到"(输入)、adb shell input keyevent 66(回车); - 控:所有操作都在你掌控中——敏感动作(如支付、删除)会暂停并弹窗确认;遇到验证码或登录页,自动切回人工接管。
它不是万能的,但足够聪明:能处理绝大多数主流APP的常规操作,且越用越准。而这一切,都运行在你自己的设备上。
3. 本地部署四步走:环境、手机、代码、运行
我们跳过云服务、跳过GPU租用,专注最轻量、最可控的本地部署路径。整个流程分为四个明确阶段,每个阶段都有检查点,确保你随时知道卡在哪、怎么解。
3.1 第一步:配好你的控制端(本地电脑)
这是整个系统的“大脑”,负责发号施令。它不跑模型,只做调度和通信。
3.1.1 硬件与基础软件
- 操作系统:Windows 10/11 或 macOS Monterey 及以上(不推荐Linux桌面版,ADB权限易出问题);
- Python:必须是3.10.x(实测 3.10.12 最稳),不要用 3.11+ 或 3.9-,否则
requirements.txt中某些包会安装失败; - ADB 工具:Android SDK Platform-Tools,官方下载页(选对应系统zip包);
- 验证是否就绪:
python --version # 应输出 Python 3.10.x adb version # 应输出 Android Debug Bridge version 1.0.41 或更高
3.1.2 ADB 环境变量配置(关键!)
- Windows:
- 解压下载的
platform-tools.zip到一个固定路径,例如C:\adb; Win + R→ 输入sysdm.cpl→ “高级” → “环境变量”;- 在“系统变量”中找到
Path,点击“编辑” → “新建” → 粘贴C:\adb; - 重启命令行,再执行
adb version,有输出即成功。
- 解压下载的
- macOS: 在终端中执行(将路径替换为你实际解压位置):
再执行echo 'export PATH=$PATH:/Users/yourname/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrcadb version验证。
注意:很多卡顿源于此步。如果
adb devices始终无响应,请先确认这一步是否100%完成。
3.2 第二步:调通你的安卓手机(真机优先,别用模拟器)
模拟器兼容性差,手势识别不准,强烈建议用真机。Android 7.0+ 即可,但推荐 Android 10+(系统更稳定,开发者选项更全)。
3.2.1 手机端三步设置(缺一不可)
- 开启开发者模式:
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”; - 开启USB调试:
返回设置 → 系统 → 开发者选项 → 打开“USB调试”;
部分华为/小米需额外打开“USB调试(安全设置)”; - 安装并启用 ADB Keyboard:
- 下载 ADBKeyboard.apk 并安装(允许“未知来源应用”);
- 设置 → 语言和输入法 → 默认输入法 → 选择ADB Keyboard;
- 这是最关键的一步:没有它,AI无法向任何输入框打字。
3.2.2 连接与授权(一次搞定,终身受益)
- 用原装USB数据线连接手机与电脑;
- 手机弹出“允许USB调试吗?”对话框 →勾选“始终允许” → 点击“确定”;
- 电脑端执行:
adb devices - 正常输出应为:
如果显示List of devices attached ABC123456789 deviceunauthorized,说明授权失败,请重新插拔USB线,并在手机上再次确认授权。
检查点:
adb devices输出device,且手机状态栏出现“USB调试已连接”提示。
3.3 第三步:拉取并安装 Open-AutoGLM 控制端
这一步只是下载代码、装依赖,不涉及模型下载(模型会在首次运行时按需拉取,节省本地空间)。
3.3.1 克隆代码与安装
打开命令行(Windows用CMD/PowerShell,macOS用Terminal),依次执行:
# 创建项目目录 mkdir ~/autoglm && cd ~/autoglm # 克隆仓库(注意:是 zai-org,不是 ZhipuAI) git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM # 创建虚拟环境(隔离依赖,避免冲突) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows3.3.2 安装依赖(带清华源加速)
pip install --upgrade pip pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/ pip install -e .-e .表示“开发模式安装”,让系统能直接调用phone_agent模块;- 如果某条
pip install报错,大概率是网络问题,重试即可;极少数情况需手动升级setuptools:pip install --upgrade setuptools。
检查点:命令行无红色报错,最后一行显示
Successfully installed ...。
3.4 第四步:运行第一个指令(见证奇迹的时刻)
现在,一切就绪。我们用一条最简单的指令测试:让AI打开计算器并输入“1+1”。
3.4.1 基础命令行运行
确保你仍在Open-AutoGLM目录下,且虚拟环境已激活(命令行前缀有(venv)),执行:
python main.py \ --device-id $(adb devices | grep -o '^[^[:space:]]*') \ --base-url http://localhost:8000/v1 \ "打开计算器,输入1加1等于"--device-id:自动获取当前连接的设备ID(Windows用户请将$(...)替换为实际ID,如ABC123456789);--base-url:这里先指向本地localhost:8000,因为我们暂不启动云端模型服务——Open-AutoGLM 自带一个轻量级本地推理模拟器,专为快速验证设计;- 最后字符串:就是你下达的自然语言指令。
3.4.2 首次运行会发生什么?
- 终端会打印日志:
Loading model...→Taking screenshot...→Understanding UI...→Planning action...→Executing: tap (x,y); - 手机屏幕会实时响应:自动解锁(若已设置锁屏密码,需提前关闭)、打开计算器APP、点击数字键和运算符;
- 整个过程约10-20秒,取决于手机性能。
成功标志:手机计算器屏幕上清晰显示
1+1=,终端日志末尾出现Task completed successfully.。
如果失败,请对照以下高频问题自查:
| 现象 | 可能原因 | 快速解决 |
|---|---|---|
No device found | ADB未连接或ID错误 | 重新执行adb devices,复制正确ID填入--device-id |
Connection refused | 本地模拟服务未启动 | 先运行python -m phone_agent.local_server,再运行main.py |
| 手机无反应 | ADB Keyboard未启用 | 回手机设置,确认默认输入法是 ADB Keyboard |
| 指令被忽略 | 指令太模糊 | 改用更明确的指令,如“打开系统自带计算器APP” |
4. 超实用技巧:让AI更懂你、更听话
部署通了只是起点。下面这些技巧,能让你的私人手机助手真正好用起来。
4.1 指令怎么写才有效?(小白也能掌握的提示词心法)
Open-AutoGLM 不是通用大模型,它是为“手机操作”专项优化的Agent。指令越贴近真实操作逻辑,成功率越高。
好指令(明确、具体、有上下文):
“打开微信,进入‘技术交流群’,发送‘今天的部署很顺利!’,然后退出聊天窗口。”
解析:APP名+页面名+动作+内容+收尾,形成完整闭环。❌差指令(模糊、抽象、无目标):
“帮我沟通一下。”
问题:没说APP、没说对象、没说内容,AI无法规划。进阶技巧:
加时间限定:“立刻”、“马上”会让AI跳过等待动画;
加容错描述:“如果找不到‘技术交流群’,就搜索群名再进入”;
加接管提示:“遇到登录页或验证码,暂停并通知我”。
4.2 用Python API写自己的自动化脚本
不想每次敲命令?把它变成你自己的工具函数:
# save_as auto_helper.py from phone_agent.main import run_task def open_xiaohongshu_search(keyword): """一键打开小红书搜索指定关键词""" return run_task( device_id="ABC123456789", base_url="http://localhost:8000/v1", instruction=f"打开小红书APP,点击搜索框,输入'{keyword}',点击搜索" ) # 使用 result = open_xiaohongshu_search("AI手机助手") print("执行结果:", result)- 把这段代码保存为
auto_helper.py,放在Open-AutoGLM同级目录; - 运行
python auto_helper.py,就能复用这个功能; - 后续可扩展为:批量关注博主、定时刷抖音、自动回复消息等。
4.3 远程控制:摆脱USB线,用WiFi操控手机
USB线虽稳,但不方便。WiFi ADB 是更优雅的方案:
# 1. 先用USB连接,开启TCP/IP模式 adb tcpip 5555 # 2. 断开USB,连接手机WiFi IP(在手机「设置→关于手机→状态」里查看IP) adb connect 192.168.1.100:5555 # 3. 验证 adb devices # 应显示 192.168.1.100:5555 device # 4. 运行指令时,直接用IP代替设备ID python main.py \ --device-id 192.168.1.100:5555 \ --base-url http://localhost:8000/v1 \ "打开B站,搜索‘Open-AutoGLM’"注意:手机和电脑必须在同一WiFi网络下;部分企业WiFi会禁用ADB端口,家用路由器通常无问题。
5. 常见问题快查手册(省去翻文档时间)
我们把部署过程中90%的报错,浓缩成一张表。遇到问题,先看这里。
| 错误信息 / 现象 | 根本原因 | 三步解决法 |
|---|---|---|
adb: command not found | ADB未加入环境变量 | ①确认ADB解压路径 ②按3.1.2节重配Path ③重启命令行 |
device unauthorized | 手机未授权USB调试 | ①拔掉USB线 ②手机设置里关闭“USB调试”再打开 ③重连并勾选“始终允许” |
ModuleNotFoundError: No module named 'phone_agent' | 未安装项目包或环境未激活 | ①确认在Open-AutoGLM目录下 ②执行source venv/bin/activate(macOS)或venv\Scripts\activate(Win) ③执行pip install -e . |
Connection refused(连接本地服务失败) | 本地模拟服务器未启动 | ①新开一个命令行窗口 ②进入Open-AutoGLM目录 ③运行python -m phone_agent.local_server |
| 手机打开APP后无后续操作 | ADB Keyboard未启用 | ①手机设置→语言和输入法 ②确认“默认输入法”是 ADB Keyboard ③返回桌面再试 |
| 指令执行一半卡住 | 界面加载慢或元素未出现 | ①在指令末尾加“等待页面加载完成” ②改用更稳定的APP(如系统计算器而非第三方) ③重启手机再试 |
6. 总结:你已经拥有了一个可成长的私人AI助理
回顾整个过程,你完成了:
- 在本地电脑上配齐了ADB与Python环境;
- 让自己的安卓真机成功接入并获得完全控制权;
- 下载、安装并运行了Open-AutoGLM控制端;
- 用一句自然语言,驱动AI完成了真实的手机操作;
- 掌握了写高效指令、写自动化脚本、用WiFi远程控制的核心技能。
这不是终点,而是起点。接下来,你可以:
- 把它集成进你的工作流:每天早上自动抓取新闻摘要、下班前汇总钉钉未读消息;
- 为家人定制简易版:语音说“给妈妈打电话”,AI自动拨号;
- 深入探索源码:
phone_agent/planner/是动作规划核心,phone_agent/vision/是屏幕理解模块,它们都开放给你。
Open-AutoGLM 的价值,不在于它多强大,而在于它足够简单、足够透明、足够属于你。它把前沿的AI能力,从论文和Demo里解放出来,变成你桌面上一个可触摸、可调试、可信赖的工具。
现在,关掉这篇教程,拿起手机,连上电脑,输入你的第一条指令吧。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。