新手必看：Open-AutoGLM安装配置避坑全攻略-编程阁

新手必看：Open-AutoGLM安装配置避坑全攻略

本文专为零基础用户打造，全程避开90%新手踩过的坑——ADB环境变量配错、手机调试没开全、WiFi连接反复失败、中文输入乱码、模型调用404……所有真实痛点，一步一图（文字版）讲透。

1. 先搞懂它到底能干啥（别急着装）

你不需要理解“多模态”“视觉语言模型”这些词。
就记住一句话：你用大白话告诉它想干啥，它就能自己点手机、输文字、滑页面，像真人一样操作。

比如：

“打开小红书，搜‘北京咖啡馆’，点第一个笔记，保存图片”
“进微信，找到‘张三’，发消息‘明天会议改到下午三点’”
“打开淘宝，搜‘无线耳机’，按销量排序，把前3个商品标题抄下来”

它不是遥控器，也不是录屏回放。它是真正在“看”你的屏幕、“听”你的指令、“想”下一步怎么走，再动手执行。

所以安装前，请先确认三件事：

你有一台Android 7.0以上的真机（模拟器也行，但真机更稳）
你有一台Windows 或 macOS 电脑（Linux 用户请跳过本教程，需自行适配ADB路径）
你愿意花30分钟跟着一步步操作（不是复制粘贴就完事，每个步骤都有“为什么”）

如果上面三条都满足，咱们现在就开始——不绕弯、不炫技、不堆术语，只解决你马上会遇到的问题。

2. 环境准备：从零开始的四步通关

别被“环境配置”吓住。这一步其实就四件事：装好ADB、连上手机、配对成功、验证通路。我们按最常卡壳的顺序来。

2.1 安装ADB工具（Windows/macOS通用）

ADB不是软件，是命令行工具包。官方下载地址：https://developer.android.com/tools/releases/platform-tools
别下错！只下“Platform Tools”这个压缩包（约30MB），不是整个Android Studio。

Windows用户（重点避坑）

解压后得到一个叫platform-tools的文件夹，里面全是.exe文件
关键动作：把这个文件夹的完整路径加进系统环境变量
（例：C:\Users\YourName\Downloads\platform-tools）
怎么加？
Win + R→ 输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”里找到Path→ “编辑” → “新建” → 粘贴上面那个路径 → 确定
验证是否成功：
打开一个新的命令提示符（CMD），输入：
```
adb version
```
如果显示类似Android Debug Bridge version 1.0.41，说明成功；
如果报错'adb' 不是内部或外部命令，说明路径没加对，回去重做。

macOS用户（重点避坑）

解压后同样得到platform-tools文件夹
打开终端，输入：
```
echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc
```
（注意：如果你用的是老系统用bash，请把.zshrc换成.bash_profile）
验证：
```
adb version
```
有版本号就对了。

常见坑：
下载了带图形界面的“ADB工具箱”，结果根本没法用；
路径里有中文或空格（如C:\我的软件\adb），导致命令失效；
没重启终端/CMD，环境变量没生效。

2.2 手机端设置：三步必须全开

很多用户卡在这一步，反复重试却始终连不上。原因只有一个：三个开关没全打开。

请严格按顺序操作（以主流安卓为例，华为/小米/OPPO等设置路径略有不同，但关键词一致）：

开启开发者模式
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您已处于开发者模式”
开启USB调试
设置 → 系统和更新 → 开发者选项 → 找到“USB调试”，打开它
（有些手机还要求同时打开“USB调试（安全设置）”，也一并打开）
安装并启用ADB Keyboard（中文输入核心！）
- 下载地址：https://github.com/senzhk/ADBKeyBoard/releases
  （找最新版ADBKeyboard_v1.0_all.apk，直接下载安装）
- 安装后，进入手机设置 → 语言与输入法 → 当前输入法 → 选择“ADB Keyboard”
- 必须手动切换一次：长按任意输入框 → “选择输入法” → 点“ADB Keyboard”

常见坑：
只开了USB调试，没开“USB调试（安全设置）”，连接时提示“授权失败”；
没装ADB Keyboard，后面输入中文直接乱码或失败；
手机连电脑后弹出“允许USB调试吗？”窗口，点了“拒绝”或勾选了“不再询问”，导致永远连不上——解决办法：在开发者选项里“撤销USB调试授权”，再重新连。

2.3 连接手机：USB优先，WiFi备用

USB直连（推荐新手首选）

用原装数据线连接手机和电脑
手机弹窗点“允许”
电脑CMD/终端输入：
```
adb devices
```
正常输出应为：
```
List of devices attached 1234567890abcdef device
```
有device字样，说明连通。
❌ 显示unauthorized，说明手机没点“允许”；
❌ 显示空列表，说明驱动没装好（华为/小米用户请去官网装对应手机助手）。

WiFi无线连接（适合不想插线的用户）

注意：必须先用USB连一次，才能开启WiFi模式

USB连好后，在CMD/终端输入：
```
adb tcpip 5555
```
（看到restarting in TCP mode port: 5555即成功）
断开USB线，确保手机和电脑在同一WiFi下
查看手机IP：设置 → WLAN → 点当前网络 → IP地址（通常是192.168.x.x）
电脑输入：
```
adb connect 192.168.x.x:5555
```
成功会显示connected to 192.168.x.x:5555

常见坑：
WiFi连接后adb devices显示offline：重启手机ADB服务，输入adb kill-server && adb start-server；
连上WiFi但无法控制：检查路由器是否开启了“AP隔离”，关掉即可；
电脑连公司WiFi，手机连手机热点：必须同网段，否则不通。

2.4 验证控制能力：三行命令测通路

连上只是第一步，还要确认你能真正操控手机。运行以下三行命令（每行回车后等几秒看反馈）：

adb shell input keyevent KEYCODE_HOME # 回到桌面 adb shell input text "test" # 输入英文（测试ADB Keyboard） adb shell screencap -p /sdcard/test.png # 截图（生成在手机相册）

第一行：手机应立刻回到桌面；
第二行：任意可输入界面（如微信聊天框）应出现test；
第三行：打开手机相册，能看到一张叫test.png的截图。

全部成功，说明ADB控制链路100%打通。
❌ 任一失败，请回头检查2.1–2.3步，不要往下走。

3. 部署Open-AutoGLM控制端：三分钟搞定

这一步最简单，但最容易因网络/权限问题失败。我们用最稳妥的方式。

3.1 克隆代码 & 安装依赖

打开CMD/终端，依次执行（复制一行，回车，等它跑完再下一行）：

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .

常见坑：
报错Could not find a version that satisfies...：升级pip，python -m pip install --upgrade pip；
报错Permission denied（macOS）：在命令前加sudo，即sudo pip install ...；
卡在Building wheel for ...：耐心等2–5分钟，这是编译过程，不是卡死。

3.2 获取设备ID（不是序列号！）

别去手机设置里找“设备序列号”。正确做法是：

adb devices

输出示例：

List of devices attached emulator-5554 device 1234567890abcdef device

你要记下的就是那一串字母数字组合（如1234567890abcdef），不是emulator-5554这种模拟器ID。
把它复制下来，后面要用。

3.3 启动AI代理：一条命令跑起来

重要前提：你已经有一个运行中的AutoGLM-Phone模型服务（云服务或本地vLLM）。
如果你还没部署模型服务，请先访问 CSDN星图镜像广场搜索“AutoGLM-Phone”，一键拉起预置服务。

假设你的模型服务地址是http://192.168.1.100:8800/v1（这是常见内网部署地址），设备ID是1234567890abcdef，那么运行：

python main.py \ --device-id 1234567890abcdef \ --base-url http://192.168.1.100:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！"

你会看到类似这样的实时输出：

[Step 1] Capturing screenshot... [Step 1] Current app: System Home [Step 1] Sending to model... <think>当前在桌面，需要启动抖音</think> <answer>do(action="Launch", app="抖音")</answer> [Step 1] Executing: Launch app '抖音'

看到Executing开头的日志，说明AI已开始操控手机。
❌ 如果卡在Sending to model...超过30秒，检查：

--base-url地址能否在浏览器打开（如http://192.168.1.100:8800/v1）；
服务器防火墙是否放行了8800端口；
模型服务是否真的在运行（curl http://192.168.1.100:8800/health应返回{"status":"ok"}）。

4. 实战避坑指南：95%用户都问过的5个问题

4.1 问题：中文输入全是乱码或不显示？

原因：ADB Keyboard没启用，或没切换成功。
解法：

手机设置 → 语言与输入法 → 确认“ADB Keyboard”已启用；
在任意输入框长按 → “选择输入法” → 手动选一次“ADB Keyboard”；
重启ADB服务：adb kill-server && adb start-server；
再试adb shell input text "你好"，应正常显示。

4.2 问题：WiFi连接后，`adb devices`显示`unauthorized`？

原因：手机USB调试授权是按设备ID绑定的，WiFi连接用了新ID。
解法：

手机设置 → 开发者选项 → “撤销USB调试授权”；
重新执行adb connect 192.168.x.x:5555；
手机弹窗点“允许”。

4.3 问题：执行到支付页面，屏幕变黑，然后卡住？

原因：安卓系统禁止敏感页面截图，AI收到黑屏后触发人工接管机制。
解法：

看到日志出现Takeover required: Please complete payment manually；
手动完成支付/验证码；
按回车键继续（默认接管回调是阻塞式等待）。

4.4 问题：点击位置明显偏移，点不到目标按钮？

原因：坐标归一化依赖准确的屏幕分辨率，而某些定制ROM会报告错误尺寸。
解法：

运行adb shell wm size，查看输出（如Physical size: 1080x2400）；
对比手机实际分辨率（设置 → 显示 → 屏幕分辨率），若不一致：
- 临时修复：adb shell wm size 1080x2400（替换成真实值）；
- 永久修复：换用原生安卓或Pixel手机。

4.5 问题：模型返回`404 Not Found`或`Connection refused`？

原因：--base-url地址格式错误。
正确写法：

http://192.168.1.100:8800/v1（末尾必须有/v1）
http://localhost:8000/v1（本地部署）
❌http://192.168.1.100:8800（缺/v1）
❌https://xxx.ngrok.io（Open-AutoGLM目前不支持HTTPS前端，需反向代理转HTTP）

5. 进阶技巧：让AI更听话的3个实用方法

5.1 指令越具体，成功率越高

❌ 差：“帮我订外卖”
好：“打开美团，搜‘海底捞’，选‘国贸店’，点‘双人套餐’，加一份酸梅汤，下单支付”

理由：AI没有常识，它只按字面执行。给它明确App名、关键词、操作动词（点/选/加/下单），成功率翻倍。

5.2 加入“容错指令”，避免死循环

在指令末尾加一句：

“如果3次点击都没反应，就按返回键，再试一次”

AI会把它当作规则写进思考链，自动加入重试逻辑，而不是卡在原地。

5.3 用Python API实现批量任务

不用每次敲命令，写个脚本自动跑：

from phone_agent.agent import PhoneAgent from phone_agent.model.client import ModelConfig from phone_agent.config import AgentConfig model_config = ModelConfig( base_url="http://192.168.1.100:8800/v1", model_name="autoglm-phone-9b" ) agent_config = AgentConfig( max_steps=50, device_id="1234567890abcdef" ) agent = PhoneAgent(model_config, agent_config) tasks = [ "打开小红书，搜‘深圳租房’，保存前5个笔记封面", "进微信，群‘技术讨论’，发消息‘今日分享：Open-AutoGLM教程’", "打开淘宝，搜‘机械键盘’，按价格从低到高，记录第1个商品标题和价格" ] for i, task in enumerate(tasks, 1): print(f"\n--- 任务 {i} 开始 ---") result = agent.run(task) print(f"结果：{result}")

保存为batch_run.py，运行python batch_run.py即可。

6. 总结：你已掌握的核心能力

回顾一下，你现在能独立完成：

在Windows/macOS上正确安装并验证ADB
让任意安卓手机通过USB/WiFi稳定接入电脑
成功部署Open-AutoGLM控制端并连接云端模型
用自然语言指令驱动手机完成多步操作
排查并解决中文输入、黑屏接管、坐标偏移等高频问题
编写Python脚本实现批量自动化任务

这不是一个玩具项目，而是真正可用的生产力工具。它背后是视觉理解、动作规划、设备控制、安全约束四大能力的融合。你不需要懂原理，但你已经拿到了钥匙。

下一步，你可以：
🔹 尝试更复杂的指令，比如跨App协作（微信发链接→浏览器打开→截图→保存）；
🔹 把它集成进你的工作流，比如每天自动抓取竞品App的首页文案；
🔹 甚至基于它的模块，开发自己的垂直场景Agent（电商导购、教育陪练、金融助手）。

技术不难，难的是迈出第一步。恭喜你，这一步，你已经稳稳踏出去了。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

新手必看：Open-AutoGLM安装配置避坑全攻略