Open-AutoGLM入门指南：新手最容易忽略的3个设置项-编程阁

Open-AutoGLM入门指南：新手最容易忽略的3个设置项

你是不是也试过刚部署完Open-AutoGLM，兴冲冲输入“打开微信发条朋友圈”，结果AI卡在首页不动、屏幕没反应、甚至报一堆看不懂的错误？别急——这大概率不是模型不行，而是有3个看似微小、实则决定成败的关键设置，被90%的新手直接跳过了。

Open-AutoGLM是智谱开源的轻量级手机端AI Agent框架，专为在真实安卓设备上运行多模态智能体而设计。它不像传统大模型只“说”，而是真能“看”（理解屏幕截图）、“想”（规划操作路径）、“做”（通过ADB点击/滑动/输入）。但再聪明的AI，也得靠正确配置才能睁开眼、伸出手、听懂话。

今天这篇指南不讲原理、不堆参数，只聚焦一个目标：让你第一次运行就成功执行指令。我会带你绕过文档里藏得最深的坑，直击那3个新手几乎必踩、官方教程却一笔带过的设置项——它们不难，但漏掉任何一个，你的AI助理就永远停在“准备就绪”的幻觉里。

1. ADB Keyboard不是可选项，而是强制前置条件

很多新手看到“安装ADB Keyboard”这一步，心想：“我手机自带输入法，点点屏幕就能输字，装它干啥？”——这是最危险的误解。

Phone Agent执行“输入文字”类指令（比如搜索、登录、发消息）时，不会调用手机默认输入法。它依赖ADB Keyboard这个特殊APK，通过ADB命令直接向系统输入框注入字符。如果没装或没启用，AI会卡在“需要输入但无法触发键盘”的死循环里，界面毫无反应，日志里连一条输入相关的记录都没有。

1.1 正确安装与启用流程（三步缺一不可）

下载安装：从Open-AutoGLM官方Release页下载最新版adb-keyboard.apk，用电脑拖进手机安装（或用adb install adb-keyboard.apk命令安装）。
启用输入法：进入手机「设置 → 语言与输入法 → 虚拟键盘」，找到“ADB Keyboard”，勾选启用。
设为默认：在同一页面，点击「默认键盘」，将“ADB Keyboard”设为当前默认输入法。

注意：部分国产手机（如华为、小米）有“输入法安全限制”，需额外开启「允许ADB调试修改输入法」权限。具体路径通常是：设置 → 安全 → 更多安全设置 → ADB调试权限管理 → 允许修改输入法。

1.2 验证是否生效（10秒自测法）

不用跑完整流程，用这条命令快速验证：

adb shell input text "test123"

如果手机当前焦点在可编辑区域（如浏览器地址栏、微信聊天框），屏幕上应立刻出现test123。
如果没反应、弹出“无法使用输入法”提示，或显示乱码——说明ADB Keyboard未正确启用，必须回头检查第2步。

这一步看似简单，却是整个自动化链条的“最后一公里”。跳过它，AI再懂意图，也敲不出一个字。

2. 设备连接模式必须匹配指令类型：USB vs WiFi不是二选一，而是场景绑定

文档里常写“支持USB和WiFi连接”，新手就以为随便选一个就行。但实际中，不同操作对连接稳定性要求天差地别：

USB连接：延迟低（<50ms）、带宽高、供电稳定，适合高频交互类指令（如连续点击、滑动浏览、快速输入）。
WiFi连接：方便远程，但延迟波动大（200ms~2s）、偶发丢包，适合单次长任务类指令（如“下载并安装某APP”“截取10张屏幕”）。

而新手常犯的错是：用WiFi连接跑“打开小红书→搜索美食→点第一个笔记→点赞”，结果AI在第二步就因网络抖动丢失屏幕状态，后续所有动作全部错位。

2.1 如何选择？看你的第一条指令

指令特征	推荐连接方式	原因
含多个连续动作（≥3步）、需实时响应（如滑动、长按）	USB直连	避免因WiFi延迟导致动作错序或重复
单次目标明确、耗时较长（如下载、渲染）	WiFi连接	免去线缆束缚，适合后台运行
首次调试、不确定流程是否稳定	强制USB	所有异常都能即时捕获，日志清晰

2.2 WiFi连接的隐藏门槛：必须先USB初始化

很多人尝试adb connect 192.168.x.x:5555失败，报错unable to connect。根本原因：Android设备默认禁止WiFi ADB，必须先用USB连接执行一次初始化。

正确流程：

# 1. USB线连接手机（确保adb devices能看到设备） adb devices # 确认输出类似：XXXXXX device # 2. 开启设备TCP/IP服务（关键！） adb tcpip 5555 # 3. 拔掉USB线，连接同一WiFi，再执行 adb connect 192.168.x.x:5555

小技巧：执行完adb tcpip 5555后，手机会短暂断开USB连接。此时不要慌，它已切换到网络监听模式，等待WiFi连接。

漏掉第2步，WiFi连接永远是“看起来连上了，实际发不了命令”。

3. 云端模型URL里的端口映射，必须与vLLM服务端完全一致

这是最隐蔽的“玄学错误”：本地控制端明明填了--base-url http://192.168.1.100:8800/v1，但运行时却报错Connection refused或404 Not Found。查防火墙、查IP、查服务进程都没问题……最后发现，是云服务器上的vLLM服务，实际监听的是8080端口，而你映射到外网的是8800。

Open-AutoGLM的--base-url指向的是外部可访问的API入口，不是vLLM服务的原始端口。很多新手直接把vLLM启动命令里的--port 8080照搬过来，却忘了中间还有一层端口映射（如Nginx反代、Docker端口映射、云服务器安全组端口转发）。

3.1 三步确认法：确保URL零误差

查vLLM真实监听端口
登录云服务器，运行：

ps aux | grep vllm # 查看输出中 --port 后的数字，例如：--port 8080

查端口映射规则
- Docker用户：检查docker run -p 8800:8080 ...，说明外网8800映射到容器内8080
- Nginx用户：检查/etc/nginx/conf.d/vllm.conf中proxy_pass http://127.0.0.1:8080;
- 云服务器（阿里云/腾讯云）：登录控制台 → 安全组 → 入方向规则，确认开放的是哪个端口
填入正确的base-url
--base-url中的端口号，必须是你对外暴露的那个端口（即步骤2中开放的端口），不是vLLM内部监听端口。
正确示例：vLLM监听8080，Docker映射8800:8080→ URL填http://your-ip:8800/v1
❌ 错误示例：vLLM监听8080，但你填http://your-ip:8080/v1（外网8080未开放，必然拒绝）

3.2 快速自检：用curl代替Python验证

在本地电脑终端直接测试API连通性，比跑Python脚本更快定位问题：

# 替换为你的实际URL curl -X POST "http://192.168.1.100:8800/v1/chat/completions" \ -H "Content-Type: application/json" \ -d '{ "model": "autoglm-phone-9b", "messages": [{"role": "user", "content": "你好"}] }'

如果返回JSON格式的回复 → API通，问题在客户端逻辑
如果返回curl: (7) Failed to connect→ 网络或端口问题
如果返回404→ URL路径错误（确认是/v1/chat/completions，不是/chat/completions）

这一步不解决，AI永远收不到你的指令，自然不会有任何动作。

4. 一次成功的完整运行：从零到执行的最小闭环

现在，把前面3个关键设置串起来，走一遍真正能跑通的最小流程。我们以最典型的指令为例：“打开抖音，搜索用户dycwo11nt61d，并关注他”。

4.1 前置检查清单（5分钟搞定）

项目	检查方式	通过标准
ADB Keyboard	`adb shell input text "OK"`	手机屏幕出现“OK”
设备连接	`adb devices`	输出含`device`状态，无`unauthorized`
网络连通	`ping 192.168.1.100`（云服务器IP）	丢包率0%，延迟<10ms
API可用	`curl -I http://192.168.1.100:8800/v1`	返回HTTP 200或405（非404/拒绝）

4.2 执行命令（USB连接示例）

python main.py \ --device-id 1234567890ABCDEF \ # adb devices输出的ID --base-url http://192.168.1.100:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音，搜索用户dycwo11nt61d，并关注他"

4.3 你将看到什么（预期行为）

控制台实时打印：[INFO] 截取屏幕 → [INFO] 识别UI元素 → [INFO] 规划动作：点击抖音图标...
手机屏幕自动亮起 → 启动抖音 → 点击搜索框 → 输入“dycwo11nt61d” → 点击搜索结果 → 滑动找到关注按钮 → 点击关注
全程无需人工干预，约20~40秒完成（取决于网络和手机性能）

如果卡在某一步，优先检查对应设置：卡在“输入”→查ADB Keyboard；卡在“找不到抖音图标”→查USB连接稳定性；卡在“无响应”→查base-url端口。

5. 进阶提醒：让AI更可靠的小技巧

这3个设置是“能跑通”的底线，但要让Phone Agent真正好用，还有几个经验之谈：

敏感操作必须人工确认：首次运行“支付”“删除”类指令时，AI会暂停并弹出确认框。这是安全机制，不要关闭它。可在代码中配置--confirm-sensitive true/false调整策略。
截图分辨率影响识别精度：默认截图是手机原生分辨率。若手机是2K屏（如三星S23），建议在main.py中添加参数--screenshot-scale 0.5，降采样后识别更稳。
指令描述越具体，成功率越高：避免说“帮我订机票”，改用“打开携程APP，搜索今天北京到上海的航班，选第一班，填写乘客张三，提交订单”。AI依赖精确的UI元素定位，模糊指令易失败。

这些技巧不是必须的，但能帮你从“偶尔能用”升级到“基本可靠”。