Open-AutoGLM如何获取帮助?官方文档与社区资源汇总
Open-AutoGLM – 智谱开源的手机端AI Agent框架
AutoGLM-Phone 是一个基于视觉语言模型的 AI 手机智能助理框架。它能以多模态方式理解屏幕内容,并通过 ADB 自动操控设备。用户只需用自然语言下指令,如“打开小红书搜美食”,模型即可解析意图、理解界面并自动规划、执行操作流程,无需手动点击。
Phone Agent 是一个基于 AutoGLM 构建的手机端智能助理框架,它能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。系统通过 ADB(Android Debug Bridge)来控制设备,以视觉语言模型进行屏幕感知,再结合智能规划能力生成并执行操作流程。用户只需用自然语言描述需求,如“打开小红书搜索美食”,Phone Agent 即可自动解析意图、理解当前界面、规划下一步动作并完成整个流程。系统还内置敏感操作确认机制,并支持在登录或验证码场景下进行人工接管。同时,它提供远程 ADB 调试能力,可通过 WiFi 或网络连接设备,实现灵活的远程控制与开发。
1. 快速上手:从零开始连接你的AI手机助手
如果你已经部署好了云端服务,接下来就是在本地电脑配置控制端,让 Open-AutoGLM 真正“接管”你的手机。整个过程分为硬件准备、环境搭建、设备连接和启动代理四步,我们一步步来。
1.1 硬件与环境准备
要运行 Open-AutoGLM 的控制端,你需要准备好以下几样东西:
- 操作系统:Windows 或 macOS 均可
- Python 版本:建议使用 Python 3.10 或更高版本
- 安卓设备:Android 7.0 及以上系统的手机或模拟器
- ADB 工具:这是连接和控制安卓设备的核心工具
安装并配置 ADB
ADB(Android Debug Bridge)是调试安卓设备的标准工具。我们需要先把它安装好,并加入系统路径。
Windows 用户:
- 下载 Android SDK Platform Tools 并解压。
- 按
Win + R输入sysdm.cpl,打开“系统属性” → “高级” → “环境变量”。 - 在“系统变量”中找到
Path,点击编辑,添加你解压后的 platform-tools 文件夹路径(例如:C:\platform-tools)。 - 打开命令提示符,输入:
如果返回了 ADB 的版本号,说明配置成功。adb version
macOS 用户:
在终端中执行以下命令(假设你把 platform-tools 解压到了 Downloads 目录):
export PATH=${PATH}:~/Downloads/platform-tools你可以将这行命令写入.zshrc或.bash_profile,避免每次都要重新设置。
验证方式同样是运行adb version。
1.2 手机端设置:开启调试权限
为了让电脑能控制手机,必须开启开发者选项和 USB 调试。
- 进入手机“设置” → “关于手机” → 连续点击“版本号”7次,直到提示“您已进入开发者模式”。
- 返回设置主菜单,进入“开发者选项”,开启“USB 调试”。
- 安装ADB Keyboard输入法:
- 从 GitHub 下载 ADB Keyboard APK 并安装。
- 进入“语言与输入法”设置,将默认输入法切换为 ADB Keyboard。
为什么需要 ADB Keyboard?
因为 AI 代理在执行文本输入时(比如搜索框打字),不能依赖第三方输入法弹出软键盘干扰界面。ADB Keyboard 允许通过命令直接输入文字,不触发 UI 变化,保证操作稳定。
1.3 部署控制端代码(Open-AutoGLM)
现在回到本地电脑,下载并安装 Open-AutoGLM 的控制代码。
# 1. 克隆项目仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装依赖 pip install -r requirements.txt pip install -e .这一步会安装所有必要的 Python 包,包括用于 ADB 通信、图像处理和 API 调用的核心模块。
1.4 连接设备:USB 与 WiFi 两种方式
确保手机通过 USB 连接到电脑,或者处于同一局域网内,才能进行后续操作。
使用 USB 连接(推荐初学者)
最简单的方式就是用数据线连接。
adb devices如果输出类似:
List of devices attached ABCDEF123 device说明设备已识别,可以继续。
使用 WiFi 远程连接(适合无线调试)
如果你想摆脱数据线,可以用 ADB 的无线模式。
先用 USB 连接手机,然后在命令行运行:
adb tcpip 5555这会启动 ADB 的 TCP 服务,监听 5555 端口。
断开 USB 数据线,在命令行输入:
adb connect 192.168.x.x:5555其中
192.168.x.x是你手机的局域网 IP 地址(可在 Wi-Fi 设置中查看)。再次运行
adb devices,应该能看到设备以 IP 形式列出。
小贴士:WiFi 连接更方便,但稳定性不如 USB。遇到掉线问题时,优先尝试换回有线连接。
2. 启动 AI 代理:让手机自己动起来
一切准备就绪,现在可以正式启动 AI 代理,让它根据你的自然语言指令自动操作手机。
2.1 命令行方式快速体验
在 Open-AutoGLM 根目录下运行:
python main.py \ --device-id <你的设备ID或IP:5555> \ --base-url http://<云服务器IP>:<映射端口>/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"参数说明:
--device-id:来自adb devices输出的设备标识,如果是 WiFi 连接,则填写IP:5555。--base-url:指向你部署的 vLLM 或其他推理服务的地址,格式为http://公网IP:端口/v1。--model:指定使用的模型名称,目前默认是autoglm-phone-9b。- 最后的字符串:你要下达的自然语言指令,越清晰越好。
执行后,你会看到 AI 开始截图、分析界面、生成操作步骤,并通过 ADB 自动点击、滑动、输入文字,最终完成任务。
2.2 使用 Python API 实现远程控制
除了命令行,Open-AutoGLM 还提供了完整的 Python 接口,方便集成到自己的项目中。
from phone_agent.adb import ADBConnection, list_devices # 创建 ADB 连接管理器 conn = ADBConnection() # 连接远程设备(IP:端口) success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出当前所有连接的设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 如果是 USB 连接,可以启用 TCP/IP 模式转为无线 success, message = conn.enable_tcpip(5555) if success: ip = conn.get_device_ip() print(f"设备已切换至无线模式,IP 地址: {ip}") # 断开指定设备 conn.disconnect("192.168.1.100:5555")这个 API 非常适合做批量设备管理、远程监控、自动化测试等场景。
3. 常见问题与排查指南
即使按照步骤操作,也可能遇到一些常见问题。以下是高频故障及解决方案。
3.1 ADB 无法识别设备
现象:adb devices显示空列表或unauthorized。
解决方法:
- 检查是否开启了“USB 调试”。
- 第一次连接时,手机会弹出“允许 USB 调试吗?”的对话框,必须手动点击“允许”。
- 更换数据线或 USB 接口,有些线只支持充电。
- 重启 ADB 服务:
adb kill-server adb start-server
3.2 WiFi 连接失败或频繁断开
现象:adb connect失败,或运行中突然中断。
可能原因与对策:
- 手机休眠导致网络断开:进入“开发者选项”关闭“USB 调试(安全设置)”或设置“保持唤醒”。
- 路由器限制:某些路由器会阻止非 HTTP 流量,尝试更换网络环境。
- 端口未正确开启:确保先用 USB 执行
adb tcpip 5555成功后再断开。
3.3 模型无响应或输出乱码
现象:AI 一直卡住,或返回看不懂的文字。
检查点:
- 确认
--base-url正确指向你的推理服务(如 vLLM),且该服务正在运行。 - 检查防火墙是否放行了对应端口(如 8800)。
- 查看 vLLM 启动参数是否匹配模型要求,特别是:
若显存不足或上下文长度不够,可能导致推理失败。--max-model-len 8192 --gpu-memory-utilization 0.9 - 尝试用
curl测试接口连通性:
应返回模型信息。curl http://<your-ip>:8800/v1/models
3.4 文本输入失败或错乱
现象:搜索框没反应,或输入了奇怪字符。
原因:
- 默认输入法未切换为 ADB Keyboard。
- 某些 App 屏蔽了外部输入(如银行类 App),此时需人工介入。
建议:对于涉及隐私或金融的操作,系统应设计为暂停并提示用户手动完成。
4. 获取帮助:官方文档与社区资源汇总
当你在使用 Open-AutoGLM 过程中遇到问题,或者想深入了解其原理和扩展功能,以下几个资源是你最重要的支持渠道。
4.1 官方 GitHub 仓库
项目主页是获取最新代码、文档和更新日志的第一站:
https://github.com/zai-org/Open-AutoGLM
在这里你可以找到:
- 完整的安装指南(README)
- 示例指令集(examples/)
- API 文档(docs/)
- 已知问题列表(Issues)
- 提交 Bug 或功能请求(New Issue)
4.2 中文使用文档(Wiki & README)
虽然项目是开源的,但维护团队提供了较为详细的中文说明,覆盖了从部署到调优的全流程。
重点关注:
README_zh.md:中文快速入门指南docs/deployment.md:服务端部署详解docs/api_reference.md:Python API 使用手册examples/目录下的脚本示例
4.3 社区交流渠道
GitHub Discussions
项目启用了 GitHub Discussions 功能,适合提问使用技巧、分享经验、讨论架构设计。
访问路径:GitHub > Open-AutoGLM > Discussions
常见话题包括:
- 如何优化响应速度?
- 能否支持 iOS?
- 多设备并发控制怎么做?
技术论坛与微信群
由于该项目由智谱 AI 支持,部分深度用户聚集在 CSDN、知乎、掘金等平台的技术文章评论区,也有非官方的微信交流群。
你可以通过以下方式加入:
- 关注 CSDN 上“智谱AI”官方账号发布的教程文章,文末常附微信群二维码。
- 在知乎搜索“Open-AutoGLM 使用体验”,参与高赞回答的讨论。
- 加入 Hugging Face 中文社区,搜索相关话题。
注意:非官方群组请谨慎添加,谨防诈骗。
4.4 视频教程与实测案例
对于喜欢直观学习的用户,Bilibili 上已有多个开发者上传了 Open-AutoGLM 的实操视频。
推荐搜索关键词:
- “Open-AutoGLM 实测”
- “AutoGLM 手机自动化”
- “AI 控制手机 教程”
这些视频通常展示:
- 从零部署全过程
- 自动刷短视频、点赞、评论
- 批量处理消息通知
- 结合 OCR 和规划能力的复杂任务演示
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。