news 2026/4/16 15:50:51

新手必学:Open-AutoGLM五步快速上手法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
新手必学:Open-AutoGLM五步快速上手法

新手必学:Open-AutoGLM五步快速上手法

1. 引言:让手机拥有“贾维斯”般的智能助手

随着多模态大模型的发展,AI 正从“对话工具”向“自主执行者”演进。Open-AutoGLM是由智谱AI开源的手机端 AI Agent 框架,基于 AutoGLM-Phone 构建,能够通过自然语言指令驱动真实安卓设备完成复杂操作。

你只需说一句:“打开小红书搜索美食”,系统就能自动解析意图、理解当前屏幕内容、规划点击路径,并通过 ADB 实际操控手机完成任务。整个过程无需手动干预,真正实现“动口不动手”。

本教程面向零基础用户,以清晰、可落地的方式拆解 Open-AutoGLM 的部署与使用流程,涵盖环境配置、模型启动、设备连接和实战运行五大核心步骤,帮助你快速打造属于自己的 AI 手机助理。


2. 第一步:准备开发环境与硬件

2.1 硬件要求

要顺利运行 Open-AutoGLM,需具备以下基本硬件:

  • 本地电脑:Windows 或 macOS 系统,建议内存 ≥16GB(若使用本地模型)
  • 安卓手机或模拟器:Android 7.0 及以上版本
  • USB 数据线:支持数据传输(非仅充电线)
  • 网络环境:稳定 WiFi,用于远程调试或云服务通信

提示:虽然可在 CPU 上运行,但推荐配备 NVIDIA 显卡(显存 ≥12GB)以获得流畅体验。

2.2 软件依赖安装

安装 Python 3.10+

确保已安装 Python 3.10 或更高版本:

python --version

如未安装,请前往 python.org 下载并勾选 “Add to PATH”。

配置 ADB 工具

ADB(Android Debug Bridge)是控制安卓设备的核心工具。

  1. 下载 platform-tools
  2. 解压后添加到系统环境变量PATH
    • Windows:此电脑 → 属性 → 高级系统设置 → 环境变量 → Path → 新建
    • macOS:在终端执行:
      export PATH=$PATH:~/Downloads/platform-tools
  3. 验证安装:
    adb version

输出类似Android Debug Bridge version X.X.X表示成功。


3. 第二步:配置手机端权限与输入法

3.1 开启开发者选项与 USB 调试

  1. 进入手机“设置” → “关于手机”
  2. 连续点击“版本号”7次,直到提示“您已进入开发者模式”
  3. 返回设置主界面 → “开发者选项” → 启用“USB 调试”

连接手机至电脑时,会弹出授权提示,请务必点击“允许”。

3.2 安装 ADB Keyboard 输入法

由于 AI 需要输入中文文本,必须安装专用输入法ADB Keyboard

  1. 下载 ADBKeyboard.apk(GitHub 开源项目)
  2. 使用命令行安装:
    adb install ADBKeyboard.apk
  3. 在手机中启用该输入法:
    • 设置 → 语言与输入法 → 虚拟键盘 → 管理键盘 → 启用 ADB Keyboard
  4. 将其设为默认输入法

注意:若无法切换输入法,尝试重启手机后再设置。


4. 第三步:部署控制端代码与依赖

4.1 克隆 Open-AutoGLM 项目

在本地电脑执行以下命令获取控制端代码:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

4.2 安装 Python 依赖

项目依赖较多,包括 ADB 控制库、vLLM 推理框架等。

pip install -r requirements.txt pip install -e .

建议使用虚拟环境(如 conda 或 venv),避免依赖冲突。


5. 第四步:连接设备并验证通信

5.1 USB 连接方式(推荐初学者)

  1. 使用 USB 线连接手机与电脑
  2. 手机端确认“允许 USB 调试”
  3. 在终端运行:
    adb devices
    输出应包含设备 ID 和device状态,例如:
    List of devices attached 1234567890abc device

5.2 WiFi 远程连接(进阶用法)

适用于无线调试场景:

# 先通过 USB 启动 TCP/IP 模式 adb tcpip 5555 # 断开 USB,使用 IP 连接 adb connect 192.168.x.x:5555

可通过adb shell ifconfig wlan0获取手机 IP 地址。


6. 第五步:启动模型服务并运行 AI 助理

6.1 下载并启动 AutoGLM-Phone-9B 模型

AutoGLM 使用一个约 18GB 的多模态视觉语言模型来理解屏幕截图和用户指令。

方法一:Hugging Face 下载(国际用户)
git lfs install git clone https://huggingface.co/zai-org/AutoGLM-Phone-9B
方法二:ModelScope 镜像(国内用户推荐)
git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git
启动 vLLM 模型服务

创建脚本start_model.sh(Linux/macOS)或.bat文件(Windows):

python -m vllm.entrypoints.openai.api_server \ --model ./AutoGLM-Phone-9B \ --port 8000 \ --served-model-name autoglm-phone-9b \ --max-model-len 25480 \ --allowed-local-media-path / \ --limit-mm-per-prompt '{"image":10}'

运行后看到Uvicorn running on http://0.0.0.0:8000即表示服务启动成功。


6.2 执行第一条自然语言指令

Open-AutoGLM根目录下运行:

python main.py \ --device-id 1234567890abc \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开设置"

参数说明:

  • --device-id:来自adb devices的设备标识
  • --base-url:模型服务地址(本地为http://localhost:8000/v1
  • 最后字符串为你的自然语言指令

如果一切正常,你会看到如下输出:

💭 思考过程: 当前位于桌面,需要找到“设置”应用图标 🎯 执行动作: {"action": "Launch", "app": "设置"}

同时手机将自动打开“设置”应用。


7. 实战案例:让 AI 帮你点外卖、刷抖音

7.1 点餐任务:美团搜索附近川菜馆

python main.py \ --device-id <your-device-id> \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开美团,搜索附近评分最高的川菜馆"

AI 将依次执行:

  1. 打开美团 App
  2. 截图分析首页布局
  3. 点击“美食”分类
  4. 搜索“川菜”
  5. 按评分排序并展示结果

7.2 社交任务:关注指定抖音账号

python main.py \ --device-id <your-device-id> \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号 dycwo11nt61d 的博主并关注他"

系统将自动完成搜索框定位、文字输入、列表查找、点击关注等全流程操作。


8. 安全机制与人工接管设计

8.1 敏感操作确认机制

为防止误操作造成损失,Open-AutoGLM 内置了敏感行为拦截机制。当检测到以下操作时,会暂停执行并请求人工确认:

  • 支付行为(如微信付款、支付宝下单)
  • 删除数据(卸载应用、删除聊天记录)
  • 输入密码或验证码
  • 修改系统设置(恢复出厂设置、关闭安全锁)

你可以自定义确认回调函数,在 Python API 中实现交互式决策:

def confirm_action(message): print(f"\n⚠️ 危险操作提醒: {message}") return input("继续执行?(y/n): ").lower() == 'y' agent = PhoneAgent( model_config=model_config, confirmation_callback=confirm_action )

9. 常见问题排查指南

问题现象可能原因解决方案
adb devices无设备显示USB调试未开启或驱动异常重新开启开发者选项,更换数据线
模型启动失败显存不足或 CUDA 未安装尝试降低max-model-len,或使用 CPU 模式
中文无法输入ADB Keyboard 未启用检查是否设为默认输入法
AI 识别错误屏幕分辨率过高或 UI 复杂缩放界面或简化操作路径
连接频繁断开WiFi 不稳定改用 USB 连接

特别提醒:首次运行建议从简单任务开始(如“打开微信”),逐步熟悉 AI 的行为逻辑。


10. 总结

通过本文介绍的五个关键步骤——环境准备、手机配置、代码部署、设备连接、模型调用——你已经掌握了 Open-AutoGLM 的完整入门流程。

这个开源框架不仅展示了多模态 AI 在真实设备上的强大能力,也为自动化测试、无障碍辅助、数字员工等领域提供了极具潜力的技术原型。

未来,随着模型精度提升和生态扩展,我们有望看到更多基于 AutoGLM 的个性化应用场景涌现。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 13:56:56

YOLOv8部署总报错?独立引擎零依赖解决方案实战指南

YOLOv8部署总报错&#xff1f;独立引擎零依赖解决方案实战指南 1. 引言&#xff1a;为何YOLOv8部署常遇问题&#xff1f; 在工业级目标检测应用中&#xff0c;YOLOv8 凭借其卓越的推理速度与高精度表现&#xff0c;已成为众多开发者的首选模型。然而&#xff0c;在实际部署过程…

作者头像 李华
网站建设 2026/4/16 13:54:09

Qwen3-4B-Instruct部署案例:教育课件自动生成平台

Qwen3-4B-Instruct部署案例&#xff1a;教育课件自动生成平台 1. 引言 1.1 业务场景描述 在现代教育技术快速发展的背景下&#xff0c;教师面临日益增长的课程内容设计压力。传统课件制作过程耗时耗力&#xff0c;尤其在跨学科融合、个性化教学和互动性设计方面存在明显瓶颈…

作者头像 李华
网站建设 2026/4/13 12:04:28

2025年大模型趋势入门必看:GPT-OSS+弹性GPU部署实战

2025年大模型趋势入门必看&#xff1a;GPT-OSS弹性GPU部署实战 1. 引言&#xff1a;开源大模型与弹性推理的融合趋势 随着大模型技术进入规模化落地阶段&#xff0c;开源可定制化模型与高效推理架构的结合成为2025年AI工程实践的核心方向。OpenAI最新推出的 GPT-OSS 系列模型…

作者头像 李华
网站建设 2026/4/13 9:49:22

手把手教你用YOLOv9官方镜像做目标检测项目

手把手教你用YOLOv9官方镜像做目标检测项目 1. 引言 1.1 学习目标 本文旨在为深度学习开发者、计算机视觉工程师以及AI初学者提供一份完整可执行的YOLOv9目标检测实战指南。通过使用“YOLOv9 官方版训练与推理镜像”&#xff0c;你将掌握从环境启动到模型训练、推理和结果分…

作者头像 李华
网站建设 2026/4/16 14:46:26

FST ITN-ZH林业行业案例:林木数据标准化处理

FST ITN-ZH林业行业案例&#xff1a;林木数据标准化处理 1. 引言 在林业信息化管理过程中&#xff0c;大量野外调查、资源统计和监测报告中包含非结构化的中文文本数据。这些数据常以自然语言形式表达数量、时间、单位等信息&#xff0c;例如“树高约二十五米”、“胸径一百二…

作者头像 李华
网站建设 2026/4/16 14:44:44

FSMN VAD内存优化:4GB低配服务器稳定运行实测指南

FSMN VAD内存优化&#xff1a;4GB低配服务器稳定运行实测指南 1. 背景与挑战 随着语音识别、会议转录、电话质检等应用的普及&#xff0c;语音活动检测&#xff08;Voice Activity Detection, VAD&#xff09;作为前端预处理的关键环节&#xff0c;其重要性日益凸显。阿里达摩…

作者头像 李华