news 2026/4/16 13:05:09

零基础也能懂!Open-AutoGLM手机AI代理保姆级教程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
零基础也能懂!Open-AutoGLM手机AI代理保姆级教程

零基础也能懂!Open-AutoGLM手机AI代理保姆级教程

1. 核心摘要

什么是 Open-AutoGLM?
Open-AutoGLM 是智谱 AI 开源的手机端 AI Agent 框架,基于视觉语言模型(VLM)构建,能够通过自然语言指令自动操作安卓设备。用户只需说“打开小红书搜美食”,系统即可理解屏幕内容、规划路径并执行点击、滑动、输入等动作。

它能做什么?
支持在微信、抖音、美团、淘宝等主流 App 中完成复杂任务,如点外卖、发消息、搜索关注、比价购物等。整个过程无需手动干预,实现“观察→思考→执行”的智能闭环。

核心技术原理

  • 多模态感知:利用视觉语言模型解析手机截图,理解当前界面元素。
  • 意图与规划:将自然语言指令转化为可执行的操作序列。
  • ADB 控制:通过 Android Debug Bridge 发送模拟操作命令。
  • 安全机制:敏感操作(如支付)需人工确认,支持验证码场景接管。

适合谁使用?
完全零基础的新手也能部署!本教程涵盖从环境配置到实战运行的完整流程,每一步都配有详细说明和避坑指南,助你快速上手。


2. 准备工作:软硬件清单与环境搭建

2.1 硬件要求

设备推荐配置说明
电脑Windows / macOS,16GB+ 内存用于运行模型和控制端
手机Android 7.0+ 实体机或模拟器被控设备,需开启开发者模式
存储空间至少 50GB 可用空间模型文件约 18GB,项目代码及缓存额外占用

提示:建议使用 NVIDIA 显卡(显存 ≥12GB)以获得流畅推理体验;若无 GPU,也可使用 CPU 运行,但响应速度较慢。

2.2 软件依赖安装

Python 安装(3.10+)

确保已安装 Python 3.10 或更高版本:

python --version
  • Windows 用户:前往 python.org 下载安装包,勾选Add to PATH
  • macOS 用户:推荐使用 Homebrew:
    brew install python@3.10
ADB 工具配置

ADB(Android Debug Bridge)是连接电脑与手机的核心工具。

下载 platform-tools

  • 访问 Android 开发者官网
  • 解压至本地目录(如C:\adb~/Downloads/platform-tools

添加环境变量

  • Windows

    1. Win + R→ 输入sysdm.cpl
    2. “高级” → “环境变量”
    3. 在“系统变量”中找到Path,点击“编辑” → “新建” → 添加 ADB 路径
    4. 重启终端验证:
      adb version
  • macOS/Linux: 将以下命令写入 shell 配置文件(.zshrc.bashrc):

    export PATH=$PATH:~/Downloads/platform-tools

    执行source ~/.zshrc生效。


3. 手机端设置:启用调试与输入法

3.1 开启开发者选项与 USB 调试

  1. 打开手机“设置” → “关于手机”
  2. 连续点击“版本号”7 次,直到提示“您已进入开发者模式”
  3. 返回设置主界面 → “开发者选项” → 启用“USB 调试”

注意:部分品牌(如小米、华为)还需额外开启“OEM 解锁”或“USB 安装”。

3.2 安装 ADB Keyboard(关键步骤)

ADB Keyboard 是一个特殊输入法,允许 AI 自动输入中文字符。

安装步骤

  1. 下载 ADBKeyboard.apk(GitHub 开源项目)
  2. 使用 ADB 命令安装:
    adb install ADBKeyboard.apk
  3. 进入手机“设置” → “语言与输入法” → “默认键盘” → 切换为ADB Keyboard

验证是否生效:尝试在任意输入框中打字,若可通过adb shell input text "hello"成功输入,则配置成功。


4. 部署控制端:Open-AutoGLM 项目配置

4.1 克隆项目并安装依赖

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖 pip install -r requirements.txt pip install -e .

建议使用虚拟环境

python -m venv venv source venv/bin/activate # Linux/macOS # 或 venv\Scripts\activate # Windows

4.2 连接设备方式

USB 连接(推荐初学者)
  1. 使用数据线连接手机与电脑
  2. 手机弹出“允许 USB 调试?”时点击“允许”
  3. 验证连接状态:
    adb devices
    输出示例如下表示连接成功:
    List of devices attached 1234567890abc device
WiFi 远程连接(进阶用法)

适用于无线远程控制:

# 第一次需通过 USB 连接启动 TCP/IP 模式 adb tcpip 5555 # 断开 USB,通过 IP 连接 adb connect 192.168.x.x:5555

获取手机 IP 地址:设置 → WLAN → 当前网络详情页查看 IP。


5. 启动模型服务:本地部署 AutoGLM-Phone-9B

5.1 下载多模态模型

AutoGLM 使用AutoGLM-Phone-9B多模态大模型,支持图像与文本联合理解。

国内用户推荐 ModelScope 镜像下载(速度快)

git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git

国际用户可用 Hugging Face

git lfs install git clone https://huggingface.co/zai-org/AutoGLM-Phone-9B

模型大小约 18GB,请确保磁盘空间充足。

5.2 安装推理引擎 vLLM

vLLM 提供高性能、低延迟的模型服务支持:

pip install vllm

验证 CUDA 是否可用(NVIDIA 显卡用户):

nvidia-smi

5.3 启动 API 服务

创建启动脚本start_model.sh(Linux/macOS):

#!/bin/bash python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model ./AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 25480 \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs '{"max_pixels":5000000}' \ --limit-mm-per-prompt '{"image":10}' \ --chat-template-content-format string

Windows 用户可使用批处理文件start_model.bat

python -m vllm.entrypoints.openai.api_server --served-model-name autoglm-phone-9b --model .\AutoGLM-Phone-9B --port 8000

运行后看到如下日志即表示服务启动成功:

Uvicorn running on http://0.0.0.0:8000

6. 运行 AI 代理:执行第一个任务

6.1 命令行调用示例

Open-AutoGLM根目录下运行:

python main.py \ --device-id <你的设备ID> \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开设置"

参数说明:

  • --device-id:来自adb devices的设备标识
  • --base-url:模型服务地址(本地为http://localhost:8000/v1
  • 最后字符串:自然语言指令

预期输出

💭 思考过程: 当前在桌面,需要打开设置应用 🎯 执行动作: {"action": "Launch", "app": "设置"}

此时手机应自动打开“设置”App。

6.2 更多实用指令示例

# 示例1:打开抖音并搜索指定账号 python main.py --device-id YOUR_DEVICE_ID --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开抖音搜索抖音号为 dycwo11nt61d 的博主并关注他" # 示例2:美团订餐 python main.py --device-id YOUR_DEVICE_ID --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开美团,搜索附近评分最高的川菜馆" # 示例3:查看支持的应用列表 python main.py --list-apps

7. 高级功能:Python API 与定制化配置

7.1 使用 Python API 编程调用

对于开发者,可通过 API 实现更灵活的任务编排:

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置模型连接 model_config = ModelConfig( base_url="http://localhost:8000/v1", model_name="autoglm-phone-9b" ) # 创建代理实例 agent = PhoneAgent(model_config=model_config, device_id="YOUR_DEVICE_ID") # 执行任务 result = agent.run("打开小红书搜索北京美食攻略") print(f"任务结果: {result}")

7.2 敏感操作确认机制

为防止误操作,系统对支付、删除等行为会暂停并请求确认:

def custom_confirm(message): print(f"\n⚠️ 即将执行敏感操作: {message}") return input("继续吗?(y/n): ").lower() == 'y' agent = PhoneAgent( model_config=model_config, confirmation_callback=custom_confirm ) agent.run("打开美团订一份外卖")

运行时将出现交互提示:

⚠️ 即将执行敏感操作: 即将支付 28.5 元订单 继续吗?(y/n):

7.3 自定义系统提示词(Prompt Engineering)

修改phone_agent/config/prompts.py中的SYSTEM_PROMPT,增强特定领域能力:

SYSTEM_PROMPT = """ 你是一个专业的电商助手,擅长在淘宝、京东、拼多多中帮用户挑选高性价比商品。 注意事项: 1. 优先选择销量高、评价好(≥4.8分)的商品 2. 注意是否有优惠券可领取 3. 不推荐价格异常偏低的商品 """

8. 常见问题排查与解决方案

问题现象可能原因解决方案
adb devices无设备显示USB 调试未开启或驱动异常重新开启 USB 调试,更换数据线或接口
模型无法启动显存不足或路径错误使用--device cpu强制 CPU 推理,检查模型路径
中文无法输入ADB Keyboard 未启用检查输入法设置,重启手机后重试
屏幕识别失败截图权限被拒或屏幕熄灭保持屏幕常亮,授予无障碍权限(如有提示)
连接频繁断开WiFi 不稳定改用 USB 连接,或优化路由器信号

重要提示:首次运行建议从简单任务开始(如“打开微信”),逐步测试复杂流程。


9. 应用场景与扩展潜力

9.1 支持的主要应用类型

类别支持 App典型任务
社交微信、QQ、微博发消息、点赞朋友圈
视频抖音、快手、B站搜索视频、关注作者
购物淘宝、京东、拼多多搜索商品、下单支付
生活服务美团、饿了么、滴滴点外卖、叫车、订酒店

9.2 批量自动化脚本示例

结合 Python 实现定时批量操作:

import time def batch_like_friends(): agent = PhoneAgent(model_config=model_config) friends = ["张三", "李四", "王五"] for name in friends: agent.run(f"打开微信,进入{name}的朋友圈,点赞最新一条动态") time.sleep(3) # 避免操作过快被限制 batch_like_friends()

10. 总结

通过本教程,你已经掌握了 Open-AutoGLM 的完整部署与使用流程:

  • ✅ 完成了 Python、ADB、开发者模式等基础环境配置
  • ✅ 成功部署了 AutoGLM-Phone-9B 多模态模型服务
  • ✅ 实现了自然语言驱动的手机自动化操作
  • ✅ 掌握了 Python API 调用与安全确认机制
  • ✅ 了解了常见问题的排查方法与优化技巧

Open-AutoGLM 作为开源 AI Agent 框架,正持续迭代中。未来有望支持更多 App、更低资源消耗以及图形化界面,进一步降低使用门槛。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 21:20:06

终极围棋AI训练指南:从新手到高手的智能进阶之路

终极围棋AI训练指南&#xff1a;从新手到高手的智能进阶之路 【免费下载链接】katrain Improve your Baduk skills by training with KataGo! 项目地址: https://gitcode.com/gh_mirrors/ka/katrain 你是否曾在围棋对弈中感到迷茫&#xff1f;面对复杂局面无从下手&…

作者头像 李华
网站建设 2026/4/16 15:04:26

3B超轻量AI!Granite-4.0-H-Micro全功能解析

3B超轻量AI&#xff01;Granite-4.0-H-Micro全功能解析 【免费下载链接】granite-4.0-h-micro-unsloth-bnb-4bit 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/granite-4.0-h-micro-unsloth-bnb-4bit 导语 IBM推出仅30亿参数的轻量级大语言模型Granite-4.0-H…

作者头像 李华
网站建设 2026/4/16 3:40:33

BilibiliSponsorBlock完整指南:5分钟实现B站纯净观看体验

BilibiliSponsorBlock完整指南&#xff1a;5分钟实现B站纯净观看体验 【免费下载链接】BilibiliSponsorBlock 一款跳过B站视频中恰饭片段的浏览器插件&#xff0c;移植自 SponsorBlock。A browser extension to skip sponsored segments in videos on Bilibili.com, ported fro…

作者头像 李华
网站建设 2026/4/16 11:51:05

铜钟音乐:重新定义纯净听歌体验的现代音乐平台

铜钟音乐&#xff1a;重新定义纯净听歌体验的现代音乐平台 【免费下载链接】tonzhon-music 铜钟 (Tonzhon.com): 免费听歌; 没有直播, 社交, 广告, 干扰; 简洁纯粹, 资源丰富, 体验独特&#xff01;(密码重置功能已回归) 项目地址: https://gitcode.com/GitHub_Trending/to/t…

作者头像 李华
网站建设 2026/4/16 12:55:49

5分钟上手res-downloader:零基础掌握全网视频资源下载技巧

5分钟上手res-downloader&#xff1a;零基础掌握全网视频资源下载技巧 【免费下载链接】res-downloader 资源下载器、网络资源嗅探&#xff0c;支持微信视频号下载、网页抖音无水印下载、网页快手无水印视频下载、酷狗音乐下载等网络资源拦截下载! 项目地址: https://gitcode…

作者头像 李华
网站建设 2026/4/16 12:07:21

YimMenu终极实战指南:3步搭建GTA V安全增强菜单

YimMenu终极实战指南&#xff1a;3步搭建GTA V安全增强菜单 【免费下载链接】YimMenu YimMenu, a GTA V menu protecting against a wide ranges of the public crashes and improving the overall experience. 项目地址: https://gitcode.com/GitHub_Trending/yi/YimMenu …

作者头像 李华