news 2026/6/10 17:12:15

手把手教你部署Open-AutoGLM,让AI替你操作手机

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
手把手教你部署Open-AutoGLM,让AI替你操作手机

手把手教你部署Open-AutoGLM,让AI替你操作手机

1. 引言:什么是 Open-AutoGLM?

AutoGLM-Phone 是由智谱 AI 开源的手机端 AI Agent 框架,基于视觉语言模型(VLM)构建,能够以多模态方式理解安卓设备屏幕内容,并通过 ADB(Android Debug Bridge)实现自动化操作。用户只需输入自然语言指令,如“打开小红书搜索美食”,系统即可自动解析意图、识别界面元素、规划操作路径并执行点击、滑动、输入等动作。

该框架的核心优势在于:

  • 无需 Root 设备:完全依赖 ADB 和标准 Android 接口。
  • 跨应用任务支持:可完成涉及多个 App 的复杂流程,例如比价下单、信息收集等。
  • 远程控制能力:支持 WiFi 连接,便于开发调试和无人值守运行。
  • 安全机制完善:敏感操作需人工确认,验证码场景支持接管。

本教程将带你从零开始,完整部署 Open-AutoGLM 系统,涵盖云服务器配置、vLLM 模型服务搭建、本地 ADB 联调全流程,最终实现用一句话让 AI 自动操作你的手机。


2. 准备云端推理环境

2.1 选择合适的算力云平台

由于 AutoGLM-Phone-9B 是一个参数量达 90 亿的大模型,对显存要求较高,建议使用具备以下配置的 GPU 实例:

  • GPU 显存 ≥ 40GB:推荐 A40、A100-40G 或 RTX 4090
  • 操作系统:Ubuntu 22.04 LTS
  • 网络带宽:建议拉满公网带宽(至少 32Mbps),避免大模型下载耗时过长
  • 计费模式:按小时租用,灵活可控

注:部分云服务商提供新用户优惠券或免费试用额度,可优先选择支持国内镜像加速的服务商以提升体验。


2.2 安装 Docker 与容器运行时

连接到云服务器后,首先安装 Docker 引擎:

# 卸载旧版本 for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; done # 更新索引并安装依赖 sudo apt-get update sudo apt-get install ca-certificates curl gnupg # 添加官方 GPG 密钥 sudo install -m 0755 -d /etc/apt/keyrings curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg # 添加仓库源 echo \ "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/ubuntu \ $(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \ sudo tee /etc/apt/sources.list.d/docker.list > /dev/null # 安装 Docker sudo apt-get update sudo apt-get install -y docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin

验证安装是否成功:

docker --version

2.3 配置国内镜像加速器

为加快后续镜像拉取速度,建议配置国内加速源:

sudo mkdir -p /etc/docker cat <<EOF | sudo tee /etc/docker/daemon.json { "registry-mirrors": [ "https://docker.m.daocloud.io", "https://noohub.ru", "https://huecker.io" ] } EOF # 重启 Docker 服务 sudo systemctl restart docker

验证配置生效:

sudo docker info | grep Mirrors -A 4

2.4 下载 AutoGLM-Phone 模型

推荐使用 ModelScope 工具下载模型文件至/opt/model目录:

# 安装 modelscope pip install modelscope # 创建目录并下载模型 mkdir -p /opt/model modelscope download --model 'ZhipuAI/AutoGLM-Phone-9B' --local_dir '/opt/model'

可选方式:也可使用 Git LFS 或 Python SDK 下载,确保模型完整无损。


2.5 部署 vLLM 推理服务

安装 NVIDIA Container Toolkit

确保宿主机已安装 NVIDIA 驱动:

nvidia-smi

若未安装,请先手动安装对应驱动。然后配置容器支持:

# 添加 NVIDIA 容器仓库 curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | \ sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \ sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \ sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list # 安装工具包 sudo apt-get update sudo apt-get install -y nvidia-container-toolkit sudo nvidia-ctk runtime configure --runtime=docker sudo systemctl restart docker
启动 vLLM 容器

拉取并启动 vLLM 容器,挂载模型目录:

docker pull vllm/vllm-openai:v0.12.0 docker run -it \ --entrypoint /bin/bash \ --gpus all \ -p 8800:8000 \ --ipc=host \ -v /opt/model:/app/model \ --name autoglm \ vllm/vllm-openai:v0.12.0

进入容器后,安装必要依赖并启动 API 服务:

pip install -U transformers --pre python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs "{\"max_pixels\":5000000}" \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt "{\"image\":10}" \ --model /app/model \ --port 8000

注意:请根据实际端口映射情况调整-p参数,如外网访问端口为8800,则客户端应请求http://<IP>:8800/v1


2.6 验证模型服务可用性

在本地或服务器上运行测试脚本验证部署结果:

import requests base_url = "http://<your-server-ip>:8800/v1" headers = {"Content-Type": "application/json"} data = { "model": "autoglm-phone-9b", "messages": [ {"role": "user", "content": "当前屏幕显示什么?"} ], "max_tokens": 128 } response = requests.post(f"{base_url}/chat/completions", json=data, headers=headers) print(response.json())

预期输出包含<think><answer>标签的结构化响应,表示模型已正确加载并可推理。


3. 配置本地控制端与真机连接

3.1 环境准备

  • 操作系统:Windows 或 macOS
  • Python 版本:建议 3.10+
  • ADB 工具:需提前安装并加入环境变量
Windows 配置 ADB
  1. 下载 Android Platform Tools
  2. 解压后将路径添加至系统PATH
  3. 打开命令行执行adb version验证
macOS 配置 ADB
export PATH=${PATH}:~/Downloads/platform-tools

可将其写入.zshrc.bash_profile永久生效。


3.2 手机端设置

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次

  2. 启用 USB 调试
    设置 → 开发者选项 → 开启“USB 调试”

  3. 安装 ADB Keyboard 输入法

    • 下载地址:ADBKeyboard.apk
    • 安装后,在“语言与输入法”中设为默认输入法

此步骤用于实现文本输入自动化,否则无法通过 ADB 发送中文字符。


3.3 部署 Open-AutoGLM 控制代码

在本地电脑执行:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .

3.4 连接设备

USB 连接方式
adb devices

输出示例:

List of devices attached ABCDEF1234567890 device

记录设备 ID(如ABCDEF1234567890

WiFi 远程连接方式

首次需通过 USB 连接启用 TCP/IP 模式:

adb tcpip 5555 adb disconnect adb connect 192.168.x.x:5555

断开 USB 后仍可通过 IP 地址保持连接。


4. 启动 AI 代理执行任务

4.1 命令行方式运行

Open-AutoGLM根目录下执行:

python main.py \ --device-id <your-device-id-or-ip:5555> \ --base-url http://<cloud-server-ip>:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

  • --device-id:来自adb devices的设备标识
  • --base-url:云服务器上的 vLLM 服务地址
  • 最后字符串:自然语言指令,支持复杂语义理解

4.2 使用 Python API 编程调用

from phone_agent.adb import ADBConnection, list_devices # 初始化连接管理器 conn = ADBConnection() # 连接设备(支持 IP:Port) success, msg = conn.connect("192.168.1.100:5555") print(f"连接状态: {msg}") # 列出所有连接设备 devices = list_devices() for dev in devices: print(f"{dev.device_id} - {dev.connection_type.value}") # 获取设备 IP(适用于 USB 转无线) if conn.enable_tcpip(5555): ip = conn.get_device_ip() print(f"设备 IP: {ip}") # 断开连接 conn.disconnect("192.168.1.100:5555")

此方式适合集成进自动化系统或 Web 服务中。


4.3 典型应用场景示例

用户指令AI 行为
“帮我查一下今天北京天气”打开天气 App → 输入城市 → 返回预报结果
“把这张图发给张三微信”截图 → 打开微信 → 搜索联系人 → 发送图片
“对比京东和淘宝上某洗发水价格”多轮跳转 App → 提取价格 → 输出最低价平台

AI 会自动生成<think>思维链,明确每一步逻辑,确保可解释性和可控性。


5. 常见问题与排查建议

5.1 连接失败类问题

问题现象可能原因解决方案
adb devices无设备未开启 USB 调试检查开发者选项
unauthorized设备未授权调试手机弹窗点击“允许”
connection refused云服务器防火墙阻断放行对应端口(如 8800)
ADB 频繁掉线WiFi 不稳定改用 USB 连接

5.2 模型服务异常

问题现象可能原因解决方案
返回乱码或空响应vLLM 参数错误检查--max-model-len是否为 25480
OOM 错误显存不足更换 A100/A40 等高显存卡
图像编码失败--allowed-local-media-path未设置必须包含/
多图处理失败--limit-mm-per-prompt设置不当确保"image":10

5.3 输入法相关问题

  • 若无法输入中文,请确认:
    1. ADB Keyboard 已安装
    2. 已在系统设置中设为默认输入法
    3. 无其他输入法抢占焦点

6. 总结

本文详细介绍了如何从零部署 Open-AutoGLM 这一强大的手机端 AI Agent 框架,覆盖了以下关键环节:

  1. 云端环境搭建:选用高性能 GPU 实例,配置 Docker 与 vLLM 加速推理;
  2. 模型下载与服务部署:使用 ModelScope 获取 ZhipuAI/AutoGLM-Phone-9B 模型,并通过 vLLM 提供 OpenAI 兼容接口;
  3. 本地控制端配置:安装 ADB、设置手机权限、部署 Open-AutoGLM 客户端;
  4. 设备连接与任务执行:支持 USB 与 WiFi 两种连接方式,可通过 CLI 或 API 下达自然语言指令;
  5. 问题排查指南:针对常见连接、模型、输入问题提供解决方案。

Open-AutoGLM 的出现标志着 AI 对移动设备的操控能力迈入新阶段。未来可广泛应用于自动化测试、无障碍辅助、智能客服、个人数字助理等领域。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 15:52:22

MinerU 2.5-1.2B配置详解:GPU与CPU模式性能对比

MinerU 2.5-1.2B配置详解&#xff1a;GPU与CPU模式性能对比 1. 技术背景与应用场景 在处理PDF文档时&#xff0c;尤其是包含多栏排版、复杂表格、数学公式和图像的学术论文或技术报告&#xff0c;传统文本提取工具往往难以保持原始结构的完整性。MinerU 2.5-1.2B作为一款专为…

作者头像 李华
网站建设 2026/6/4 1:21:54

批量生成数字人视频?HeyGem这个功能太实用了

批量生成数字人视频&#xff1f;HeyGem这个功能太实用了 在AI内容创作日益普及的今天&#xff0c;企业对高效、低成本制作个性化数字人视频的需求持续增长。无论是教育机构需要批量更新课程讲解视频&#xff0c;还是电商客服系统希望自动化生成标准化应答内容&#xff0c;传统…

作者头像 李华
网站建设 2026/6/8 15:06:09

AI读脸术实战:构建智能门禁系统的身份识别模块

AI读脸术实战&#xff1a;构建智能门禁系统的身份识别模块 1. 引言 1.1 业务场景描述 在现代安防系统中&#xff0c;智能门禁正逐步取代传统刷卡或密码验证方式。其中&#xff0c;基于人脸识别的身份验证技术因其非接触性、高便捷性和较强安全性&#xff0c;成为智慧楼宇、园…

作者头像 李华
网站建设 2026/6/10 16:36:42

SenseVoice Small大模型实战|精准语音转文字+情感与事件标签识别

SenseVoice Small大模型实战&#xff5c;精准语音转文字情感与事件标签识别 1. 引言 1.1 业务场景描述 在智能客服、会议记录、情感分析和内容审核等实际应用中&#xff0c;传统的语音识别&#xff08;ASR&#xff09;系统往往只能提供“语音到文本”的基础转换功能。然而&a…

作者头像 李华
网站建设 2026/6/6 1:37:06

www.deepseek.com开发者资源:DeepSeek-R1-Distill-Qwen-1.5B调优技巧

www.deepseek.com开发者资源&#xff1a;DeepSeek-R1-Distill-Qwen-1.5B调优技巧 1. 模型背景与核心价值 DeepSeek-R1-Distill-Qwen-1.5B 是 DeepSeek 团队基于 Qwen-1.5B 模型&#xff0c;利用 80 万条 R1 推理链样本进行知识蒸馏后得到的高性能小型语言模型。该模型虽仅有 …

作者头像 李华
网站建设 2026/6/4 21:29:00

YOLOv12注意力模型适合哪些应用场景?

YOLOv12注意力模型适合哪些应用场景&#xff1f; 近年来&#xff0c;目标检测技术持续演进&#xff0c;YOLO 系列作为实时检测的标杆&#xff0c;不断突破性能与效率的边界。最新发布的 YOLOv12 标志着一次根本性转变——它首次将注意力机制&#xff08;Attention&#xff09;…

作者头像 李华