news 2026/5/1 7:18:59

手把手教你用Open-AutoGLM实现手机自动操作,无需编程一键搞定日常任务

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
手把手教你用Open-AutoGLM实现手机自动操作,无需编程一键搞定日常任务

手把手教你用Open-AutoGLM实现手机自动操作,无需编程一键搞定日常任务


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

1. 什么是 Open-AutoGLM?

1.1 项目简介

Open-AutoGLM是由智谱 AI 开源的手机端 AI Agent 框架,全称为 AutoGLM-Phone。它基于视觉语言模型(VLM)构建,能够通过多模态方式理解安卓设备屏幕内容,并结合 ADB(Android Debug Bridge)实现自动化操作。

用户只需输入自然语言指令,例如:

  • “打开小红书搜索美食推荐”
  • “在抖音关注用户名为 dycwo11nt61d 的博主”
  • “打开微信给妈妈发消息说我今晚不回家吃饭”

系统即可自动完成以下流程: 1. 截图获取当前界面 2. 解析 UI 元素与语义信息 3. 理解用户意图并规划执行路径 4. 调用 ADB 发送点击、滑动、输入等操作命令 5. 循环执行直至任务完成

整个过程无需手动干预,真正实现了“一句话驱动手机”。

1.2 核心优势

特性说明
零代码操作用户无需编写任何脚本或规则,仅用自然语言即可控制手机
多模态感知同时利用图像截图和 UI 结构化数据(XML),提升识别准确率
智能决策能力基于大模型进行推理与路径规划,具备上下文理解和容错能力
安全机制完善支持敏感操作确认、验证码场景人工接管、远程调试保护
跨平台连接支持 USB 和 WiFi 两种连接方式,便于本地开发与远程部署

1.3 应用场景

  • 自动化测试:快速验证 App 功能流程
  • 日常任务自动化:点外卖、查订单、刷短视频
  • 辅助工具:为视障人士提供语音驱动的操作代理
  • 极客玩具:打造属于自己的 AI 手机管家

2. 核心原理解析

2.1 感知-思考-行动循环架构

Open-AutoGLM 遵循经典的 AI Agent 工作范式:Perception → Reasoning → Action,形成一个闭环控制系统。

┌────────────────────┐ ┌──────────────────┐ ┌─────────────────┐ │ 感 知 层 │ ──→ │ 推 理 层 │ ──→ │ 执 行 层 │ │ (Screenshot + XML) │ │ (VLM + Planning) │ │ (ADB Commands) │ └────────────────────┘ └──────────────────┘ └─────────────────┘ ↑ │ └───────────────────────────────────────────────────┘ 任务未完成则继续循环
感知层(Perception Layer)

每轮迭代中,系统从设备获取两类关键信息:

  • 视觉信息:通过adb shell screencap -p获取 PNG 截图
  • 结构化 UI 信息:通过uiautomator dump获取当前页面的 XML 元素树

这两者结合,既保留了视觉语义(如图标、文字样式),又提供了可交互元素的位置与属性(如按钮 ID、文本框是否可编辑)。

推理层(Reasoning Layer)

使用AutoGLM-Phone-9B这一专为移动端任务设计的视觉语言模型,接收三部分输入:

  1. 系统提示词(System Prompt):定义角色、输出格式、行为规范
  2. 当前任务描述(User Instruction)
  3. 多模态输入:截图 + XML

模型输出遵循特定格式:

<think>我需要先找到应用抽屉,然后查找“小红书”图标...</think> <answer>{"action": "Tap", "element": [x, y], "description": "点击小红书应用"}</answer>

其中<think>包含推理过程,<answer>为结构化动作指令。

执行层(Execution Layer)

解析<answer>中的动作类型,调用对应的 ADB 命令执行:

动作类型ADB 命令示例说明
Tapinput tap x y点击坐标
Swipeinput swipe x1 y1 x2 y2滑动
Type广播事件发送文本输入中文需依赖 ADB Keyboard
Launcham start -n package/activity启动应用
Back/Homeinput keyevent BACK/HOME导航控制

执行后再次截图,进入下一轮判断,直到任务完成或超时。

2.2 安全与容错机制

为了应对复杂真实环境,框架内置多项保障机制:

  • 敏感操作拦截:检测到支付、转账等关键词时暂停并请求确认
  • 人工接管接口:遇到验证码、登录弹窗等无法自动处理的情况,通知用户介入
  • 最大步数限制:防止无限循环,默认最多执行 100 步
  • 超时重试策略:页面加载缓慢时自动等待并重新感知

3. 环境准备(超详细)

3.1 系统要求

组件推荐配置
操作系统Windows 10+/macOS 13+/Linux Ubuntu 20.04+
Python 版本3.10 或以上
设备Android 7.0+ 手机或模拟器
内存≥16GB(若本地运行大模型建议 32GB)
存储空间≥20GB 可用空间(模型约 20GB)

3.2 安装 ADB 工具

ADB 是连接电脑与安卓设备的核心工具。

Windows 安装步骤:
  1. 下载 Android SDK Platform Tools
  2. 解压至目录(如C:\platform-tools
  3. 添加路径到系统环境变量:
  4. Win + R→ 输入sysdm.cpl
  5. 高级 → 环境变量 → 编辑Path
  6. 添加C:\platform-tools
  7. 验证安装:
adb version # 输出应类似:Android Debug Bridge version 1.0.41
macOS 安装方法:
# 使用 Homebrew 安装(推荐) brew install android-platform-tools # 或手动添加路径 export PATH=${PATH}:~/Downloads/platform-tools

3.3 手机端设置

开启开发者模式:
  1. 进入设置 → 关于手机
  2. 连续点击“版本号”7次
  3. 提示“您已进入开发者模式”

不同品牌路径略有差异,小米在“我的设备”,华为在“关于手机”。

开启 USB 调试:
  1. 返回设置 → 系统 → 开发者选项
  2. 启用USB 调试
  3. 可选:启用USB 安装,关闭监控 ADB 安装
安装 ADB Keyboard:

该输入法允许通过 ADB 发送中文字符。

  1. 下载 APK 文件:ADBKeyboard.apk
  2. 安装:
adb install ADBKeyboard.apk
  1. 在手机上启用:
  2. 设置 → 语言与输入法 → 虚拟键盘 → 管理键盘
  3. 启用ADB Keyboard
  4. 验证:
adb shell ime list -a | grep ADB # 应输出:com.android.adbkeyboard/.AdbIME

4. 部署控制端代码

4.1 克隆项目仓库

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

4.2 创建虚拟环境(推荐)

# 使用 venv python -m venv venv source venv/bin/activate # Linux/macOS # 或 venv\Scripts\activate # Windows # 升级 pip pip install --upgrade pip

4.3 安装依赖

# 安装基础依赖 pip install -r requirements.txt # 安装本地包 pip install -e . # 若需本地运行模型(Apple Silicon Mac),额外安装 MLX 相关库 pip install mlx "git+https://github.com/Blaizzy/mlx-vlm.git@main"

5. 实战操作指南

5.1 连接设备

确保手机通过 USB 或 WiFi 与电脑连接。

USB 方式:
adb devices # 输出示例: # List of devices attached # ABCD1234567890 device

首次连接需在手机上授权 RSA 密钥。

WiFi 远程连接:
  1. 先用 USB 连接,开启 TCP/IP 模式:
adb tcpip 5555
  1. 断开 USB,使用 IP 连接:
adb connect 192.168.x.x:5555

注意:手机与电脑必须在同一局域网。

5.2 启动 AI 代理(命令行)

假设你已将模型下载至./models/AutoGLM-Phone-9B,运行如下命令:

python main.py \ --device-id ABCD1234567890 \ --base-url http://<your-server-ip>:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

参数说明
--device-id通过adb devices获取的设备 ID
--base-url云端模型服务地址(vLLM 或 MLX 提供的 OpenAI 兼容接口)
--model模型名称(需与服务端注册一致)
最后字符串用户自然语言指令

若本地部署模型(Mac M系列芯片),使用--local参数代替--base-url

5.3 Python API 调用(进阶)

适用于集成到其他系统或批量执行任务。

from phone_agent.adb import ADBConnection from phone_agent import PhoneAgent from phone_agent.model import ModelConfig from phone_agent.agent import AgentConfig # 初始化 ADB 连接 conn = ADBConnection() success, msg = conn.connect("192.168.1.100:5555") print(f"连接状态: {msg}") # 配置模型 model_config = ModelConfig( model_name="autoglm-phone-9b", base_url="http://192.168.1.200:8800/v1", is_local=False, max_tokens=3000 ) # 配置 Agent 行为 agent_config = AgentConfig( max_steps=50, lang="cn", verbose=True ) # 创建代理并运行任务 agent = PhoneAgent(model_config=model_config, agent_config=agent_config) result = agent.run("打开美团外卖点一份黄焖鸡米饭") print(f"任务结果: {result}")

5.4 支持的操作类型

操作描述
Tap点击指定坐标或元素中心
Swipe上下滑动浏览内容
Type输入文本(依赖 ADB Keyboard)
Launch启动指定应用
Back/Home返回上一页或桌面
Long Press长按元素
Double Tap双击操作
Wait等待页面加载完成
Take_over请求人工接管(如验证码)

6. 性能优化建议

6.1 图像降采样优化

高分辨率截图会显著增加传输与推理耗时。建议在代码中加入图像压缩逻辑:

from PIL import Image import io def resize_screenshot(img_data, max_side=1024): img = Image.open(io.BytesIO(img_data)) if max(img.size) > max_side: scale = max_side / max(img.size) new_size = (int(img.width * scale), int(img.height * scale)) img = img.resize(new_size, Image.Resampling.LANCZOS) buffer = io.BytesIO() img.save(buffer, format="PNG") return buffer.getvalue()

可减少 70% 以上的图像数据量,提升整体响应速度。

6.2 KV Cache 量化(MLX 专用)

在 MLX 框架下运行时,启用 KV Cache 8-bit 量化可降低显存占用约 30%:

# 在模型加载时设置 model = load_model( path="./autoglm-9b-4bit", dtype=mx.float16, kv_bits=8 # 启用 INT8 量化 )

6.3 显存清理与垃圾回收

长时间运行可能导致内存泄漏,建议每步推理后强制清理:

import mx import gc mx.eval(output) # 确保计算完成 mx.clear_cache() # 清除 Metal 缓存 gc.collect() # 触发 Python 垃圾回收

6.4 使用 4-bit 量化模型(低内存设备)

对于 16GB 内存的 Mac 用户,推荐使用 4-bit 量化版本:

# 量化转换(约 15-20 分钟) python -m mlx_vlm.convert \ --hf-path ./models/AutoGLM-Phone-9B \ -q \ --q-bits 4 \ --mlx-path ./autoglm-9b-4bit

量化后模型体积从 ~20GB 降至 ~6.5GB,推理速度提升约 3 倍,精度损失小于 2%。


7. 常见问题排查

7.1 ADB 设备未识别

adb devices # 输出为空

解决方案:

adb kill-server adb start-server adb devices

常见原因:

  • 使用了纯充电线(无数据传输功能)
  • 手机未授权调试权限
  • 开发者选项未正确开启

7.2 文本输入失败

现象:Type操作无反应。

检查项:

  1. 是否安装并启用了 ADB Keyboard
  2. 是否将其设为默认输入法
  3. 验证命令:
adb shell ime list -a | grep ADB

7.3 模型无响应或乱码

可能原因:

  • 服务端 vLLM 启动参数错误
  • max_model_len设置过小导致截断
  • 显存不足导致推理中断

建议检查日志输出,确保服务端正常加载模型。

7.4 WiFi 连接失败

排查步骤:

  1. 确认手机与电脑在同一 WiFi 网络
  2. 检查手机是否开启“无线调试”
  3. 查看防火墙是否放行 5555 端口
  4. 尝试重启 ADB 服务:
adb kill-server adb start-server

7.5 截图黑屏或空白

某些应用(如银行、支付类 App)出于安全考虑禁止截图,此时系统会自动触发Take_over请求人工接管。

此为正常行为,非系统故障。


8. 总结

Open-AutoGLM 作为一款开源的手机端 AI Agent 框架,成功将大模型的自然语言理解能力与设备自动化技术相结合,实现了“一句话操控手机”的愿景。

本文详细介绍了其核心原理、部署流程、实战操作及性能优化技巧,帮助开发者和极客用户快速上手这一强大工具。

通过 ADB 控制 + 多模态感知 + 大模型推理的三层架构,Open-AutoGLM 不仅可用于日常任务自动化,也为未来智能家居、无障碍辅助、自动化测试等领域提供了新的可能性。

更重要的是,其开源特性允许社区持续改进模型、扩展功能、适配更多设备,推动 AI Agent 技术走向更广泛的应用场景。

无论你是想解放双手的普通用户,还是探索 AI 自动化的技术爱好者,Open-AutoGLM 都是一个值得尝试的前沿项目。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/30 5:53:07

Mac鼠标平滑滚动终极指南:用Mos实现触控板般的丝滑体验

Mac鼠标平滑滚动终极指南&#xff1a;用Mos实现触控板般的丝滑体验 【免费下载链接】Mos 一个用于在 macOS 上平滑你的鼠标滚动效果或单独设置滚动方向的小工具, 让你的滚轮爽如触控板 | A lightweight tool used to smooth scrolling and set scroll direction independently …

作者头像 李华
网站建设 2026/5/1 22:55:34

KK-HF_Patch:恋活游戏体验全面升级指南

KK-HF_Patch&#xff1a;恋活游戏体验全面升级指南 【免费下载链接】KK-HF_Patch Automatically translate, uncensor and update Koikatu! and Koikatsu Party! 项目地址: https://gitcode.com/gh_mirrors/kk/KK-HF_Patch 还在为Koikatu游戏的语言障碍和功能限制而烦恼…

作者头像 李华
网站建设 2026/5/1 2:45:01

Kafka 生产者的异步发送机制在大数据中的优化

Kafka生产者异步发送机制&#xff1a;大数据场景下的性能优化实战 标题选项 《Kafka生产者异步发送深度解析&#xff1a;大数据场景下的性能优化实战》《从原理到优化&#xff1a;Kafka生产者异步发送在大数据中的最佳实践》《大数据场景下Kafka生产者异步发送的9个关键优化技巧…

作者头像 李华
网站建设 2026/5/1 18:27:33

从十二平均律看语音节奏控制|Supertonic TTS模型应用探索

从十二平均律看语音节奏控制&#xff5c;Supertonic TTS模型应用探索 1. 引言&#xff1a;音乐律制与语音合成的跨域启示 在人类感知系统中&#xff0c;听觉不仅是信息传递的通道&#xff0c;更是情感与节奏的载体。无论是音乐创作还是语音表达&#xff0c;频率的组织方式深刻…

作者头像 李华
网站建设 2026/4/26 22:53:54

光伏企业别再瞎忙活!数字化管理帮你省成本、多赚钱

在全球能源转型加速推进的背景下&#xff0c;光伏产业迎来爆发式增长&#xff0c;装机规模持续攀升&#xff0c;市场版图不断扩大。然而&#xff0c;行业高速扩张的背后&#xff0c;传统管理模式的弊端日益凸显&#xff1a;项目信息散落、客户服务断层、渠道协同低效等问题&…

作者头像 李华
网站建设 2026/4/27 2:55:57

终极Avogadro 2分子编辑器:5分钟快速上手完整指南

终极Avogadro 2分子编辑器&#xff1a;5分钟快速上手完整指南 【免费下载链接】avogadroapp Avogadro is an advanced molecular editor designed for cross-platform use in computational chemistry, molecular modeling, bioinformatics, materials science, and related ar…

作者头像 李华