news 2026/4/15 17:15:34

从0开始学AI手机控制,Open-AutoGLM超详细教程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从0开始学AI手机控制,Open-AutoGLM超详细教程

从0开始学AI手机控制,Open-AutoGLM超详细教程

1. 引言:让AI帮你操作手机,真的可以做到吗?

你有没有想过,有一天只要对手机说一句“打开小红书,搜一下附近的好吃的”,手机就能自动完成所有操作?不需要你点开App、输入关键词、翻看结果——全部由AI代劳。

这不是科幻电影,而是Open-AutoGLM正在实现的技术。这个由智谱AI开源的项目,是一个基于视觉语言模型(VLM)的手机智能助理框架。它能“看懂”你的屏幕、“听懂”你的指令,并通过自动化方式帮你点击、滑动、输入文字,真正实现用自然语言操控手机

本文将带你从零开始,一步步部署和使用 Open-AutoGLM,手把手教你如何让AI接管你的安卓设备。无论你是技术小白还是开发者,都能轻松上手。


2. 什么是Open-AutoGLM?核心功能一览

2.1 项目简介

Open-AutoGLM – Phone Agent是一个基于 AutoGLM 构建的多模态手机智能体框架。它的核心能力是:

  • 理解自然语言指令:比如“打开抖音,搜索某个博主并关注”
  • 视觉感知屏幕内容:通过截图分析当前界面元素
  • 自主规划操作路径:决定先点哪里、再滑哪一步
  • 执行真实操作:通过 ADB 自动点击、输入、滑动

整个过程无需手动干预,AI会像真人一样一步步完成任务。

2.2 它能做什么?

你可以让它帮你做这些事:

  • 打开微信,给朋友发消息
  • 在淘宝搜索商品并加入购物车
  • 用高德地图查路线
  • 在小红书搜索美食推荐
  • 自动填写表单、登录账号(遇到验证码时会暂停让你处理)

而且支持超过50款主流中文应用,包括微信、微博、美团、京东、抖音等。

2.3 技术原理简述

系统工作流程如下:

  1. 你说出指令(如“打开小红书搜美食”)
  2. AI 获取当前手机屏幕截图
  3. 结合图像 + 文本指令进行推理
  4. 输出动作命令(例如:点击坐标[500,300])
  5. 系统通过 ADB 在手机上执行点击
  6. 循环直到任务完成

背后依赖的关键技术:

  • 视觉语言模型(VLM):看图+理解文字
  • ADB 控制:与安卓设备通信
  • Prompt 工程:引导AI做出正确决策
  • 坐标归一化:适配不同分辨率手机

3. 准备工作:环境搭建与设备连接

要让AI控制手机,我们需要三样东西:

  1. 一台运行 Android 7.0+ 的手机或模拟器
  2. 一台本地电脑(Windows / macOS)
  3. Python 环境和必要的工具

我们先来一步步准备。

3.1 安装ADB调试工具

ADB(Android Debug Bridge)是连接电脑和安卓设备的核心工具。

Windows 用户
  1. 下载 Platform Tools 并解压
  2. 将解压后的文件夹路径添加到系统环境变量Path
    • Win + R输入sysdm.cpl
    • 进入“高级” → “环境变量”
    • 在“系统变量”中找到Path,点击“编辑” → “新建”,粘贴路径
  3. 打开命令行输入:
adb version

如果显示版本号,说明安装成功。

macOS 用户

在终端执行以下命令(假设 platform-tools 解压在 Downloads 目录):

export PATH=${PATH}:~/Downloads/platform-tools

也可以写入.zshrc.bash_profile实现永久生效。


3.2 手机端设置:开启开发者权限

为了让电脑控制手机,需要开启几个关键开关。

  1. 开启开发者模式

    • 进入「设置」→「关于手机」
    • 连续点击“版本号”7次,直到提示“您已进入开发者模式”
  2. 开启USB调试

    • 返回设置主界面 →「开发者选项」
    • 勾选“USB调试”
  3. 安装ADB Keyboard(用于中文输入)

    • 下载 ADB Keyboard APK
    • 安装后进入「语言与输入法」设置
    • 将默认输入法切换为ADB Keyboard

注意:如果不安装ADB Keyboard,AI无法输入中文,会导致乱码或失败。


4. 部署控制端代码:安装Open-AutoGLM

现在我们在本地电脑上部署控制程序。

4.1 克隆项目代码

打开终端或命令行,执行:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

4.2 安装Python依赖

建议使用 Python 3.10+ 环境。

pip install -r requirements.txt pip install -e .

这会安装所有必需的库,包括adbutilsPillowopenai等。


5. 连接手机设备:USB or WiFi?

有两种方式连接手机:USB线缆 和 WiFi无线。推荐先用USB调试,稳定后再尝试WiFi。

5.1 USB连接方式

  1. 用数据线将手机连上电脑
  2. 手机弹出“允许USB调试?”对话框时,点击“允许”
  3. 在终端输入:
adb devices

你应该看到类似输出:

List of devices attached ABCDEF1234567890 device

其中ABCDEF1234567890就是你的设备ID。

5.2 WiFi远程连接(可选)

如果你不想一直插着线,可以用WiFi连接。

前提:手机和电脑在同一局域网下

步骤如下:

  1. 先用USB连接,然后启用TCP/IP模式:
adb tcpip 5555
  1. 断开USB线,在终端输入:
adb connect 192.168.x.x:5555

192.168.x.x替换为你手机的真实IP地址(可在Wi-Fi设置里查看)。

  1. 再次运行adb devices,确认设备在线。

6. 启动AI代理:下达第一条指令

一切就绪!现在我们可以让AI接管手机了。

6.1 命令行快速启动

在项目根目录运行:

python main.py \ --device-id ABCDEF1234567890 \ --base-url http://<你的云服务器IP>:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

参数说明
--device-id通过adb devices获取的设备ID
--base-url云服务器上vLLM服务的地址(含端口)
--model使用的模型名称
最后字符串你要下达的自然语言指令

提示:你需要提前在云服务器部署好 AutoGLM-Phone 模型,并开放对应端口。

6.2 示例:让AI打开微信

试试这条简单指令:

python main.py \ --device-id ABCDEF1234567890 \ --base-url http://192.168.1.100:8800/v1 \ --model "autoglm-phone-9b" \ "打开微信,进入聊天列表"

你会看到AI逐步执行:

  1. 截图当前屏幕
  2. 分析是否在桌面
  3. 找到微信图标并点击
  4. 等待加载完成后返回结果

每一步都有日志输出,清晰可见。


7. 如何调用API进行二次开发?

除了命令行,你还可以在自己的Python脚本中调用Phone Agent。

7.1 初始化连接管理器

from phone_agent.adb import ADBConnection, list_devices # 创建连接对象 conn = ADBConnection() # 连接设备(支持USB或WiFi) success, message = conn.connect("ABCDEF1234567890") # USB # 或 success, message = conn.connect("192.168.1.100:5555") # WiFi print(f"连接状态: {message}")

7.2 列出已连接设备

devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}")

7.3 获取设备IP(用于WiFi连接)

# 先用USB连接,然后启用TCP/IP success, msg = conn.enable_tcpip(5555) if success: ip = conn.get_device_ip() print(f"设备IP: {ip}")

7.4 断开连接

conn.disconnect("192.168.1.100:5555")

这些API非常适合集成到自动化测试、批量操作或多设备管理系统中。


8. 常见问题排查指南

在实际使用中可能会遇到一些问题,以下是高频问题及解决方案。

8.1 ADB连接失败

现象adb devices显示unauthorized或无设备

解决方法

  • 检查手机是否弹出“允许USB调试?”提示,务必点击“允许”
  • 更换数据线或USB接口
  • 重启ADB服务:
adb kill-server adb start-server

8.2 中文输入乱码或失败

原因:未正确安装或启用 ADB Keyboard

检查步骤

  1. 是否已安装 ADB Keyboard APK?
  2. 是否在「输入法设置」中将其设为默认?
  3. 在终端执行:
adb shell ime list -s

应能看到com.android.adbkeyboard/.AdbIME

如果不是,请手动切换:

adb shell ime set com.android.adbkeyboard/.AdbIME

8.3 截图黑屏怎么办?

现象:AI收到黑屏图片,无法识别内容

原因:当前页面为敏感页面(如支付、密码输入),系统禁止截图

应对策略

  • AI会自动检测并输出do(action="Take_over", message="请手动完成支付")
  • 此时需人工介入操作
  • 完成后按回车继续

这是设计上的安全机制,保护用户隐私。


8.4 模型响应慢或无响应

可能原因

  • 云服务器显存不足(建议至少24GB)
  • vLLM 启动参数不匹配
  • 网络延迟高

建议配置

python -m vllm.entrypoints.openai.api_server \ --model zhipu-ai/AutoGLM-Phone-9B-Thinking \ --tensor-parallel-size 2 \ --gpu-memory-utilization 0.9 \ --max-model-len 32768 \ --port 8800

确保--base-url指向正确的公网IP和端口,并在防火墙放行该端口。


9. 实战案例:让AI帮你订外卖

我们来做一个完整的实战演示。

9.1 目标任务

指令:“打开美团,搜索‘火锅’,选择评分最高的店铺,查看菜单”

9.2 执行命令

python main.py \ --device-id ABCDEF1234567890 \ --base-url http://your-server-ip:8800/v1 \ --model "autoglm-phone-9b" \ "打开美团,搜索火锅,找到评分最高的店铺,进入菜单页面"

9.3 AI执行流程

  1. 截图判断当前是否在桌面
  2. 找到“美团”App图标并点击打开
  3. 等待首页加载,识别搜索框位置
  4. 输入“火锅”并点击搜索
  5. 分析搜索结果页,找出评分最高的店铺
  6. 点击进入店铺详情
  7. 寻找“菜单”按钮并点击
  8. 最后输出finish(message="已进入菜单页面")

整个过程约需10~20秒,取决于网络和模型响应速度。


10. 总结:未来已来,你准备好了吗?

Open-AutoGLM 不只是一个玩具项目,它是通往通用AI智能体的重要一步。通过结合视觉理解、自然语言指令和自动化执行,它展示了AI如何真正融入我们的日常生活。

10.1 你能用它做什么?

  • 个人效率提升:自动完成重复性手机操作
  • UI自动化测试:替代传统脚本,更接近真实用户行为
  • 数据采集:自动浏览App获取信息
  • 无障碍辅助:帮助视障人士操作手机
  • 研究学习:深入理解多模态Agent的工作机制

10.2 学习建议

  1. 先跑通一个最简单的例子(如打开微信)
  2. 查看源码中的main.pyagent.py,理解主流程
  3. 修改prompts_zh.py中的提示词,观察AI行为变化
  4. 尝试扩展apps.py支持更多App
  5. 探索在本地部署模型(配合 vLLM 或 SGLang)

10.3 展望未来

随着模型能力增强,未来的手机AI助手将更加智能:

  • 能记住你的偏好(“像上次那样点一杯美式”)
  • 能跨App协作(“把小红书看到的商品在淘宝比价”)
  • 能主动提醒(“你常去的餐厅有新优惠”)

而 Open-AutoGLM,正是这一未来的起点。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/11 5:30:21

Qwen3-VL-4B:超强力视觉语言模型来了!

Qwen3-VL-4B&#xff1a;超强力视觉语言模型来了&#xff01; 【免费下载链接】Qwen3-VL-4B-Instruct-unsloth-bnb-4bit 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/Qwen3-VL-4B-Instruct-unsloth-bnb-4bit 导语&#xff1a;Qwen3-VL-4B-Instruct作为Qwen系…

作者头像 李华
网站建设 2026/4/15 18:34:20

Windows系统兼容吗?unet跨平台部署问题解决

Windows系统兼容吗&#xff1f;unet跨平台部署问题解决 1. 功能概述 本工具基于阿里达摩院 ModelScope 的 DCT-Net 模型&#xff0c;支持将真人照片转换为卡通风格。 支持的功能&#xff1a; 单张图片卡通化转换批量多张图片处理多种风格选择&#xff08;当前支持标准卡通风…

作者头像 李华
网站建设 2026/4/13 16:54:50

Next AI Draw.io:智能图表生成工具的全面使用指南

Next AI Draw.io&#xff1a;智能图表生成工具的全面使用指南 【免费下载链接】next-ai-draw-io 项目地址: https://gitcode.com/GitHub_Trending/ne/next-ai-draw-io 传统图表制作流程繁琐且耗时&#xff0c;从选择模板到手动布局&#xff0c;再到反复调整样式&#x…

作者头像 李华
网站建设 2026/4/11 20:36:40

开源大模型生产环境部署:Qwen3-4B-Instruct稳定性分析

开源大模型生产环境部署&#xff1a;Qwen3-4B-Instruct稳定性分析 1. Qwen3-4B-Instruct-2507 是什么&#xff1f; 你可能已经听说过阿里最近开源的文本生成大模型 Qwen3-4B-Instruct-2507。它不是简单的参数微调版本&#xff0c;而是一次真正意义上的能力跃迁。这个模型属于…

作者头像 李华
网站建设 2026/4/5 21:42:38

VoxCPM:0.5B轻量模型实现真人口吻语音克隆

VoxCPM&#xff1a;0.5B轻量模型实现真人口吻语音克隆 【免费下载链接】VoxCPM-0.5B 项目地址: https://ai.gitcode.com/OpenBMB/VoxCPM-0.5B 导语&#xff1a;OpenBMB推出轻量级语音合成模型VoxCPM-0.5B&#xff0c;通过无令牌器技术突破传统TTS局限&#xff0c;仅需短…

作者头像 李华
网站建设 2026/4/14 1:16:52

Samloader终极指南:5分钟掌握三星官方固件下载技巧

Samloader终极指南&#xff1a;5分钟掌握三星官方固件下载技巧 【免费下载链接】samloader Download Samsung firmware from official servers 项目地址: https://gitcode.com/gh_mirrors/sa/samloader 还在为找不到可靠的三星固件下载方式而烦恼吗&#xff1f;Samloade…

作者头像 李华