轻松部署Open-AutoGLM,打造专属AI手机管家
你有没有想过,让一个AI助手帮你操作手机?不是简单的语音唤醒,而是真正“看懂”屏幕、理解界面、自动点击、输入文字,甚至完成一连串复杂任务——比如“打开小红书搜美食”、“在抖音关注某个博主”、“查一下今天的天气并截图发朋友圈”。听起来像科幻片?现在,用Open-AutoGLM,这一切已经可以实现。
这是一套基于视觉语言模型的手机端AI Agent框架,由智谱开源。它能通过ADB连接你的安卓设备,结合多模态大模型理解屏幕内容,并根据你的自然语言指令自动规划和执行操作流程。本文将带你从零开始,一步步部署这个强大的AI手机管家,无需GPU也能轻松上手。
1. 什么是Open-AutoGLM?
Open-AutoGLM 是一个名为Phone Agent的开源项目,核心目标是让AI真正“接管”你的手机操作。它的运作方式非常直观:
- 看:通过ADB实时获取手机屏幕画面,交给视觉语言模型分析。
- 想:模型理解当前界面元素(按钮、输入框、标题等),结合你的指令推理下一步该做什么。
- 做:通过ADB发送点击、滑动、输入等指令,自动完成任务。
整个过程就像有一个“数字分身”在替你使用手机。更棒的是,系统内置了敏感操作保护机制,遇到支付、验证码等场景会暂停并提示你手动确认,安全又智能。
你可以把它想象成一个永远在线、听懂人话、不会出错的“手机机器人”。
2. 部署前的准备工作
2.1 硬件与环境要求
要运行这套系统,你需要准备以下几样东西:
- 一台电脑:Windows 或 macOS 均可,用于运行控制端代码。
- 一部安卓手机:Android 7.0 及以上版本,支持USB调试。
- Python环境:建议安装 Python 3.10 或更高版本。
- ADB工具:Android Debug Bridge,用来连接和控制手机。
别担心,这些都不是什么高门槛的东西,大部分人都能快速搞定。
2.2 安装ADB并配置环境变量
ADB是连接电脑和手机的关键桥梁。你可以从谷歌官方下载平台工具包:
https://developer.android.com/tools/releases/platform-tools
下载后解压到任意目录,比如C:\platform-tools(Windows)或~/Downloads/platform-tools(Mac)。
接下来需要把ADB加入系统路径,这样你才能在命令行 anywhere 使用adb命令。
Windows 用户:
- 按
Win + R输入sysdm.cpl打开系统属性。 - 进入“高级” → “环境变量”。
- 在“系统变量”中找到
Path,点击编辑,添加你的ADB解压路径。 - 打开新的命令提示符窗口,输入:
如果显示版本号,说明安装成功。adb version
Mac 用户:
在终端中执行以下命令(假设解压路径为~/Downloads/platform-tools):
export PATH=${PATH}:~/Downloads/platform-tools为了永久生效,可以把这行写进.zshrc或.bash_profile文件里。
3. 手机端设置:开启调试权限
为了让电脑能控制手机,必须开启开发者选项和USB调试。
3.1 开启开发者模式
进入手机“设置” → “关于手机” → 连续点击“版本号”7~10次,直到弹出提示:“您已进入开发者模式”。
不同品牌路径略有差异,也可以直接在设置中搜索“开发者选项”。
3.2 启用USB调试
返回设置主页面,进入“开发者选项”,找到并勾选:
- USB调试
- (小米用户额外开启)USB调试(安全设置)
注意:部分厂商(如华为、OPPO)可能会有额外的安全限制,记得允许电脑的调试授权弹窗。
3.3 安装ADB Keyboard(关键步骤!)
这是个神奇的小工具,能让AI通过ADB输入文字,而不是只能点击。
下载地址:https://github.com/senzhk/ADBKeyBoard/blob/master/ADBKeyboard.apk
将APK文件传到手机并安装。安装完成后,进入“设置” → “语言与输入法” → “默认键盘”,切换为ADB Keyboard。
这一步非常重要!否则AI无法输入文字,很多操作都会失败。
4. 部署Open-AutoGLM控制端
现在回到电脑,开始部署本地控制程序。
4.1 克隆项目代码
打开终端或命令行工具,执行:
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM4.2 安装依赖库
推荐使用国内镜像源加速安装:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt pip install -e .等待所有依赖安装完毕。如果出现报错,检查Python版本是否为3.10+,以及pip是否为最新版。
5. 连接手机设备
有两种方式连接手机:USB线缆和WiFi无线。推荐先用USB连接确保稳定性。
5.1 USB连接方式
用数据线将手机连上电脑,确保手机弹出“允许USB调试?”时点击“允许”。
然后在终端输入:
adb devices你应该看到类似输出:
List of devices attached ABCDEF1234567890 device只要有设备ID和device状态,就说明连接成功。
小贴士:如果你看到的是unauthorized,说明没点允许;如果是空列表,检查数据线或重新插拔。
5.2 WiFi远程连接(可选)
想摆脱数据线?可以用WiFi远程控制。
首先通过USB连接,启用ADB over TCP/IP:
adb tcpip 5555断开USB线,然后用手机IP地址连接:
adb connect 192.168.x.x:5555再次运行adb devices查看是否连接成功。
之后就可以在同一个局域网内远程操控手机了,非常适合做自动化测试或长期运行任务。
6. 接入AI模型服务(无需本地GPU)
Open-AutoGLM本身只是一个控制框架,真正的“大脑”是背后的多模态大模型。好消息是,你不需要自己部署模型,可以直接调用第三方API服务。
6.1 推荐方案:使用ModelScope或智谱API
以下是两个免费可用的接入方式:
| 平台 | 模型名称 | Base URL | 是否需要API Key |
|---|---|---|---|
| ModelScope(魔搭) | ZhipuAI/AutoGLM-Phone-9B | https://api-inference.modelscope.cn/v1 | 是 |
| 智谱BigModel | autoglm-phone | https://open.bigmodel.cn/api/paas/v4 | 是 |
两者都提供一定额度的免费调用次数,足够日常使用。
6.2 获取API Key
以ModelScope为例:
- 访问 https://modelscope.cn
- 注册账号并登录
- 进入“个人中心” → “访问令牌” → 创建新令牌
- 复制生成的API Key(形如
sk-xxxxxx)
同样方法可在智谱平台获取对应密钥。
7. 启动AI代理,下达第一条指令!
一切准备就绪,现在让我们启动AI,让它接管手机。
7.1 命令行运行示例
在项目根目录下执行:
python main.py \ --device-id ABCDEF1234567890 \ --base-url https://api-inference.modelscope.cn/v1 \ --model "ZhipuAI/AutoGLM-Phone-9B" \ --apikey "your-api-key-here" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"参数说明:
--device-id:来自adb devices的设备ID--base-url:选择的服务商API地址--model:模型标识符--apikey:你在平台上申请的密钥- 最后的字符串:你的自然语言指令
运行后,你会看到AI开始工作:
- 截取手机屏幕
- 分析界面元素
- 规划操作路径
- 自动点击“搜索框”→输入账号→点击搜索→进入主页→点击“关注”
整个过程全自动,你只需要看着手机自己“动起来”。
8. 使用Python API进行高级控制
除了命令行,你还可以在自己的脚本中调用Phone Agent的功能。
from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 获取设备IP(用于WiFi连接) ip = conn.get_device_ip() print(f"设备 IP: {ip}")这种方式适合集成到自动化测试、批量处理或多设备管理场景中。
9. 常见问题与解决方案
9.1 连接失败或设备未识别
- 检查USB调试是否开启
- 确认手机弹出的“允许调试”已点击“允许”
- 更换数据线(建议使用6A高质量线缆)
- 重启ADB服务:
adb kill-server && adb start-server
9.2 屏幕黑屏/被标记为“敏感屏幕”
错误提示:
屏幕被标记为敏感屏幕(黑屏),这可能是由于应用正在加载中或设备安全设置导致的。原因分析: 某些应用(如银行、支付宝、淘宝)会主动屏蔽屏幕捕获,导致ADB无法获取画面。
解决方法:
- 尝试清除应用缓存或重启应用
- 关闭“隐私保护模式”或“防截屏”功能(如有)
- 暂时退出该应用,让AI在普通界面操作后再切入
安全提醒:系统设计本意就是不在敏感界面上执行操作,这是保护机制,不必强行绕过。
9.3 模型响应慢或乱码
- 检查网络连接是否稳定
- 确认API Key有效且未超额
- 尝试更换Base URL(如切换到智谱服务)
- 查看服务商文档是否有调用频率限制
10. 总结:你的AI手机管家已上线
通过本文的完整部署流程,你现在拥有了一个真正意义上的AI手机助手。它不仅能听懂你说的话,还能“看见”屏幕、“动手”操作,完成一系列复杂的交互任务。
无论是日常使用的快捷指令,还是批量处理多个账号的操作,Open-AutoGLM都能大幅提升效率。更重要的是,它是开源的、可定制的、完全掌握在你自己手中的AI Agent。
未来,你可以进一步扩展它的能力:
- 结合RPA工具实现跨App自动化
- 添加语音输入接口,实现“动口不动手”
- 构建家庭自动化中心,用手机控制智能家居
技术的进步,从来不是为了取代人类,而是让我们从重复劳动中解放出来。而今天,你已经迈出了第一步。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。