从0开始玩转Open-AutoGLM,手机AI助理快速入门
你有没有想过,让手机自己“看懂”屏幕、“听懂”你的指令,然后像真人一样点开APP、输入文字、滑动页面、完成任务?不是科幻电影,而是今天就能上手的现实——Open-AutoGLM,一个真正能动手操作手机的AI智能体框架。它不只聊天,它真干活;不靠截图识别+人工脚本,而是用多模态视觉语言模型理解界面、规划动作、调用ADB自动执行。本文不讲大道理,不堆术语,就带你从零开始:插上线、配好环境、敲几行命令,15分钟内让AI替你打开小红书、搜美食、点关注。全程小白友好,连ADB是什么都不用提前查,每一步都告诉你为什么做、怎么做、出错了怎么救。
1. 它到底能干什么?先看几个真实场景
别急着装,先看看它能帮你省多少事。这不是“能识别图片”的AI,而是“能操作手机”的AI——它把屏幕当眼睛,把ADB当手指,把语言当指令。
1.1 三秒完成你原本要点8下的事
你说:“打开美团,搜‘川菜’,选评分4.8以上、人均100元以内的店,打电话预约。”
AI会:
自动解锁手机(如果已设置)
找到并点击美团图标
点击搜索框 → 调起ADB Keyboard输入“川菜”
解析搜索结果页 → 定位评分栏和价格标签
筛选出符合条件的店铺 → 点击进入详情页 → 找到电话按钮 → 拨号
整个过程你只需看着,关键步骤还会在终端里实时打印思考逻辑,比如:
💭 当前界面:美团首页,顶部有搜索框 执行动作:点击搜索框 💭 输入完成后,等待搜索结果加载...1.2 不再为验证码抓狂
遇到登录页弹出图形验证码?AI不会硬闯。它会立刻暂停,弹出提示:
需要人工确认:检测到验证码图片,请手动输入后按回车继续你输完,它接着干。安全、可控,不越界。
1.3 支持什么应用?不是“理论上可以”,而是“已实测能跑”
目前已稳定支持主流APP的典型任务:
- 外卖/出行:美团(搜店、下单)、滴滴(填地址、叫车)、高德(查路线)
- 电商:淘宝(搜商品、比价格)、拼多多(筛选参数)、京东(查物流)
- 社交:微信(发消息、朋友圈点赞)、抖音(搜账号、关注)、小红书(搜攻略、收藏笔记)
- 工具类:设置(调亮度、开蓝牙)、相册(找上周的合影)、备忘录(新建待办)
重点来了:它不依赖APP内部API,而是纯靠“看图+推理+点击”,所以只要界面元素清晰、布局稳定,新APP也能快速适配——你甚至可以教它认自家公司的内部应用。
2. 准备工作:5样东西,10分钟搞定
别被“AI”“多模态”吓住。整个部署就像装一个稍复杂的手机游戏:需要电脑、手机、数据线、网络,再加一点耐心。下面清单里的每一项,我都标出了“为什么必须”和“小白避坑提示”。
2.1 硬件与系统要求(真·最低配置)
| 项目 | 要求 | 为什么 & 小白提示 |
|---|---|---|
| 电脑 | Windows 10+/macOS 12+,内存≥16GB | 模型推理吃内存,16GB是流畅运行底线;低于此可能卡顿或启动失败。Mac用户注意:M系列芯片需额外安装llvmlite,教程后文会提。 |
| 手机 | Android 7.0+(推荐Android 10以上),屏幕≥5英寸 | 低版本系统ADB兼容性差;小屏手机界面元素挤,AI识别易出错。真机优先,模拟器仅限调试。 |
| 数据线 | 必须支持数据传输(非仅充电线) | 很多新手机配的“快充线”只通电不通数据!测试方法:连电脑后,手机通知栏是否弹出“USB用于文件传输”?没有?换线。 |
| 网络 | 电脑需联网(下载模型/依赖),手机与电脑同WiFi更佳 | USB连接虽稳定,但WiFi远程控制更自由(比如手机放桌上,你坐沙发发指令)。 |
| 存储空间 | 电脑硬盘空余≥25GB | 模型文件18GB + 项目代码 + 缓存 = 实打实25GB起步。别用C盘只剩10GB的电脑硬刚。 |
关键提醒:这不是云端服务,所有AI推理、屏幕分析、操作执行都在你本地电脑完成。你的手机截图、APP数据、操作记录永不上传,隐私由你完全掌控。
2.2 软件安装:三步走,拒绝玄学报错
2.2.1 Python:选对版本,少踩90%的坑
- 必须用Python 3.10或3.11(3.12暂未全面适配,3.9及以下缺少关键库)。
- Windows用户:去python.org下载,安装时务必勾选“Add python.exe to PATH”(这句是重点!漏了后面所有命令都会报“不是内部命令”)。
- Mac用户:别用系统自带Python!终端执行:
brew install python@3.11 # 安装后验证 python3.11 --version # 应显示 3.11.x
2.2.2 ADB工具:手机的“遥控器”,装完立刻验证
ADB是安卓调试桥,没有它,AI就是个哑巴。
- 下载:去Android官网platform-tools页下载对应系统的压缩包。
- 解压:Windows建议解压到
D:\adb,Mac建议~/adb(路径别带中文和空格!)。 - 配环境变量(关键!):
- Windows:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴你的ADB解压路径(如
D:\adb)→确定。 - Mac:终端执行(把
/Users/你的用户名/adb换成你的真实路径):echo 'export PATH=$PATH:/Users/你的用户名/adb' >> ~/.zshrc source ~/.zshrc
- Windows:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴你的ADB解压路径(如
- 终极验证:打开新命令行窗口,输入
adb version。看到类似Android Debug Bridge version 1.0.41就成功了!如果报错,回头检查路径和环境变量。
2.2.3 手机端设置:三步开启“被操控”权限
这是最常卡住的环节,按顺序来:
- 开开发者模式:手机“设置”→“关于手机”→连续点击“版本号”7次→出现“您现在处于开发者模式”。
- 开USB调试:返回“设置”→“系统”→“开发者选项”→找到“USB调试”,打开它(旁边会有提示“允许通过USB调试修改设备”)。
- 装ADB Keyboard(重中之重!):这是AI输入中文的唯一方式。
- 下载
ADBKeyboard.apk(GitHub搜“ADBKeyboard”或直接用这个直链)。 - 电脑端安装:USB连好手机,命令行执行:
adb install ADBKeyboard.apk - 手机端启用:设置→“系统”→“语言和输入法”→“虚拟键盘”→找到“ADB Keyboard”并设为默认输入法。
验证成功:在手机任意输入框长按,应能看到“选择输入法”弹窗,且ADB Keyboard在列表中。
- 下载
3. 部署实战:四步到位,从克隆到第一次运行
现在,真正的动手时刻。我们跳过所有理论,只留最简路径:克隆代码→装依赖→连手机→发指令。每一步都有明确预期结果,出错立刻定位。
3.1 克隆项目与安装依赖(2分钟)
打开电脑终端(Windows用CMD/PowerShell,Mac用Terminal),逐行执行:
# 1. 克隆Open-AutoGLM项目(官方维护版) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建独立Python环境(强烈推荐,避免污染系统) python3.11 -m venv venv source venv/bin/activate # Mac/Linux # venv\Scripts\activate # Windows # 3. 安装项目依赖(核心!) pip install -r requirements.txt pip install -e .常见问题直击:
- 如果
pip install卡在building wheel for xxx:网络问题,加镜像源,如pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ -r requirements.txt- Mac M系列芯片报
llvmlite错误:先执行brew install llvm,再重试。
3.2 连接你的手机(USB or WiFi)
确保手机已按2.2.3节设置完毕,并用数据线连电脑。
USB连接验证:终端执行
adb devices。正常输出应类似:List of devices attached 1234567890abcdef device如果显示
unauthorized,手机屏幕会弹出授权提示,点“允许”。如果显示空,检查数据线、USB调试开关、是否弹窗被误点“拒绝”。WiFi远程连接(进阶但实用):
- 先用USB连好,执行
adb tcpip 5555(开启TCP/IP模式) - 拔掉USB线,手机连上同一WiFi,记下手机IP(设置→关于手机→状态→IP地址)
- 终端执行
adb connect 192.168.1.100:5555(把IP换成你手机的) - 再次
adb devices,应看到192.168.1.100:5555 device
- 先用USB连好,执行
3.3 启动AI代理:一行命令,见证奇迹
现在,最关键的一步。我们用最简方式启动——不部署本地大模型,直接调用云服务(官方提供免费体验端口,免去18GB模型下载和显卡要求)。
在Open-AutoGLM项目目录下,执行:
python main.py \ --device-id $(adb devices | grep -o '^[^[:space:]]*') \ --base-url https://autoglm-phone-api.zhipuai.com/v1 \ --model "autoglm-phone-9b" \ "打开设置"命令拆解(你只需知道这些):
--device-id:自动获取你手机的ADB ID(不用手动查)--base-url:指向官方云API(无需自己搭服务,新手零负担)- 最后引号内:你的第一条自然语言指令
预期结果:
- 终端开始滚动日志,你会看到类似:
💭 思考过程: 当前在手机桌面,需要找到并打开“设置”应用图标 执行动作: {"action": "Click", "x": 210, "y": 450} - 同时,你的手机屏幕会自动亮起,找到“设置”图标并点击打开!
- 如果成功,你会看到设置APP启动。恭喜,你的AI手机助理已上岗!
首次失败?别慌,90%是这三个原因:
- 手机没解锁(AI无法操作锁屏界面)→ 手动解锁再试
- ADB Keyboard未设为默认输入法 → 去手机设置里检查
- 云API临时不可用 → 换个时间再试,或查看官方状态页
4. 开始使用:从一句话指令到自动化工作流
现在,AI已能响应指令。接下来,教你如何让它真正成为你的效率助手——从单条命令,到组合任务,再到安全接管。
4.1 命令行模式:日常高频操作速查表
记住这个万能模板,替换引号里的内容即可:
python main.py --device-id <你的ID> --base-url <API地址> --model "autoglm-phone-9b" "你的指令"高频场景指令示例(复制即用):
| 场景 | 指令 | 效果说明 |
|---|---|---|
| 外卖 | "打开饿了么,搜‘火锅’,选最近的评分4.9店,下单一份毛肚" | AI自动完成搜索、筛选、进入店铺、加购、结算(支付前会暂停确认) |
| 社交 | "打开微信,给张三发消息‘周末聚餐地点定在XX餐厅’" | 精准定位联系人,调起输入法,发送指定文字 |
| 购物 | "打开淘宝,搜‘无线降噪耳机’,按销量排序,打开第一个商品页" | 展示AI如何理解“销量排序”并执行点击 |
| 工具 | "打开相册,找2024年6月15日拍的照片" | 利用系统相册时间索引能力,快速定位 |
指令写作心法(提升成功率):
- 说人话,别缩写:写“打开小红书”而非“开小红书”;写“搜索美食攻略”而非“搜美食”。
- 给明确目标,少模糊词:“附近”“最好”“很多”这类词AI难量化,换成“500米内”“评分4.8以上”“前三条”。
- 一次一任务:不要写“打开抖音,搜美食,关注10个博主”,AI会专注做好第一件事。后续任务可链式调用。
4.2 Python API模式:给开发者留的接口
如果你会写几行Python,可以用API实现更灵活的控制,比如循环、判断、集成其他服务。
from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置连接(复用云API) model_config = ModelConfig( base_url="https://autoglm-phone-api.zhipuai.com/v1", model_name="autoglm-phone-9b", ) # 创建智能体 agent = PhoneAgent(model_config=model_config) # 执行任务(同步阻塞,等AI做完才返回) result = agent.run("打开微博,搜索‘今日热点’,截图保存") print("任务完成!结果:", result)进阶用法:自定义确认函数(安全核心)
def my_confirm(msg): print(f"\n🚨 敏感操作预警:{msg}") return input("确认执行?(y/n): ").strip().lower() == 'y' # 创建带确认的智能体 agent = PhoneAgent( model_config=model_config, confirmation_callback=my_confirm # 注入你的确认逻辑 ) agent.run("打开支付宝,转账给李四 100元") # 此时会停住,等你输入y/n4.3 敏感操作防护:AI的“刹车系统”
Open-AutoGLM内置三层防护,确保它永远是你可控的助手:
- 自动识别:当AI检测到“支付”“删除”“清空”“永久”等关键词,或进入支付页面,立即暂停。
- 人工接管:暂停时,终端显示详细操作预览(如“即将向张三转账28.5元”),并等待你输入
y或n。 - 物理隔离:所有操作需你主动授权,AI无权绕过确认。即使你睡着了,它也不会偷偷扣款。
安全实践建议:
- 首次使用,务必用“转账”“删除聊天”等指令测试确认流程。
- 生产环境,建议始终启用
confirmation_callback,把最终决定权牢牢握在自己手中。
5. 故障排除:95%的问题,这里都有答案
部署和使用中遇到报错?别关窗口,先看这一页。按现象找方案,精准解决。
5.1 连接类问题(最常见)
| 现象 | 可能原因 | 解决方案 |
|---|---|---|
adb devices显示unauthorized或空白 | 手机未授权USB调试 | 检查手机屏幕是否弹出授权弹窗,点“允许”;若没弹窗,重启手机ADB:adb kill-server && adb start-server |
adb connect IP:5555失败 | WiFi未同网/手机IP错/防火墙拦截 | 1. 确认手机和电脑在同一WiFi;2. 在手机“设置→关于手机→状态”里核对IP;3. 电脑防火墙临时关闭测试 |
终端报device not found | ADB环境变量未生效 | Windows:重启命令行;Mac:执行source ~/.zshrc;再运行adb version验证 |
5.2 执行类问题(AI“看不懂”或“点不对”)
| 现象 | 可能原因 | 解决方案 |
|---|---|---|
| AI一直说“正在分析界面”,但无后续动作 | 手机屏幕熄灭或锁屏 | 必须保持屏幕常亮且解锁!可在手机“设置→显示→休眠”调至“永不停止”。 |
| AI点击位置明显偏移(如点了屏幕顶部,实际点在底部) | 手机分辨率未正确识别 | 在main.py同级目录创建config.yaml,添加:screen_width: 1080screen_height: 2340(填你手机真实分辨率) |
| 中文输入失败,显示乱码或无反应 | ADB Keyboard未启用或冲突 | 1. 手机设置里确认ADB Keyboard是默认输入法;2. 卸载重装:adb uninstall com.android.adbkeyboard,再adb install |
5.3 云API类问题(新手最易卡壳)
| 现象 | 可能原因 | 解决方案 |
|---|---|---|
报错Connection refused或timeout | 官方云API临时维护 | 查看智谱AI状态页,或切换为本地部署(教程见文末“进阶指南”) |
返回Model not found | 模型名拼写错误 | 严格使用小写:autoglm-phone-9b(注意连字符,不是下划线) |
6. 进阶指南:从使用者到定制者
当你已熟练使用,下一步就是让它更懂你。这里提供三条轻量级升级路径,无需深入代码,10分钟见效。
6.1 用环境变量,告别重复输入
每次都要敲--device-id和--base-url?太麻烦。设置环境变量,一劳永逸:
- Windows(CMD中执行):
set PHONE_AGENT_DEVICE_ID=1234567890abcdef set PHONE_AGENT_BASE_URL=https://autoglm-phone-api.zhipuai.com/v1 set PHONE_AGENT_MODEL=autoglm-phone-9b - Mac/Linux(终端执行):
export PHONE_AGENT_DEVICE_ID="1234567890abcdef" export PHONE_AGENT_BASE_URL="https://autoglm-phone-api.zhipuai.com/v1" export PHONE_AGENT_MODEL="autoglm-phone-9b"
设置后,你只需运行:
python main.py "打开小红书"所有参数自动读取,清爽!
6.2 自定义提示词:让AI更懂你的领域
想让它成为你的专属电商助手?改一句提示词就行。编辑文件phone_agent/config/prompts.py,找到SYSTEM_PROMPT变量,替换为:
SYSTEM_PROMPT = """ 你是一个专注电商领域的手机AI助手,特别擅长在淘宝、京东、拼多多处理购物任务。 请严格遵守: 1. 搜索商品时,优先按“销量”排序,其次看“好评率” 2. 对比商品时,重点提取“价格”“发货地”“售后保障”三个字段 3. 下单前,必须确认收货地址是否为“默认地址” """保存后重试指令,你会发现AI的回复更聚焦电商细节了。
6.3 本地部署(追求极致隐私与速度)
官方云API方便,但想100%数据不出本地?可以部署自己的模型服务(需NVIDIA显卡):
- 下载模型(约18GB):
git lfs install git clone https://huggingface.co/zai-org/AutoGLM-Phone-9B - 启动vLLM服务(假设模型在
./AutoGLM-Phone-9B):python -m vllm.entrypoints.openai.api_server \ --model ./AutoGLM-Phone-9B \ --served-model-name autoglm-phone-9b \ --port 8000 \ --max-model-len 25480 - 调用时改URL:
--base-url http://localhost:8000/v1
提示:显存≥12GB可流畅运行;若显存不足,加参数
--tensor-parallel-size 1 --gpu-memory-utilization 0.95优化。
7. 总结:你的AI手机助理,已经准备就绪
回顾这一路,你完成了什么?
从零配置:装好了Python、ADB、手机开发者模式,打通了电脑与手机的数据通道;
首次运行:用一行命令,让AI替你打开了“设置”,亲眼见证了“看-想-做”的闭环;
日常使用:掌握了外卖、社交、购物等高频指令写法,知道了如何应对敏感操作;
问题排查:遇到连接失败、点击偏移、输入异常,有了清晰的解决路径;
个性定制:学会了用环境变量简化命令、用提示词强化专业能力、用本地部署守护隐私。
Open-AutoGLM的价值,从来不是炫技,而是把重复、繁琐、机械的手机操作,交还给AI。它不取代你思考,而是放大你行动的半径——今天你让它搜美食,明天它就能帮你批量处理百条微信消息,后天它能成为你专属的移动办公助理。技术的温度,在于它是否让你多出半小时陪家人,少一次为验证码焦头烂额。现在,钥匙就在你手中。别等未来,就从下一条指令开始:
python main.py "打开小红书,搜‘北京周末去哪玩’,收藏前三篇攻略"去试试吧。你的AI手机助理,正等着第一次为你服务。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。