用Open-AutoGLM打造专属AI助手,操作超简单
你有没有想过,让AI替你点外卖、刷短视频、回消息,甚至帮你批量操作手机里的几十个APP?不是靠写脚本,也不是靠录屏回放——而是像真人一样“看懂”屏幕、“理解”界面、“思考”下一步该点哪、输什么、滑哪里。现在,这一切真的可以做到了。
Open-AutoGLM 就是这样一套开箱即用的手机端AI智能助理框架。它不依赖云端API调用,不强制绑定特定设备,也不需要你懂Android开发或大模型原理。你只需要一部安卓手机、一台能联网的电脑,再花15分钟配置好,就能对它说一句:“打开小红书,搜‘川味火锅’,点进排名第一的笔记,收藏并截图”,它就会自动完成整套动作。
本文不讲晦涩的多模态对齐、不堆砌vLLM推理参数,只聚焦一件事:怎么用最短路径,把Open-AutoGLM变成你手边真正听指挥、能干活的AI助手。全程小白友好,每一步都有明确指令、常见卡点提示和真实效果预期。哪怕你从没用过ADB,也能照着做通。
1. 它到底能帮你做什么?先看几个真能跑通的场景
别被“AI Agent”这个词吓住。Open-AutoGLM 的核心能力非常实在:看图 + 理解 + 规划 + 执行。它不是在模拟点击,而是在“读懂”当前界面后,自主决定怎么做才能达成你的目标。
1.1 日常高频任务,一句话就搞定
“帮我订一杯瑞幸咖啡,地址选公司楼下,备注‘少冰,不要奶油’”
→ AI自动打开瑞幸APP,定位门店,加购商品,填写地址与备注,跳转支付页(人工确认付款)“把微信里‘产品组’群聊里昨天发的所有带图片的消息,转发到‘设计组’群”
→ AI识别聊天界面结构,按时间筛选消息,逐条长按→转发→选择目标群“打开抖音,搜索用户‘dycwo11nt61d’,点进主页,点关注按钮”
→ 这正是官方示例指令,实测30秒内完成全部操作,包括输入框唤起、键盘输入、结果列表点击、关注按钮识别与点击
这些不是Demo视频里的剪辑效果,而是本地部署后,在你自己的手机上实时发生的完整流程。
1.2 和传统自动化工具的本质区别
很多人会问:这不就是高级版Auto.js或Tasker吗?关键差异在于意图理解层:
| 对比维度 | Auto.js / Tasker | Open-AutoGLM |
|---|---|---|
| 操作依据 | 预设坐标/控件ID/图像模板匹配 | 实时OCR+界面元素识别+语义理解 |
| 适应性 | APP一更新,脚本大概率失效 | 界面改版后仍可基于文字和布局重新规划 |
| 指令方式 | 必须写代码或配置复杂规则 | 自然语言,“打开XX,找YY,点ZZ”即可 |
| 学习成本 | 需掌握JavaScript或图形化逻辑 | 只需会说人话,无需编程基础 |
换句话说:前者是“教AI固定步骤”,后者是“告诉AI目标,让它自己想路怎么走”。
1.3 安全机制很务实,不是纸上谈兵
你可能会担心:AI乱点怎么办?删我微信、转我钱?Open-AutoGLM 内置了三层防护:
- 敏感操作拦截:涉及“删除聊天”“转账”“清除数据”等关键词时,自动暂停并弹出确认提示;
- 人工接管通道:在登录页、验证码输入页等无法自动识别的环节,AI会停止执行,等待你手动操作后继续;
- 远程调试支持:所有操作都可通过WiFi ADB远程触发,手机不用一直连着电脑,隐私更可控。
这不是“理论上安全”,而是你在命令行里看到它执行到“检测到登录页,等待人工接管…”那一刻的真实体验。
2. 准备工作:三样东西,10分钟搞定
部署Open-AutoGLM,不需要租GPU服务器、不用配CUDA、不碰Docker。它的控制端(也就是你下指令的地方)运行在本地电脑上,AI模型则调用你已部署好的云服务(或使用官方提供的轻量级在线接口)。所以准备工作极其轻量。
2.1 你手边必须有的三样东西
- 一台安卓手机:Android 7.0及以上,推荐真机(模拟器兼容性差),无需Root;
- 一台能联网的电脑:Windows 或 macOS 均可,Python 3.10+ 环境;
- 一根能传数据的USB线:部分充电线仅供电,务必测试能否在电脑上识别为“传输文件”模式。
小贴士:如果你暂时不想搭云服务,可以直接使用智谱官方提供的试用API(限流但够演示)。本文所有命令均兼容两种模式,后续会说明切换方式。
2.2 手机端设置:四步到位,拒绝“未授权”
很多卡点其实发生在手机端。以下四步请严格按顺序操作,缺一不可:
开启开发者模式:
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”提示;开启USB调试:
返回设置 → 系统与更新 → 开发者选项 → 启用“USB调试”;
部分华为/小米机型还需开启“USB调试(安全设置)”;安装ADB Keyboard:
下载 ADBKeyboard.apk,安装后进入:
设置 → 语言和输入法 → 默认输入法 → 选择“ADB Keyboard”;
这是关键!没有它,AI无法向任何输入框发送文字;首次连接授权:
USB线连接手机与电脑 → 手机弹出“允许USB调试吗?”→ 勾选“始终允许” → 点击确定。
完成这四步后,在电脑终端输入adb devices,应看到类似输出:
List of devices attached 8A9X021234567890 device如果显示unauthorized,请拔掉重连;如果无输出,请换USB线或检查手机USB模式是否为“传输文件”。
2.3 电脑端环境:两行命令,干净利落
无需conda、不建虚拟环境、不折腾源。只需确保Python 3.10+已安装(终端输入python --version查看),然后执行:
# 克隆代码并安装依赖(自动处理所有包) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .注意:如果
pip install -r requirements.txt报错“no module named ‘torch’”,说明PyTorch未预装。此时单独执行:pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118(NVIDIA显卡)
或pip3 install torch torchvision torchaudio(CPU/M系列芯片)
这两行命令完成后,你的本地控制端就准备好了。接下来,就是最关键的一步:告诉AI,它要“指挥”哪台手机、调用哪个模型。
3. 第一次运行:从命令行开始,亲眼见证AI接管手机
现在,一切就绪。我们用最直接的方式——命令行——下达第一条指令,观察整个流程如何运转。
3.1 获取设备标识符(device-id)
在终端中执行:
adb devices复制输出中device前的那一串字符,例如8A9X021234567890。这就是你的手机唯一ID,后续命令中要用到。
3.2 选择模型调用方式(二选一)
Open-AutoGLM 支持两种模型接入方式,新手建议从官方试用API起步,零配置、免部署:
方式一:用官方试用API(推荐新手)
直接使用智谱提供的公开接口,无需自建服务。命令如下:python main.py \ --device-id 8A9X021234567890 \ --base-url https://api.zhipuai.com/v1 \ --model "autoglm-phone-9b" \ "打开小红书,搜索'北京咖啡馆',点进第一个笔记,点赞并收藏"方式二:用自建云服务(进阶)
如果你已在AutoDL等平台部署了vLLM服务,将--base-url替换为你的服务地址,例如:--base-url http://123.56.78.90:8800/v1
关键参数说明:
--device-id:你刚查到的手机ID;--base-url:模型推理服务地址;
最后引号内的字符串:你的自然语言指令,越具体越好。
3.3 执行并观察全过程
按下回车后,你会看到终端快速滚动日志,典型流程如下:
[INFO] 正在截取当前手机屏幕... [INFO] 屏幕已上传,请求模型理解... [INFO] 模型返回:当前为桌面界面,需启动小红书APP → 执行点击操作 [INFO] 点击坐标 (240, 480) → APP已启动 [INFO] 截图识别:顶部有搜索框 → 输入"北京咖啡馆" [INFO] 点击搜索结果第一条 → 进入笔记详情页 [INFO] 识别到点赞图标(❤)→ 点击;识别到收藏图标(☆)→ 点击 [INFO] 任务完成与此同时,你的手机屏幕会同步发生真实操作:解锁(若已设置)、打开APP、输入文字、点击列表、点赞收藏……整个过程无需你干预。
实测耗时:从指令发出到任务完成,平均25–40秒,取决于网络和手机性能。首次运行稍慢(需加载模型上下文),后续指令响应更快。
3.4 如果卡住了?三个高频问题自查表
| 现象 | 最可能原因 | 一句话解决 |
|---|---|---|
终端报错ConnectionRefusedError | --base-url地址错误或服务未启动 | 检查URL是否拼写正确,或改用官方试用API |
手机无任何反应,终端停在[INFO] 正在截取... | ADB连接失败或USB调试未授权 | 重新执行adb devices,确认状态为device |
| AI识别出错,比如点错了APP图标 | 屏幕分辨率过高导致截图模糊 | 在手机设置中临时调低显示缩放比例(如从100%调至90%) |
这些问题90%以上都能通过重启ADB服务(adb kill-server && adb start-server)或重新插拔USB线解决。
4. 超实用技巧:让AI更懂你,少走弯路
Open-AutoGLM 的强大,不仅在于它能执行指令,更在于它能理解你的表达习惯,并持续优化执行效果。以下四个技巧,能立刻提升你的使用体验。
4.1 指令怎么写才最有效?记住这三条铁律
铁律一:动词开头,目标明确
好:“打开微博,搜‘神舟十八号’,点最新热搜”
❌ 差:“我想看看神舟十八号的热搜”(AI无法识别“想”是操作指令)铁律二:补充关键细节,避免歧义
好:“在微信里,给‘张三’发消息:‘会议推迟到下午三点’”
❌ 差:“给张三发消息”(AI不知道是微信、短信还是邮件)铁律三:分步复杂任务,用句号隔开
好:“打开淘宝。搜索‘无线耳机’。点销量排序。选价格低于200元的第一款。加入购物车。”
❌ 差:“打开淘宝搜无线耳机按销量排选200以内第一款加购”(长句易解析失败)
小实验:试试对AI说“帮我做个PPT”,它会回复:“请提供主题、页数、是否需要图表”。它不会瞎猜,但会主动追问缺失信息——这才是真正可用的AI。
4.2 用Python API封装成自己的小工具
命令行适合测试,但日常使用更需要集成到自己的工作流中。Open-AutoGLM 提供了简洁的Python接口,几行代码就能封装成函数:
from phone_agent.main import run_task def my_phone_helper(instruction: str): result = run_task( device_id="8A9X021234567890", base_url="https://api.zhipuai.com/v1", model="autoglm-phone-9b", instruction=instruction ) return result["status"] == "success" # 调用示例 if my_phone_helper("打开高德地图,导航到中关村创业大街"): print("已启动导航") else: print("执行失败,请检查手机连接")你可以把它加到你的每日待办脚本里,或者做成一个简单的GUI按钮,一键触发常用操作。
4.3 WiFi无线控制:摆脱USB线束缚
USB线虽稳定,但总归不便。Open-AutoGLM 原生支持WiFi ADB,只需两步:
- 首次用USB连接时启用TCP/IP:
adb tcpip 5555 - 断开USB,用WiFi连接:
adb connect 192.168.1.100:5555 # 替换为你的手机IP
之后,所有--device-id参数直接填192.168.1.100:5555即可。手机和电脑在同一WiFi下,距离10米内均可稳定控制。
提示:手机IP可在「设置→关于手机→状态信息」中找到,或用
adb shell ip addr show wlan0 \| grep 'inet '查询。
4.4 敏感操作不慌,人工接管无缝衔接
当你下达“删除微信聊天记录”这类指令时,AI不会直接执行。它会输出:
[WARNING] 检测到高风险操作“删除聊天记录”,已暂停执行。 请手动操作后,输入 'continue' 继续,或 'abort' 取消。此时你只需在终端输入continue,AI便会接着执行后续步骤。这种“人在环路”的设计,既保障了安全,又不牺牲自动化体验。
5. 总结:这不是玩具,而是你下一个生产力伙伴
回顾整个过程,你其实只做了三件事:
① 在手机上开了个“开发者开关”;
② 在电脑上跑了两行安装命令;
③ 在终端里敲了一行带自然语言的指令。
没有模型训练、没有界面开发、没有API密钥申请。Open-AutoGLM 把AI Agent的门槛,降到了“会用手机”这个级别。
它真正的价值,不在于炫技般的多模态能力,而在于把重复、机械、费眼的手机操作,交还给AI去承担。你可以把每天刷10分钟短视频的时间,换成让AI帮你整理微信未读消息;把花半小时找优惠券的精力,换成让它自动比价下单。
更重要的是,它是开源的、可私有化的、可定制的。今天你用它点外卖,明天就能让它监控竞品APP更新、自动填写问卷、批量管理社交媒体账号——只要你想得到,它就有可能做到。
技术终将回归人的需求。而Open-AutoGLM,正是一把真正好用的钥匙。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。