用Open-AutoGLM打造专属AI助手，操作超简单-编程阁

用Open-AutoGLM打造专属AI助手，操作超简单

你有没有想过，让AI替你点外卖、刷短视频、回消息，甚至帮你批量操作手机里的几十个APP？不是靠写脚本，也不是靠录屏回放——而是像真人一样“看懂”屏幕、“理解”界面、“思考”下一步该点哪、输什么、滑哪里。现在，这一切真的可以做到了。

Open-AutoGLM 就是这样一套开箱即用的手机端AI智能助理框架。它不依赖云端API调用，不强制绑定特定设备，也不需要你懂Android开发或大模型原理。你只需要一部安卓手机、一台能联网的电脑，再花15分钟配置好，就能对它说一句：“打开小红书，搜‘川味火锅’，点进排名第一的笔记，收藏并截图”，它就会自动完成整套动作。

本文不讲晦涩的多模态对齐、不堆砌vLLM推理参数，只聚焦一件事：怎么用最短路径，把Open-AutoGLM变成你手边真正听指挥、能干活的AI助手。全程小白友好，每一步都有明确指令、常见卡点提示和真实效果预期。哪怕你从没用过ADB，也能照着做通。

1. 它到底能帮你做什么？先看几个真能跑通的场景

别被“AI Agent”这个词吓住。Open-AutoGLM 的核心能力非常实在：看图 + 理解 + 规划 + 执行。它不是在模拟点击，而是在“读懂”当前界面后，自主决定怎么做才能达成你的目标。

1.1 日常高频任务，一句话就搞定

“帮我订一杯瑞幸咖啡，地址选公司楼下，备注‘少冰，不要奶油’”
→ AI自动打开瑞幸APP，定位门店，加购商品，填写地址与备注，跳转支付页（人工确认付款）
“把微信里‘产品组’群聊里昨天发的所有带图片的消息，转发到‘设计组’群”
→ AI识别聊天界面结构，按时间筛选消息，逐条长按→转发→选择目标群
“打开抖音，搜索用户‘dycwo11nt61d’，点进主页，点关注按钮”
→ 这正是官方示例指令，实测30秒内完成全部操作，包括输入框唤起、键盘输入、结果列表点击、关注按钮识别与点击

这些不是Demo视频里的剪辑效果，而是本地部署后，在你自己的手机上实时发生的完整流程。

1.2 和传统自动化工具的本质区别

很多人会问：这不就是高级版Auto.js或Tasker吗？关键差异在于意图理解层：

对比维度	Auto.js / Tasker	Open-AutoGLM
操作依据	预设坐标/控件ID/图像模板匹配	实时OCR+界面元素识别+语义理解
适应性	APP一更新，脚本大概率失效	界面改版后仍可基于文字和布局重新规划
指令方式	必须写代码或配置复杂规则	自然语言，“打开XX，找YY，点ZZ”即可
学习成本	需掌握JavaScript或图形化逻辑	只需会说人话，无需编程基础

换句话说：前者是“教AI固定步骤”，后者是“告诉AI目标，让它自己想路怎么走”。

1.3 安全机制很务实，不是纸上谈兵

你可能会担心：AI乱点怎么办？删我微信、转我钱？Open-AutoGLM 内置了三层防护：

敏感操作拦截：涉及“删除聊天”“转账”“清除数据”等关键词时，自动暂停并弹出确认提示；
人工接管通道：在登录页、验证码输入页等无法自动识别的环节，AI会停止执行，等待你手动操作后继续；
远程调试支持：所有操作都可通过WiFi ADB远程触发，手机不用一直连着电脑，隐私更可控。

这不是“理论上安全”，而是你在命令行里看到它执行到“检测到登录页，等待人工接管…”那一刻的真实体验。

2. 准备工作：三样东西，10分钟搞定

部署Open-AutoGLM，不需要租GPU服务器、不用配CUDA、不碰Docker。它的控制端（也就是你下指令的地方）运行在本地电脑上，AI模型则调用你已部署好的云服务（或使用官方提供的轻量级在线接口）。所以准备工作极其轻量。

2.1 你手边必须有的三样东西

一台安卓手机：Android 7.0及以上，推荐真机（模拟器兼容性差），无需Root；
一台能联网的电脑：Windows 或 macOS 均可，Python 3.10+ 环境；
一根能传数据的USB线：部分充电线仅供电，务必测试能否在电脑上识别为“传输文件”模式。

小贴士：如果你暂时不想搭云服务，可以直接使用智谱官方提供的试用API（限流但够演示）。本文所有命令均兼容两种模式，后续会说明切换方式。

2.2 手机端设置：四步到位，拒绝“未授权”

很多卡点其实发生在手机端。以下四步请严格按顺序操作，缺一不可：

开启开发者模式：
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”提示；
开启USB调试：
返回设置 → 系统与更新 → 开发者选项 → 启用“USB调试”；
部分华为/小米机型还需开启“USB调试（安全设置）”；
安装ADB Keyboard：
下载 ADBKeyboard.apk，安装后进入：
设置 → 语言和输入法 → 默认输入法 → 选择“ADB Keyboard”；
这是关键！没有它，AI无法向任何输入框发送文字；
首次连接授权：
USB线连接手机与电脑 → 手机弹出“允许USB调试吗？”→ 勾选“始终允许” → 点击确定。

完成这四步后，在电脑终端输入adb devices，应看到类似输出：

List of devices attached 8A9X021234567890 device

如果显示unauthorized，请拔掉重连；如果无输出，请换USB线或检查手机USB模式是否为“传输文件”。

2.3 电脑端环境：两行命令，干净利落

无需conda、不建虚拟环境、不折腾源。只需确保Python 3.10+已安装（终端输入python --version查看），然后执行：

# 克隆代码并安装依赖（自动处理所有包） git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .

注意：如果pip install -r requirements.txt报错“no module named ‘torch’”，说明PyTorch未预装。此时单独执行：
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118（NVIDIA显卡）
或pip3 install torch torchvision torchaudio（CPU/M系列芯片）

这两行命令完成后，你的本地控制端就准备好了。接下来，就是最关键的一步：告诉AI，它要“指挥”哪台手机、调用哪个模型。

3. 第一次运行：从命令行开始，亲眼见证AI接管手机

现在，一切就绪。我们用最直接的方式——命令行——下达第一条指令，观察整个流程如何运转。

3.1 获取设备标识符（device-id）

在终端中执行：

adb devices

复制输出中device前的那一串字符，例如8A9X021234567890。这就是你的手机唯一ID，后续命令中要用到。

3.2 选择模型调用方式（二选一）

Open-AutoGLM 支持两种模型接入方式，新手建议从官方试用API起步，零配置、免部署：

方式一：用官方试用API（推荐新手）
直接使用智谱提供的公开接口，无需自建服务。命令如下：

python main.py \ --device-id 8A9X021234567890 \ --base-url https://api.zhipuai.com/v1 \ --model "autoglm-phone-9b" \ "打开小红书，搜索'北京咖啡馆'，点进第一个笔记，点赞并收藏"

方式二：用自建云服务（进阶）
如果你已在AutoDL等平台部署了vLLM服务，将--base-url替换为你的服务地址，例如：
--base-url http://123.56.78.90:8800/v1

关键参数说明：
--device-id：你刚查到的手机ID；
--base-url：模型推理服务地址；
最后引号内的字符串：你的自然语言指令，越具体越好。

3.3 执行并观察全过程

按下回车后，你会看到终端快速滚动日志，典型流程如下：

[INFO] 正在截取当前手机屏幕... [INFO] 屏幕已上传，请求模型理解... [INFO] 模型返回：当前为桌面界面，需启动小红书APP → 执行点击操作 [INFO] 点击坐标 (240, 480) → APP已启动 [INFO] 截图识别：顶部有搜索框 → 输入"北京咖啡馆" [INFO] 点击搜索结果第一条 → 进入笔记详情页 [INFO] 识别到点赞图标（❤）→ 点击；识别到收藏图标（☆）→ 点击 [INFO] 任务完成

与此同时，你的手机屏幕会同步发生真实操作：解锁（若已设置）、打开APP、输入文字、点击列表、点赞收藏……整个过程无需你干预。

实测耗时：从指令发出到任务完成，平均25–40秒，取决于网络和手机性能。首次运行稍慢（需加载模型上下文），后续指令响应更快。

3.4 如果卡住了？三个高频问题自查表

现象	最可能原因	一句话解决
终端报错`ConnectionRefusedError`	`--base-url`地址错误或服务未启动	检查URL是否拼写正确，或改用官方试用API
手机无任何反应，终端停在`[INFO] 正在截取...`	ADB连接失败或USB调试未授权	重新执行`adb devices`，确认状态为`device`
AI识别出错，比如点错了APP图标	屏幕分辨率过高导致截图模糊	在手机设置中临时调低显示缩放比例（如从100%调至90%）

这些问题90%以上都能通过重启ADB服务（adb kill-server && adb start-server）或重新插拔USB线解决。

4. 超实用技巧：让AI更懂你，少走弯路

Open-AutoGLM 的强大，不仅在于它能执行指令，更在于它能理解你的表达习惯，并持续优化执行效果。以下四个技巧，能立刻提升你的使用体验。

4.1 指令怎么写才最有效？记住这三条铁律

铁律一：动词开头，目标明确
好：“打开微博，搜‘神舟十八号’，点最新热搜”
❌ 差：“我想看看神舟十八号的热搜”（AI无法识别“想”是操作指令）
铁律二：补充关键细节，避免歧义
好：“在微信里，给‘张三’发消息：‘会议推迟到下午三点’”
❌ 差：“给张三发消息”（AI不知道是微信、短信还是邮件）
铁律三：分步复杂任务，用句号隔开
好：“打开淘宝。搜索‘无线耳机’。点销量排序。选价格低于200元的第一款。加入购物车。”
❌ 差：“打开淘宝搜无线耳机按销量排选200以内第一款加购”（长句易解析失败）

小实验：试试对AI说“帮我做个PPT”，它会回复：“请提供主题、页数、是否需要图表”。它不会瞎猜，但会主动追问缺失信息——这才是真正可用的AI。

4.2 用Python API封装成自己的小工具

命令行适合测试，但日常使用更需要集成到自己的工作流中。Open-AutoGLM 提供了简洁的Python接口，几行代码就能封装成函数：

from phone_agent.main import run_task def my_phone_helper(instruction: str): result = run_task( device_id="8A9X021234567890", base_url="https://api.zhipuai.com/v1", model="autoglm-phone-9b", instruction=instruction ) return result["status"] == "success" # 调用示例 if my_phone_helper("打开高德地图，导航到中关村创业大街"): print("已启动导航") else: print("执行失败，请检查手机连接")

你可以把它加到你的每日待办脚本里，或者做成一个简单的GUI按钮，一键触发常用操作。

4.3 WiFi无线控制：摆脱USB线束缚

USB线虽稳定，但总归不便。Open-AutoGLM 原生支持WiFi ADB，只需两步：

首次用USB连接时启用TCP/IP：
```
adb tcpip 5555
```

断开USB，用WiFi连接：

adb connect 192.168.1.100:5555 # 替换为你的手机IP

之后，所有--device-id参数直接填192.168.1.100:5555即可。手机和电脑在同一WiFi下，距离10米内均可稳定控制。

提示：手机IP可在「设置→关于手机→状态信息」中找到，或用adb shell ip addr show wlan0 \| grep 'inet '查询。

4.4 敏感操作不慌，人工接管无缝衔接

当你下达“删除微信聊天记录”这类指令时，AI不会直接执行。它会输出：

[WARNING] 检测到高风险操作“删除聊天记录”，已暂停执行。 请手动操作后，输入 'continue' 继续，或 'abort' 取消。

此时你只需在终端输入continue，AI便会接着执行后续步骤。这种“人在环路”的设计，既保障了安全，又不牺牲自动化体验。

5. 总结：这不是玩具，而是你下一个生产力伙伴

回顾整个过程，你其实只做了三件事：
① 在手机上开了个“开发者开关”；
② 在电脑上跑了两行安装命令；
③ 在终端里敲了一行带自然语言的指令。

没有模型训练、没有界面开发、没有API密钥申请。Open-AutoGLM 把AI Agent的门槛，降到了“会用手机”这个级别。

它真正的价值，不在于炫技般的多模态能力，而在于把重复、机械、费眼的手机操作，交还给AI去承担。你可以把每天刷10分钟短视频的时间，换成让AI帮你整理微信未读消息；把花半小时找优惠券的精力，换成让它自动比价下单。

更重要的是，它是开源的、可私有化的、可定制的。今天你用它点外卖，明天就能让它监控竞品APP更新、自动填写问卷、批量管理社交媒体账号——只要你想得到，它就有可能做到。

技术终将回归人的需求。而Open-AutoGLM，正是一把真正好用的钥匙。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

用Open-AutoGLM打造专属AI助手，操作超简单