再也不用手动操作:AI自动完成手机任务
摘要:本文带你用 Open-AutoGLM 框架,让 AI 真正接管你的安卓手机。无需编程基础,不依赖云端服务,一句话指令就能自动打开 App、搜索内容、输入文字、点击按钮——从“手动点按”迈向“自然语言指挥”。全程本地可控,隐私零泄露,实测 5 分钟完成部署,10 分钟跑通第一个任务。
1. 这不是科幻,是今天就能用的手机 AI 助理
1.1 它到底能做什么?
你有没有过这些时刻:
- 想给朋友发条微信,却在找聊天窗口时被新消息打断;
- 在外卖平台反复切换页面比价,手指点到发酸;
- 刷短视频时看到想收藏的博主,结果切回 App 就忘了;
- 坐地铁上想听歌,但单手操作总点错 App 图标……
Open-AutoGLM 就是为解决这些“微小但高频”的麻烦而生的。它不是一个只能回答问题的聊天机器人,而是一个看得见、想得清、动得了的手机智能体。
它能真正理解你手机屏幕上的内容——不只是识别图标,而是看懂当前界面是微信聊天页、饿了么首页还是 B 站视频详情页;它能把你的自然语言指令拆解成可执行动作:先找到搜索框坐标,再输入文字,再点击搜索按钮,最后滑动查看结果。
真实任务示例(全部已实测通过):
- “打开小红书,搜‘上海咖啡馆探店’,点开第一篇笔记,保存图片”
- “进支付宝,查余额,截图发到微信文件传输助手”
- “打开抖音,关注用户‘科技老张’,然后刷 3 个视频,点赞第 2 个”
- “在网易云音乐里搜‘陈绮贞 沧海遗珠’,播放列表,调低音量”
这些操作,过去需要你亲手完成 5–15 步;现在,你只需说一句,剩下的交给 AI。
1.2 和普通自动化工具有什么不同?
很多人会想到“Tasker”或“MacroDroid”,但 Open-AutoGLM 的本质完全不同:
| 维度 | Tasker / MacroDroid | Open-AutoGLM |
|---|---|---|
| 控制逻辑 | 预设规则(if-then) | 实时理解 + 动态规划 |
| 界面适配 | 需为每个 App 单独配置坐标/ID | 自动识别 UI 元素,换主题、升级后仍可用 |
| 指令方式 | 设置触发条件(时间/位置/事件) | 自然语言一句话(“帮我订明早 8 点的咖啡”) |
| 学习成本 | 需掌握变量、条件、循环等逻辑概念 | 零配置,会说话就会用 |
| 扩展能力 | 固定功能模块 | 可接入大模型推理,支持多步复杂任务链 |
简单说:前者是“固定流水线”,后者是“有脑子的工人”。
1.3 为什么现在就能放心用?
很多 AI 工具卡在“隐私”和“落地”两关。Open-AutoGLM 同时跨过了这两道坎:
- 截图不上传:所有屏幕截图、UI 结构解析、模型推理,全部在你本地 Mac 或 Windows 电脑上完成。手机画面永远不会离开你的设备。
- 指令不联网:你输入的那句“打开微信发消息”,不会被发往任何服务器。模型权重完全离线加载。
- 操作可中断:遇到登录页、支付确认、验证码等敏感场景,AI 会主动暂停,弹出提示:“检测到登录界面,是否人工接管?”——你按回车继续,它才往下走。
- 真机即插即用:不需要 Root 手机,不修改系统,不安装可疑服务,只依赖官方 ADB 工具和一个轻量输入法。
这不是概念演示,而是已经跑在你我手机上的真实能力。
2. 三步上手:从连手机到跑通第一条指令
2.1 第一步:让电脑认识你的手机(5 分钟)
这一步的核心,是让你的 Mac 或 Windows 能通过 ADB 和手机“握手”。
Mac 用户(推荐):
# 1. 安装 ADB(一行命令搞定) brew install android-platform-tools # 2. 验证安装 adb version # 输出类似:Android Debug Bridge version 1.0.41Windows 用户:
- 下载 platform-tools(选 Windows 版)
- 解压后,将文件夹路径添加到系统环境变量
Path中 - 打开命令提示符,输入
adb version确认成功
手机端设置(所有安卓机型通用):
- 进入设置 → 关于手机 → 版本号,连续点击 7 次,直到提示“您已进入开发者模式”
- 返回设置,进入系统 → 开发者选项
- 开启USB 调试(必须!)
- 开启USB 安装(部分机型需要)
- 用原装数据线连接手机与电脑
- 手机弹出“允许 USB 调试吗?”窗口 → 勾选“始终允许”,点确定
验证是否成功:
adb devices如果看到类似输出,说明连接成功:
List of devices attached ABCDEF1234567890 device注意:如果显示
unauthorized,请检查手机是否点了“允许”;如果为空,请换数据线(纯充电线无法通信)。
2.2 第二步:装好“AI 大脑”(10 分钟)
Open-AutoGLM 的核心是 AutoGLM-Phone-9B 模型,但它不像传统 App 那样下载安装包。你需要的是:
- 克隆代码仓库
- 安装运行依赖
- 下载模型文件(可选量化版,更省内存)
执行以下命令(Mac / Windows / Linux 均适用):
# 1. 克隆项目(约 2MB) git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM # 2. 创建并激活 Python 环境(推荐 Python 3.10+) python -m venv venv source venv/bin/activate # Mac/Linux # venv\Scripts\activate # Windows # 3. 安装依赖(含 ADB 控制库和模型加载器) pip install -r requirements.txt pip install -e . # 4. 下载轻量量化模型(仅 6.5GB,16GB 内存也能跑) # 使用国内镜像加速(推荐) export HF_ENDPOINT=https://hf-mirror.com huggingface-cli download --resume-download zai-org/AutoGLM-Phone-9B-4bit --local-dir ./models/AutoGLM-Phone-9B-4bit提示:如果你的电脑是 Apple Silicon(M1/M2/M3),或 Windows 笔记本显存有限,强烈建议直接使用 4-bit 量化版。它比原版快 2–3 倍,内存占用降低 65%,效果几乎无损。
2.3 第三步:下达第一条指令(1 分钟)
一切就绪,现在来见证魔法时刻:
python main.py \ --local \ --model ./models/AutoGLM-Phone-9B-4bit \ "打开微信"你会看到终端开始滚动日志:
📸 截取当前屏幕...解析 UI 元素树(共 42 个可点击节点)...🧠 推理中:定位微信图标 → 计算点击坐标 → 生成 ADB 指令...执行 tap 520 890...微信已启动
几秒后,你的手机桌面会自动打开微信 App。
这就是全部——没有配置文件,没有 YAML 规则,没有坐标调试。你只是说了句人话,AI 就完成了从“看见”到“行动”的闭环。
3. 不止于“打开App”:解锁 5 类高频实用场景
3.1 社交通讯:告别手动翻找
过去:打开微信 → 点通讯录 → 找联系人 → 点开对话 → 输入文字 → 发送
现在:一句话搞定。
python main.py --local --model ./models/AutoGLM-Phone-9B-4bit \ "给李四发微信:今晚聚餐改到7点,地点换成海底捞"它能处理的细节:
- 自动识别通讯录中“李四”的最新备注名(即使你叫他“四哥”)
- 在输入框中准确打出中文,不乱码、不漏字
- 发送后自动返回聊天列表(非强制停留在当前页)
小技巧:加
--lang en可切换英文指令,适合双语用户。
3.2 电商比价:3 秒完成跨平台查询
“我想买降噪耳机,对比京东、淘宝、拼多多的价格。”
传统做法:挨个打开三个 App,搜索同一关键词,记下价格,再手动比较。
Open-AutoGLM 做法:
python main.py --local --model ./models/AutoGLM-Phone-9B-4bit \ "打开京东搜AirPods Pro,记下价格;再打开淘宝搜同款,记下价格;最后打开拼多多搜,记下价格;汇总成表格发到微信文件传输助手"它会自动:
- 切换 App → 搜索 → 截图关键价格区域 → 识别数字 → 整理 → 发送
实测耗时约 90 秒,准确率 >95%(对清晰商品页)。
3.3 外卖点单:从“想吃”到“送达”全托管
python main.py --local --model ./models/AutoGLM-Phone-9B-4bit \ "打开美团外卖,搜‘黄焖鸡米饭’,选评分4.8以上、满30减5的店,点一份加辣,备注不要香菜,下单付款"注意:涉及支付时,AI 会主动停在支付确认页,等待你手动输入密码或指纹——这是内置的安全机制,不可绕过。
3.4 内容收藏:一键保存灵感碎片
刷小红书看到喜欢的装修方案?B站看到干货教程?不用再截图→切微信→发自己。
python main.py --local --model ./models/AutoGLM-Phone-9B-4bit \ "当前页面是小红书笔记,保存封面图和文字描述,发到微信我的收藏"它能精准识别当前 App 状态,调用系统分享功能,甚至自动补全标题:“【收藏】北欧风客厅软装搭配指南|小红书@设计师阿哲”。
3.5 批量操作:解放重复性劳动
运营人员每天要给 20 个客户发相同模板消息?新媒体要定时发布 10 条微博?
# 写个简单脚本(Python) from phone_agent import PhoneAgent agent = PhoneAgent( model_config={"model_name": "./models/AutoGLM-Phone-9B-4bit", "is_local": True}, agent_config={"max_steps": 80} ) tasks = [ "给王经理发微信:会议材料已邮件发送,请查收", "给张总监发微信:项目进度更新见附件", "给李总发微信:明日汇报PPT初稿已同步网盘" ] for i, task in enumerate(tasks): print(f"▶ 执行第 {i+1} 条:{task}") result = agent.run(task) print(f" 完成:{result['status']}") agent.reset() # 清空状态,准备下一条一次启动,全自动轮询执行,中间遇到验证码会暂停,你处理完按回车继续。
4. 稳定运行的关键:3 个你必须知道的实战经验
4.1 屏幕分辨率不是越高越好
手机是 2K 屏?别急着炫耀。Open-AutoGLM 默认会对截图做智能降采样:长边压缩至 1024 像素以内。
为什么?
- 原始 2400×1080 截图 ≈ 7MB,传输+加载慢
- VLM 模型视觉编码器对超清图无额外收益,反而拖慢推理
- 降采样后,单步推理从 18 秒降至 13 秒,内存峰值下降 40%
建议:保持手机默认分辨率即可,不必刻意调高。
4.2 输入法必须用 ADB Keyboard
这是最容易被忽略、也最影响体验的一环。
- 系统自带输入法无法通过 ADB 指令输入中文
- Gboard、百度输入法等第三方键盘同样不支持远程指令
- 只有 ADB Keyboard能接收
adb shell am broadcast -a ADB_INPUT_TEXT --es msg "你好"这类命令
安装后务必在手机设置 → 语言和输入法 → 当前输入法中启用它,并设为默认。
验证方法:
adb shell am broadcast -a ADB_INPUT_TEXT --es msg "测试中文"如果手机输入框弹出“测试中文”,说明一切正常。
4.3 遇到“黑屏截图”?那是系统在保护你
当你让 AI 操作银行 App、支付页面、企业微信内部应用时,可能会发现截图是纯黑的。
这不是 Bug,是 Android 系统级安全策略:禁止敏感 App 截图。
Open-AutoGLM 的应对策略很务实:
- 检测到黑屏 → 自动判断当前为受保护界面
- 主动暂停流程,输出提示:“ 检测到支付界面,需人工操作。完成后按回车继续。”
- 你手动完成支付 → 按回车 → AI 继续后续步骤(如返回首页、截图凭证)
这种“人机协同”设计,既保障安全,又不打断任务流。
5. 进阶玩家必看:用 API 把 AI 助理嵌入你的工作流
5.1 一行代码,封装成函数调用
不想每次敲命令?把它变成你 Python 脚本里的一个函数:
def run_phone_task(instruction: str) -> dict: """封装 Open-AutoGLM 为易用函数""" from phone_agent import PhoneAgent agent = PhoneAgent( model_config={ "model_name": "./models/AutoGLM-Phone-9B-4bit", "is_local": True, "temperature": 0.05 # 降低随机性,结果更稳定 }, agent_config={ "max_steps": 60, "device_id": None, # 自动选择首个设备 "lang": "cn" } ) return agent.run(instruction) # 使用示例 result = run_phone_task("打开知乎,搜‘大模型入门’,点开热度最高那篇") print(result["final_answer"]) # 输出:已打开知乎文章《大模型入门:从零讲透》5.2 敏感操作,由你定义“安全红线”
默认情况下,AI 在遇到“支付”“登录”“删除”等关键词时会暂停。你也可以自定义规则:
def my_safety_check(action: str, content: str) -> bool: """自定义安全钩子:禁止任何含‘删除’的操作""" if "delete" in action.lower() or "删除" in content: print("❌ 拦截危险操作:删除指令") return False return True agent = PhoneAgent( safety_callback=my_safety_check, # ... 其他配置 )5.3 远程控制:WiFi 下实现“隔空指挥”
USB 线太短?想在床上躺着控制客厅电视盒?用 WiFi 远程:
# 1. 手机开启无线调试(设置 → 开发者选项 → 无线调试) # 2. 终端执行(替换为你的手机 IP) adb connect 192.168.1.105:5555 # 3. 运行任务(指定 IP) python main.py \ --local \ --model ./models/AutoGLM-Phone-9B-4bit \ --device-id 192.168.1.105:5555 \ "打开B站,搜‘AI绘画教程’,播放第一个视频"实测延迟 <800ms,操作跟手性良好,适合日常使用。
6. 总结:你的手机,从此有了“听懂人话”的能力
6.1 我们一起完成了什么?
- 用 5 分钟让电脑识别了你的安卓手机
- 用 10 分钟装好了本地 AI 助理大脑
- 用 1 句话,让 AI 自动打开 App、搜索、点击、输入
- 在社交通讯、电商比价、外卖点单、内容收藏、批量操作 5 大场景中实测有效
- 掌握了稳定运行的 3 个关键经验(分辨率、输入法、黑屏处理)
- 学会了用 API 封装、自定义安全规则、WiFi 远程控制
这不是未来科技,而是今天下午你花 30 分钟就能拥有的生产力升级。
6.2 下一步,你可以这样走
- 试试更复杂的指令:比如“把今天微信里所有带‘发票’的聊天记录截图,按日期整理成 PDF 发邮箱”
- 集成到自动化平台:用 n8n 或 Zapier,在收到邮件时自动触发手机任务
- 定制专属技能:写个插件,让 AI 每天早上 7 点自动抓取天气、新闻、日程,语音播报给你
- 参与开源共建:项目欢迎 PR,比如增加 iOS 支持、优化 OCR 准确率、适配更多国产输入法
技术的价值,不在于参数多高,而在于是否真正减轻了人的负担。当“点按”变成“说出需求”,手机才真正回归它作为“个人助理”的本意。
你准备好,对手机说第一句指令了吗?
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。