news 2026/4/16 15:50:17

再也不用手动操作:AI自动完成手机任务

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
再也不用手动操作:AI自动完成手机任务

再也不用手动操作:AI自动完成手机任务

摘要:本文带你用 Open-AutoGLM 框架,让 AI 真正接管你的安卓手机。无需编程基础,不依赖云端服务,一句话指令就能自动打开 App、搜索内容、输入文字、点击按钮——从“手动点按”迈向“自然语言指挥”。全程本地可控,隐私零泄露,实测 5 分钟完成部署,10 分钟跑通第一个任务。


1. 这不是科幻,是今天就能用的手机 AI 助理

1.1 它到底能做什么?

你有没有过这些时刻:

  • 想给朋友发条微信,却在找聊天窗口时被新消息打断;
  • 在外卖平台反复切换页面比价,手指点到发酸;
  • 刷短视频时看到想收藏的博主,结果切回 App 就忘了;
  • 坐地铁上想听歌,但单手操作总点错 App 图标……

Open-AutoGLM 就是为解决这些“微小但高频”的麻烦而生的。它不是一个只能回答问题的聊天机器人,而是一个看得见、想得清、动得了的手机智能体。

它能真正理解你手机屏幕上的内容——不只是识别图标,而是看懂当前界面是微信聊天页、饿了么首页还是 B 站视频详情页;它能把你的自然语言指令拆解成可执行动作:先找到搜索框坐标,再输入文字,再点击搜索按钮,最后滑动查看结果。

真实任务示例(全部已实测通过):

  • “打开小红书,搜‘上海咖啡馆探店’,点开第一篇笔记,保存图片”
  • “进支付宝,查余额,截图发到微信文件传输助手”
  • “打开抖音,关注用户‘科技老张’,然后刷 3 个视频,点赞第 2 个”
  • “在网易云音乐里搜‘陈绮贞 沧海遗珠’,播放列表,调低音量”

这些操作,过去需要你亲手完成 5–15 步;现在,你只需说一句,剩下的交给 AI。

1.2 和普通自动化工具有什么不同?

很多人会想到“Tasker”或“MacroDroid”,但 Open-AutoGLM 的本质完全不同:

维度Tasker / MacroDroidOpen-AutoGLM
控制逻辑预设规则(if-then)实时理解 + 动态规划
界面适配需为每个 App 单独配置坐标/ID自动识别 UI 元素,换主题、升级后仍可用
指令方式设置触发条件(时间/位置/事件)自然语言一句话(“帮我订明早 8 点的咖啡”)
学习成本需掌握变量、条件、循环等逻辑概念零配置,会说话就会用
扩展能力固定功能模块可接入大模型推理,支持多步复杂任务链

简单说:前者是“固定流水线”,后者是“有脑子的工人”。

1.3 为什么现在就能放心用?

很多 AI 工具卡在“隐私”和“落地”两关。Open-AutoGLM 同时跨过了这两道坎:

  • 截图不上传:所有屏幕截图、UI 结构解析、模型推理,全部在你本地 Mac 或 Windows 电脑上完成。手机画面永远不会离开你的设备。
  • 指令不联网:你输入的那句“打开微信发消息”,不会被发往任何服务器。模型权重完全离线加载。
  • 操作可中断:遇到登录页、支付确认、验证码等敏感场景,AI 会主动暂停,弹出提示:“检测到登录界面,是否人工接管?”——你按回车继续,它才往下走。
  • 真机即插即用:不需要 Root 手机,不修改系统,不安装可疑服务,只依赖官方 ADB 工具和一个轻量输入法。

这不是概念演示,而是已经跑在你我手机上的真实能力。


2. 三步上手:从连手机到跑通第一条指令

2.1 第一步:让电脑认识你的手机(5 分钟)

这一步的核心,是让你的 Mac 或 Windows 能通过 ADB 和手机“握手”。

Mac 用户(推荐):

# 1. 安装 ADB(一行命令搞定) brew install android-platform-tools # 2. 验证安装 adb version # 输出类似:Android Debug Bridge version 1.0.41

Windows 用户:

  • 下载 platform-tools(选 Windows 版)
  • 解压后,将文件夹路径添加到系统环境变量Path
  • 打开命令提示符,输入adb version确认成功

手机端设置(所有安卓机型通用):

  1. 进入设置 → 关于手机 → 版本号,连续点击 7 次,直到提示“您已进入开发者模式”
  2. 返回设置,进入系统 → 开发者选项
  3. 开启USB 调试(必须!)
  4. 开启USB 安装(部分机型需要)
  5. 原装数据线连接手机与电脑
  6. 手机弹出“允许 USB 调试吗?”窗口 → 勾选“始终允许”,点确定

验证是否成功:

adb devices

如果看到类似输出,说明连接成功:

List of devices attached ABCDEF1234567890 device

注意:如果显示unauthorized,请检查手机是否点了“允许”;如果为空,请换数据线(纯充电线无法通信)。

2.2 第二步:装好“AI 大脑”(10 分钟)

Open-AutoGLM 的核心是 AutoGLM-Phone-9B 模型,但它不像传统 App 那样下载安装包。你需要的是:

  • 克隆代码仓库
  • 安装运行依赖
  • 下载模型文件(可选量化版,更省内存)

执行以下命令(Mac / Windows / Linux 均适用):

# 1. 克隆项目(约 2MB) git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM # 2. 创建并激活 Python 环境(推荐 Python 3.10+) python -m venv venv source venv/bin/activate # Mac/Linux # venv\Scripts\activate # Windows # 3. 安装依赖(含 ADB 控制库和模型加载器) pip install -r requirements.txt pip install -e . # 4. 下载轻量量化模型(仅 6.5GB,16GB 内存也能跑) # 使用国内镜像加速(推荐) export HF_ENDPOINT=https://hf-mirror.com huggingface-cli download --resume-download zai-org/AutoGLM-Phone-9B-4bit --local-dir ./models/AutoGLM-Phone-9B-4bit

提示:如果你的电脑是 Apple Silicon(M1/M2/M3),或 Windows 笔记本显存有限,强烈建议直接使用 4-bit 量化版。它比原版快 2–3 倍,内存占用降低 65%,效果几乎无损。

2.3 第三步:下达第一条指令(1 分钟)

一切就绪,现在来见证魔法时刻:

python main.py \ --local \ --model ./models/AutoGLM-Phone-9B-4bit \ "打开微信"

你会看到终端开始滚动日志:

  • 📸 截取当前屏幕...
  • 解析 UI 元素树(共 42 个可点击节点)...
  • 🧠 推理中:定位微信图标 → 计算点击坐标 → 生成 ADB 指令...
  • 执行 tap 520 890...
  • 微信已启动

几秒后,你的手机桌面会自动打开微信 App。

这就是全部——没有配置文件,没有 YAML 规则,没有坐标调试。你只是说了句人话,AI 就完成了从“看见”到“行动”的闭环。


3. 不止于“打开App”:解锁 5 类高频实用场景

3.1 社交通讯:告别手动翻找

过去:打开微信 → 点通讯录 → 找联系人 → 点开对话 → 输入文字 → 发送
现在:一句话搞定。

python main.py --local --model ./models/AutoGLM-Phone-9B-4bit \ "给李四发微信:今晚聚餐改到7点,地点换成海底捞"

它能处理的细节:

  • 自动识别通讯录中“李四”的最新备注名(即使你叫他“四哥”)
  • 在输入框中准确打出中文,不乱码、不漏字
  • 发送后自动返回聊天列表(非强制停留在当前页)

小技巧:加--lang en可切换英文指令,适合双语用户。

3.2 电商比价:3 秒完成跨平台查询

“我想买降噪耳机,对比京东、淘宝、拼多多的价格。”

传统做法:挨个打开三个 App,搜索同一关键词,记下价格,再手动比较。
Open-AutoGLM 做法:

python main.py --local --model ./models/AutoGLM-Phone-9B-4bit \ "打开京东搜AirPods Pro,记下价格;再打开淘宝搜同款,记下价格;最后打开拼多多搜,记下价格;汇总成表格发到微信文件传输助手"

它会自动:

  • 切换 App → 搜索 → 截图关键价格区域 → 识别数字 → 整理 → 发送

实测耗时约 90 秒,准确率 >95%(对清晰商品页)。

3.3 外卖点单:从“想吃”到“送达”全托管

python main.py --local --model ./models/AutoGLM-Phone-9B-4bit \ "打开美团外卖,搜‘黄焖鸡米饭’,选评分4.8以上、满30减5的店,点一份加辣,备注不要香菜,下单付款"

注意:涉及支付时,AI 会主动停在支付确认页,等待你手动输入密码或指纹——这是内置的安全机制,不可绕过。

3.4 内容收藏:一键保存灵感碎片

刷小红书看到喜欢的装修方案?B站看到干货教程?不用再截图→切微信→发自己。

python main.py --local --model ./models/AutoGLM-Phone-9B-4bit \ "当前页面是小红书笔记,保存封面图和文字描述,发到微信我的收藏"

它能精准识别当前 App 状态,调用系统分享功能,甚至自动补全标题:“【收藏】北欧风客厅软装搭配指南|小红书@设计师阿哲”。

3.5 批量操作:解放重复性劳动

运营人员每天要给 20 个客户发相同模板消息?新媒体要定时发布 10 条微博?

# 写个简单脚本(Python) from phone_agent import PhoneAgent agent = PhoneAgent( model_config={"model_name": "./models/AutoGLM-Phone-9B-4bit", "is_local": True}, agent_config={"max_steps": 80} ) tasks = [ "给王经理发微信:会议材料已邮件发送,请查收", "给张总监发微信:项目进度更新见附件", "给李总发微信:明日汇报PPT初稿已同步网盘" ] for i, task in enumerate(tasks): print(f"▶ 执行第 {i+1} 条:{task}") result = agent.run(task) print(f" 完成:{result['status']}") agent.reset() # 清空状态,准备下一条

一次启动,全自动轮询执行,中间遇到验证码会暂停,你处理完按回车继续。


4. 稳定运行的关键:3 个你必须知道的实战经验

4.1 屏幕分辨率不是越高越好

手机是 2K 屏?别急着炫耀。Open-AutoGLM 默认会对截图做智能降采样:长边压缩至 1024 像素以内。

为什么?

  • 原始 2400×1080 截图 ≈ 7MB,传输+加载慢
  • VLM 模型视觉编码器对超清图无额外收益,反而拖慢推理
  • 降采样后,单步推理从 18 秒降至 13 秒,内存峰值下降 40%

建议:保持手机默认分辨率即可,不必刻意调高。

4.2 输入法必须用 ADB Keyboard

这是最容易被忽略、也最影响体验的一环。

  • 系统自带输入法无法通过 ADB 指令输入中文
  • Gboard、百度输入法等第三方键盘同样不支持远程指令
  • 只有 ADB Keyboard能接收adb shell am broadcast -a ADB_INPUT_TEXT --es msg "你好"这类命令

安装后务必在手机设置 → 语言和输入法 → 当前输入法中启用它,并设为默认。

验证方法:

adb shell am broadcast -a ADB_INPUT_TEXT --es msg "测试中文"

如果手机输入框弹出“测试中文”,说明一切正常。

4.3 遇到“黑屏截图”?那是系统在保护你

当你让 AI 操作银行 App、支付页面、企业微信内部应用时,可能会发现截图是纯黑的。

这不是 Bug,是 Android 系统级安全策略:禁止敏感 App 截图

Open-AutoGLM 的应对策略很务实:

  • 检测到黑屏 → 自动判断当前为受保护界面
  • 主动暂停流程,输出提示:“ 检测到支付界面,需人工操作。完成后按回车继续。”
  • 你手动完成支付 → 按回车 → AI 继续后续步骤(如返回首页、截图凭证)

这种“人机协同”设计,既保障安全,又不打断任务流。


5. 进阶玩家必看:用 API 把 AI 助理嵌入你的工作流

5.1 一行代码,封装成函数调用

不想每次敲命令?把它变成你 Python 脚本里的一个函数:

def run_phone_task(instruction: str) -> dict: """封装 Open-AutoGLM 为易用函数""" from phone_agent import PhoneAgent agent = PhoneAgent( model_config={ "model_name": "./models/AutoGLM-Phone-9B-4bit", "is_local": True, "temperature": 0.05 # 降低随机性,结果更稳定 }, agent_config={ "max_steps": 60, "device_id": None, # 自动选择首个设备 "lang": "cn" } ) return agent.run(instruction) # 使用示例 result = run_phone_task("打开知乎,搜‘大模型入门’,点开热度最高那篇") print(result["final_answer"]) # 输出:已打开知乎文章《大模型入门:从零讲透》

5.2 敏感操作,由你定义“安全红线”

默认情况下,AI 在遇到“支付”“登录”“删除”等关键词时会暂停。你也可以自定义规则:

def my_safety_check(action: str, content: str) -> bool: """自定义安全钩子:禁止任何含‘删除’的操作""" if "delete" in action.lower() or "删除" in content: print("❌ 拦截危险操作:删除指令") return False return True agent = PhoneAgent( safety_callback=my_safety_check, # ... 其他配置 )

5.3 远程控制:WiFi 下实现“隔空指挥”

USB 线太短?想在床上躺着控制客厅电视盒?用 WiFi 远程:

# 1. 手机开启无线调试(设置 → 开发者选项 → 无线调试) # 2. 终端执行(替换为你的手机 IP) adb connect 192.168.1.105:5555 # 3. 运行任务(指定 IP) python main.py \ --local \ --model ./models/AutoGLM-Phone-9B-4bit \ --device-id 192.168.1.105:5555 \ "打开B站,搜‘AI绘画教程’,播放第一个视频"

实测延迟 <800ms,操作跟手性良好,适合日常使用。


6. 总结:你的手机,从此有了“听懂人话”的能力

6.1 我们一起完成了什么?

  • 用 5 分钟让电脑识别了你的安卓手机
  • 用 10 分钟装好了本地 AI 助理大脑
  • 用 1 句话,让 AI 自动打开 App、搜索、点击、输入
  • 在社交通讯、电商比价、外卖点单、内容收藏、批量操作 5 大场景中实测有效
  • 掌握了稳定运行的 3 个关键经验(分辨率、输入法、黑屏处理)
  • 学会了用 API 封装、自定义安全规则、WiFi 远程控制

这不是未来科技,而是今天下午你花 30 分钟就能拥有的生产力升级。

6.2 下一步,你可以这样走

  • 试试更复杂的指令:比如“把今天微信里所有带‘发票’的聊天记录截图,按日期整理成 PDF 发邮箱”
  • 集成到自动化平台:用 n8n 或 Zapier,在收到邮件时自动触发手机任务
  • 定制专属技能:写个插件,让 AI 每天早上 7 点自动抓取天气、新闻、日程,语音播报给你
  • 参与开源共建:项目欢迎 PR,比如增加 iOS 支持、优化 OCR 准确率、适配更多国产输入法

技术的价值,不在于参数多高,而在于是否真正减轻了人的负担。当“点按”变成“说出需求”,手机才真正回归它作为“个人助理”的本意。

你准备好,对手机说第一句指令了吗?


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 12:39:18

无需训练!GPEN预装权重直接推理人像修复

无需训练&#xff01;GPEN预装权重直接推理人像修复 你有没有遇到过这样的情况&#xff1a;翻出一张老照片&#xff0c;人脸模糊、有噪点、甚至带划痕&#xff0c;想修复却卡在第一步——环境配不起来、模型下不了、权重找不到&#xff1f;更别说还要调参、训练、调试显存………

作者头像 李华
网站建设 2026/4/16 14:31:33

英雄联盟智能辅助:7大突破功能全方位提升游戏体验

英雄联盟智能辅助&#xff1a;7大突破功能全方位提升游戏体验 【免费下载链接】League-Toolkit 兴趣使然的、简单易用的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 核心价值&#xff1…

作者头像 李华
网站建设 2026/4/16 12:16:31

Qwen3-TTS-Tokenizer-12Hz实战手册:Web界面响应时间监控与性能调优

Qwen3-TTS-Tokenizer-12Hz实战手册&#xff1a;Web界面响应时间监控与性能调优 1. 为什么需要关注Web界面响应时间&#xff1f; 你刚启动Qwen3-TTS-Tokenizer-12Hz镜像&#xff0c;打开浏览器输入地址&#xff0c;却等了5秒才看到“&#x1f7e2; 模型就绪”——这背后不只是…

作者头像 李华
网站建设 2026/4/16 12:49:16

3步打造暗黑破坏神2沉浸式体验:游戏增强工具完全指南

3步打造暗黑破坏神2沉浸式体验&#xff1a;游戏增强工具完全指南 【免费下载链接】d2dx D2DX is a complete solution to make Diablo II run well on modern PCs, with high fps and better resolutions. 项目地址: https://gitcode.com/gh_mirrors/d2/d2dx 作为一款经…

作者头像 李华
网站建设 2026/4/13 17:36:24

ms-swift模型推送:将微调结果发布到ModelScope全步骤

ms-swift模型推送&#xff1a;将微调结果发布到ModelScope全步骤 1. 为什么要把微调模型推送到ModelScope 你花了几小时甚至几天时间&#xff0c;用ms-swift完成了Qwen2.5-7B-Instruct的LoRA微调&#xff0c;训练日志里写着“best_model_checkpoint”和“last_model_checkpoi…

作者头像 李华