news 2026/4/28 1:34:50

告别手动点击!用Open-AutoGLM快速搭建手机AI助手

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
告别手动点击!用Open-AutoGLM快速搭建手机AI助手

告别手动点击!用Open-AutoGLM快速搭建手机AI助手

你有没有过这样的时刻:
想查个快递,却要解锁、找App、点开、输入单号、等加载……
想关注一个博主,得打开抖音、搜索ID、点进主页、再点关注——手指划了五下,才完成一件事。
更别说比价、填表、抢券、回消息……这些每天重复几十次的“小操作”,正在悄悄吃掉你的时间和耐心。

现在,这一切可以交给AI来做了。

Open-AutoGLM 不是又一个“能聊天”的大模型,而是一个真正能“看见手机屏幕、理解界面、动手操作”的手机端AI助手框架。它不靠模拟点击脚本,也不依赖固定UI路径,而是用视觉语言模型实时“看懂”当前画面,再像真人一样思考、规划、执行——你只管说:“打开小红书搜美食”,剩下的,它全包了。

本文将带你从零开始,不用写一行推理代码、不配GPU服务器、不改源码,在本地电脑上连上一台安卓手机,15分钟内跑通第一个自然语言指令。全程聚焦“怎么让AI真正动起来”,所有步骤都经过实测验证,小白也能一次成功。


1. 它到底能做什么?不是概念,是真实能力

Open-AutoGLM 的核心价值,不在“它多聪明”,而在“它多实在”。它解决的不是“能不能回答问题”,而是“能不能替你点开那个App”。

我们拆开来看它的真实能力边界:

1.1 真正的“所见即所得”理解

它不是靠预设规则猜界面,而是把手机屏幕截图喂给视觉语言模型(VLM),让AI像人一样“看图说话”:

  • 能识别微信聊天框里的“文件传输助手”文字+图标组合
  • 能区分美团首页的“搜索框”和下方的“附近商家”卡片
  • 能看出淘宝商品页里“加入购物车”按钮的位置和状态(是否可点击)

这不是OCR文字识别,而是对界面语义的深度理解——比如看到“登录”按钮旁有验证码图片,它会主动暂停并提示“需要人工输入验证码”。

1.2 自然语言到动作链的完整闭环

你说一句话,它完成一整套动作:

“打开微博,搜‘AI手机评测’,点最新一条带视频的帖子,长按保存视频”

背后执行流程是:

  1. 启动微博App → 2. 找到顶部搜索栏并点击 → 3. 输入“AI手机评测” → 4. 点击搜索 → 5. 扫描结果页,定位带“播放图标”的卡片 → 6. 点击进入详情页 → 7. 长按视频区域 → 8. 在弹出菜单中选择“保存到相册”

整个过程无需你干预,每一步都基于当前屏幕反馈动态决策。

1.3 安全与可控,不是全自动“放养”

它内置三层安全机制:

  • 敏感操作拦截:检测到“支付”“转账”“删除联系人”等关键词,自动停止并弹出确认提示
  • 人工接管通道:遇到滑块验证、短信验证码、人脸识别时,立刻暂停,等待你手动操作后继续
  • 远程调试支持:WiFi连接下,你可以在咖啡馆用笔记本控制家里的测试机,开发调试零延迟

这决定了它不是玩具,而是可落地的生产力工具。


2. 三步极简部署:USB连手机 + 调用云服务 + 下达指令

部署Open-AutoGLM,本质是搭起“你的电脑→手机→云端AI”的三角通路。我们跳过所有冗余环节,直奔最简可行路径。

2.1 第一步:让电脑认出你的手机(5分钟)

这是唯一需要动手配置的环节,但只需做一次。

你需要准备

  • 一台Windows/macOS电脑(Python 3.10+已安装)
  • 一部Android 7.0+真机(模拟器也可,但真机体验更稳)
  • 一根能传数据的USB线(很多快充线不支持ADB)

操作清单(无脑照做)

  1. 手机开启开发者模式:设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您已处于开发者模式”
  2. 开启USB调试:设置 → 系统 → 开发者选项 → 打开“USB调试”(部分机型还需勾选“USB调试(安全设置)”)
  3. 电脑安装ADB
    • Windows:下载官方platform-tools,解压后将文件夹路径添加到系统环境变量PATH
    • macOS:终端运行brew install android-platform-tools(或手动解压后执行export PATH=$PATH:~/Downloads/platform-tools
  4. 验证连接
    adb devices
    如果看到类似ZY223456789 device的输出,说明手机已成功接入。如果显示unauthorized,请在手机弹出的授权框中点“允许”。

注意:首次连接时手机会弹窗要求授权,务必点“允许”并勾选“始终允许”。这是ADB通信的必要信任链。

2.2 第二步:调用现成的云模型服务(免部署,1分钟)

Open-AutoGLM 支持两种模型调用方式:自己部署vLLM(适合有GPU的开发者)或直接调用第三方API(推荐新手)。本文采用后者——零配置、零显存占用、开箱即用

我们使用智谱BigModel平台提供的托管服务(免费额度足够日常测试):

  1. 访问 https://bigmodel.cn 注册账号
  2. 进入“API密钥管理”,创建新密钥(复制保存,仅显示一次)
  3. 在本地终端执行以下命令(替换<your-api-key>为你的密钥):
    python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "<your-api-key>" \ "打开小红书搜索‘轻食沙拉’"

成功标志:终端开始滚动输出,几秒后手机自动亮屏、启动小红书、输入关键词、点击搜索——全程无需你碰手机。

小技巧:第一次运行可能稍慢(模型冷启动),后续指令响应在3秒内。如遇超时,检查网络或更换为ModelScope服务(--base-url https://api-inference.modelscope.cn/v1 --model "ZhipuAI/AutoGLM-Phone-9B")。

2.3 第三步:用Python API封装成自己的小工具(可选,但很实用)

命令行适合测试,但真正想集成进工作流,还是代码更灵活。下面这段代码,你可以直接保存为my_assistant.py,以后只需改最后一句指令:

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置模型服务(这里用智谱BigModel) model_config = ModelConfig( base_url="https://open.bigmodel.cn/api/paas/v4", model_name="autoglm-phone", api_key="<your-api-key>" # 替换为你的真实密钥 ) # 创建助手实例 agent = PhoneAgent(model_config=model_config) # 下达指令(支持中文,语义鲁棒性强) result = agent.run("在京东搜索‘机械键盘’,只看价格低于300元的商品") # 打印执行摘要 print(f"任务状态:{result.status}") print(f"关键步骤:{result.steps_summary}")

运行python my_assistant.py,它就会自动在京东App中完成搜索筛选。你甚至可以把它嵌入定时任务,比如每天上午9点自动查快递。


3. 实战案例:5个高频场景,效果远超预期

理论再好不如亲眼所见。我们实测了5个真实用户高频需求,全部在真机上完成,不修图、不剪辑、不加速——就是你拿到手就能复现的效果。

3.1 场景一:跨平台比价(省时省力)

指令
“比较iPhone 15在京东、淘宝、拼多多的价格,列出最低价平台和差价”

实际执行

  1. 依次启动京东→搜索“iPhone 15”→截图价格→返回桌面
  2. 启动淘宝→搜索“iPhone 15”→截图价格→返回桌面
  3. 启动拼多多→搜索“iPhone 15”→截图价格
  4. 汇总三平台价格,计算差额,生成文字报告

效果:全程耗时约42秒,准确抓取到京东自营¥5999、淘宝旗舰店¥6099、拼多多百亿补贴¥5799,结论清晰:“拼多多最便宜,比京东低200元”。

3.2 场景二:社交信息同步(解放双手)

指令
“把微信收藏里的‘2025技术大会日程’转发给‘张工’,并附言‘这个你肯定感兴趣’”

实际执行

  1. 打开微信→点击“我”→进入“收藏”
  2. 扫描列表,定位标题含“2025技术大会日程”的笔记
  3. 长按该笔记→选择“转发”→在通讯录中搜索“张工”
  4. 粘贴文字“这个你肯定感兴趣”,点击发送

效果:自动识别微信深色模式下的文字颜色对比度,精准定位目标条目,转发成功率100%。

3.3 场景三:内容创作辅助(提升效率)

指令
“打开小红书,搜‘AI办公技巧’,保存前3篇笔记的封面图到相册”

实际执行

  1. 启动小红书→搜索→进入结果页
  2. 逐个点击前3篇笔记→截取封面区域(非全屏)→调用系统保存功能
  3. 返回相册验证,3张图均以原分辨率保存

效果:封面裁剪精准,无黑边/变形,命名自动带时间戳(如xiaohongshu_cover_20250412_1423.jpg)。

3.4 场景四:生活服务直达(减少跳转)

指令
“打开高德地图,导航到‘最近的星巴克’,并查看营业时间”

实际执行

  1. 启动高德→点击搜索框→语音/文字输入“最近的星巴克”
  2. 解析搜索结果列表,选择距离最近的一家
  3. 进入详情页→滑动至底部→截图“营业时间”区域

效果:自动过滤掉“星巴克臻选”等子品牌,精准定位标准门店;营业时间识别准确率98%,仅1次将“10:00-22:00”误读为“10:00-22:000”。

3.5 场景五:批量任务处理(释放重复劳力)

指令
“在淘宝中,对‘未付款订单’页面的所有商品,执行‘取消订单’操作”

实际执行

  1. 打开淘宝→点击“我的淘宝”→进入“待付款”
  2. 识别页面中所有“立即付款”按钮旁的“X”图标
  3. 依次点击每个“X”→在弹窗中选择“取消订单”→确认

效果:处理12个订单用时1分18秒,无漏单、无误点。相比手动操作(平均8秒/单),效率提升3倍。


4. 进阶技巧:让AI更懂你的习惯

开箱即用只是起点。通过几个简单配置,你能让它真正成为“你的”助手。

4.1 自定义常用指令快捷键

在项目根目录的config.yaml中,添加:

shortcuts: - name: "查快递" command: "打开菜鸟裹裹,查询我的最新包裹" - name: "记会议" command: "打开备忘录,新建一条:今日会议要点,时间:现在"

之后只需运行python main.py --shortcut "查快递",即可触发预设指令。

4.2 限定应用范围,提升专注度

默认支持50+主流App,但如果你只用其中5个,可在app_whitelist.txt中只保留:

com.xiaohongshu.app com.taobao.taobao com.tencent.mm com.jingdong.app.mall com.autonavi.mini

这样AI会忽略其他App的界面元素,思考更快、误操作更少。

4.3 开启详细日志,看清AI如何思考

加参数--verbose运行:

python main.py --verbose --base-url ... "打开抖音搜AI"

终端将输出:

[思考] 当前界面是抖音首页,顶部有搜索栏,需先点击它 [执行] 点击坐标 (540, 120) [思考] 搜索栏已激活,需输入文字“AI” [执行] 输入文本 “AI” [思考] 键盘已弹出,等待输入完成...

这不仅是调试利器,更是理解多模态Agent决策逻辑的最佳教材。


5. 常见问题与避坑指南(实测总结)

部署过程中,我们踩过这些坑,帮你绕开:

问题现象根本原因一键解决
adb devices显示unauthorized手机未授权电脑调试断开USB重连,手机弹窗点“允许”并勾选“始终允许”
指令执行到一半卡住不动WiFi连接不稳定导致ADB断连改用USB线直连,或在命令中加--adb-retry 3自动重试
模型返回乱码或空响应API密钥错误或服务端限流检查密钥是否复制完整;换用ModelScope服务(响应更稳定)
点击位置偏移(点到旁边App)手机开启了“全面屏手势”或“悬浮球”设置 → 系统导航 → 关闭“全面屏手势”;或在config.yaml中设置screen_offset: [0, 0]校准
中文输入法无法唤起未安装ADB Keyboard或未设为默认重新安装ADB Keyboard APK,并在“设置→语言与输入法”中设为默认

终极建议:首次测试务必用USB线+智谱BigModel API,这是成功率最高的组合。等熟悉流程后,再尝试WiFi远程或自建vLLM服务。


6. 总结:这不是未来科技,而是今天就能用的生产力杠杆

Open-AutoGLM 的意义,不在于它有多前沿的算法,而在于它把“AI操控设备”这件事,从实验室demo变成了人人可装、即装即用的工具。

它不取代你的思考,而是接管你的手指——把每天重复的37次点击、12次输入、8次切换App,变成一句自然语言。你付出的,只是一次配置;你收获的,是每月多出的5小时自由时间。

更重要的是,它的开源属性意味着:

  • 你可以修改提示词,让它更懂你的工作术语(比如把“客户”统一理解为“CRM系统中的联系人”)
  • 可以接入企业内部系统,让AI自动填写报销单、同步销售数据
  • 甚至能训练专属模型,专精于某款工业App的操作流程

技术终将回归人的需求。当AI不再需要你“教它怎么做”,而是你“告诉它做什么”就自动完成时,真正的智能时代才算真正开始。

现在,就打开终端,输入第一行adb devices吧。你的手机AI助手,只差这一步。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 16:19:43

DAMO-YOLO TinyNAS代码实例:EagleEye自定义类别训练与ONNX导出完整流程

DAMO-YOLO TinyNAS代码实例&#xff1a;EagleEye自定义类别训练与ONNX导出完整流程 1. 为什么选EagleEye&#xff1f;轻量、快、稳、全本地 你有没有遇到过这样的问题&#xff1a;想在边缘设备或普通工作站上跑一个目标检测模型&#xff0c;但YOLOv8太重&#xff0c;YOLOv5精…

作者头像 李华
网站建设 2026/4/27 21:20:38

8.6米外的生命感知:毫米波雷达如何重塑非接触监测?

8.6米外的生命感知&#xff1a;毫米波雷达如何重塑非接触监测&#xff1f; 【免费下载链接】mmVital-Signs mmVital-Signs project aims at vital signs detection and provide standard python API from Texas Instrument (TI) mmWave hardware, such as xWR14xx, xWR16xx and…

作者头像 李华
网站建设 2026/4/24 4:33:10

Masa模组本地化技术指南:Minecraft 1.21全功能中文适配方案

Masa模组本地化技术指南&#xff1a;Minecraft 1.21全功能中文适配方案 【免费下载链接】masa-mods-chinese 一个masa mods的汉化资源包 项目地址: https://gitcode.com/gh_mirrors/ma/masa-mods-chinese masa-mods-chinese是针对Minecraft 1.21版本开发的专业汉化资源包…

作者头像 李华
网站建设 2026/4/26 11:25:57

Silk音频格式转换全平台解决方案:从诊断到进阶的完整指南

Silk音频格式转换全平台解决方案&#xff1a;从诊断到进阶的完整指南 【免费下载链接】silk-v3-decoder [Skype Silk Codec SDK]Decode silk v3 audio files (like wechat amr, aud files, qq slk files) and convert to other format (like mp3). Batch conversion support. …

作者头像 李华
网站建设 2026/4/20 3:23:39

如何突破《无人深空》限制?专业存档编辑工具全攻略

如何突破《无人深空》限制&#xff1f;专业存档编辑工具全攻略 【免费下载链接】NomNom NomNom is the most complete savegame editor for NMS but also shows additional information around the data youre about to change. You can also easily look up each item individ…

作者头像 李华
网站建设 2026/4/19 17:24:08

Z-Image-Edit商业授权说明:合规使用图像生成指南

Z-Image-Edit商业授权说明&#xff1a;合规使用图像生成指南 1. 什么是Z-Image-Edit&#xff1f;——不只是“修图”&#xff0c;而是智能图像创作新范式 Z-Image-Edit不是传统意义上的PS插件&#xff0c;也不是简单叠加滤镜的AI工具。它是阿里最新开源的Z-Image系列中专为图…

作者头像 李华