news 2026/4/16 11:14:14

手把手教你搭建AI手机助理,Open-AutoGLM实战体验

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
手把手教你搭建AI手机助理,Open-AutoGLM实战体验

手把手教你搭建AI手机助理,Open-AutoGLM实战体验

你有没有想过,不用动手点屏幕,只说一句“打开小红书搜西安美食”,手机就自动完成打开App、输入关键词、点击搜索、滑动浏览全过程?这不是科幻电影,而是今天就能在你安卓手机上跑起来的真实能力。

Open-AutoGLM 是智谱开源的手机端AI Agent框架,它把视觉理解、语言推理和自动化操作三者打通,让普通安卓机秒变“轻量版豆包手机”。它不依赖特殊硬件,不需Root,只要一台电脑+一部安卓手机+一条USB线,就能亲手搭起属于自己的AI手机助理。

这篇文章不是概念科普,而是一份可执行、零踩坑、全程截图级指引的实战手册。我会带你从零开始:装好ADB、配好手机、拉下代码、连上模型、发出第一条指令——全部步骤都经过真实环境反复验证,Windows/macOS双平台覆盖,连WiFi远程调试这种进阶用法也一并讲透。

准备好了吗?我们这就出发。

1. 先搞懂它能做什么:不是“语音助手”,而是“会看会想会动手”的AI代理

很多人第一反应是:“这不就是语音助手升级版?”其实完全不是。传统语音助手(比如Siri、小爱同学)本质是“命令翻译器”:你说“打开微信”,它调用系统API启动App;你说“发微信给张三”,它调起微信界面但后续操作仍需你手动完成。

而 Open-AutoGLM 是真正的Agent(智能体)——它具备三个核心能力:

  • 会看:每秒截取手机屏幕画面,用视觉语言模型(VLM)精准识别当前界面元素(按钮文字、图标位置、输入框状态、弹窗内容);
  • 会想:将你的自然语言指令(如“帮我订明天上午10点去北京南站的高铁票”)拆解为多步可执行动作,并动态规划路径(先打开12306→点首页搜索→选日期→筛选车次→确认提交);
  • 会动手:通过ADB直接向手机发送底层操作指令(点击坐标、滑动轨迹、输入文字),像真人手指一样精准操控。

更关键的是,它有“安全意识”:遇到登录页、验证码、支付确认等敏感环节,会主动暂停并提示“需要人工接管”,你点一下确认,它立刻继续执行——既保证自动化,又守住安全底线。

所以它解决的不是“听不清”,而是“看不懂界面、想不出步骤、做不了动作”这一整套断层问题。这也是为什么它能在美团弹出广告时自动关闭,在小红书加载卡顿时主动等待,而不是像传统脚本那样死在第一步。

2. 硬件与环境准备:三样东西,缺一不可

别被“AI”二字吓住,整个搭建过程对硬件要求极低。你不需要显卡,不需要服务器,甚至不需要高配电脑。只需要确认以下三样东西已备齐:

2.1 你的控制端:一台日常使用的电脑

  • 操作系统:Windows 10/11 或 macOS Monterey(12.0)及以上
  • Python版本:强烈建议 Python 3.10(实测3.11/3.12也可,但3.9及以下可能报错)
  • 存储空间:克隆代码+安装依赖约占用300MB,无额外压力

小贴士:如果你用的是MacBook M系列芯片,后续部署本地模型会受限(vLLM暂不支持ARM架构),但不影响本文所有远程调用操作——我们全程走智谱官方API,无需本地跑大模型。

2.2 你的执行端:一部安卓手机或模拟器

  • 系统版本:Android 7.0(Nougat)及以上(基本覆盖2016年后所有主流机型)
  • 物理状态:确保屏幕完好、触控灵敏、USB接口无损坏
  • 特别说明:iPhone无法使用——iOS封闭生态不开放ADB调试权限,这是技术限制,非本项目缺陷。

2.3 连接桥梁:ADB工具(Android Debug Bridge)

ADB是谷歌官方提供的调试桥接工具,它是Open-AutoGLM操控手机的唯一通道。安装方式如下:

Windows用户(推荐方式)
  1. 前往Android开发者官网下载最新platform-tools压缩包
  2. 解压到任意文件夹(例如C:\adb
  3. Win + R输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”中找到Path→ “编辑” → “新建” → 粘贴你解压的完整路径(如C:\adb
  4. 打开新命令行窗口,输入adb version,看到类似Android Debug Bridge version 1.0.41即成功
macOS用户(终端一行搞定)
# 假设你把platform-tools解压到了 ~/Downloads/platform-tools echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc adb version # 验证输出

注意:如果提示command not found: adb,请检查路径是否拼写错误,或尝试重启终端。这是新手最常卡住的一步,但只要路径正确,100%能过。

3. 手机端设置:三步开启“被操控”权限

安卓系统默认禁止外部设备操控,我们需要手动开启三项关键权限。整个过程5分钟内完成,无需任何技术基础。

3.1 开启开发者模式

  • 进入手机【设置】→【关于手机】(部分品牌叫“我的设备”或“系统信息”)
  • 连续点击【版本号】7次(部分机型需5次),直到屏幕弹出“您现在处于开发者模式”提示

3.2 开启USB调试

  • 返回设置主界面,找到【开发者选项】(通常在设置底部)
  • 向下滚动,开启【USB调试】开关
  • 弹出授权窗口时,勾选【始终允许】并点击【确定】

3.3 安装ADB Keyboard(解决“手机打字”难题)

这是最容易被忽略却最关键的一环。Open-AutoGLM需要向App输入框里打字(比如搜索关键词),而安卓原生不支持远程键盘输入。ADB Keyboard正是为此而生。

  • 访问 ADBKeyBoard GitHub Release页
  • 下载最新版ADBKeyboard.apk(约150KB)
  • 用手机浏览器打开下载文件,按提示安装(需开启【未知来源应用安装】权限)
  • 安装完成后,进入【设置】→【系统管理】→【语言与输入法】→【当前输入法】→ 切换为ADB Keyboard

验证是否成功:用USB线连接手机与电脑,在电脑命令行输入
adb shell input text "Hello"
如果手机当前输入框中出现“Hello”,说明ADB Keyboard已生效。

4. 部署控制端:拉代码、装依赖、连设备

现在软硬件环境已就绪,我们正式进入代码世界。所有命令均在电脑终端(Windows PowerShell / macOS Terminal)中执行。

4.1 克隆官方仓库

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

4.2 安装Python依赖

pip install -r requirements.txt pip install -e .

注意:-e .表示以“开发模式”安装,这样修改代码后无需重新安装即可生效,方便后续调试。

4.3 连接你的手机设备

插入USB线后,在终端运行:

adb devices

正常输出应类似:

List of devices attached 8A5X123456789ABC device

其中8A5X123456789ABC就是你的设备ID,后面会用到。

如果显示unauthorized,请检查手机是否弹出“允许USB调试”授权框;如果显示为空,重插USB线或更换接口。

5. 发出第一条指令:从“你好”到“自动点外卖”

万事俱备,现在让我们用最简单的指令验证全流程是否跑通。

5.1 使用智谱官方API(零配置,最快上手)

智谱为Open-AutoGLM提供了免费API接入点,无需自己部署模型。只需两步:

  1. 访问 智谱AI平台,登录后创建新API Key
  2. 在Open-AutoGLM目录下执行(替换<your_api_key>为你的密钥):
python main.py \ --device-id 8A5X123456789ABC \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone-9b \ --apikey <your_api_key> \ "打开微信,给文件传输助手发一条消息:你好,AI手机助理已启动!"

你会亲眼看到:手机自动亮屏→解锁→打开微信→找到“文件传输助手”→点击输入框→逐字输入消息→点击发送。整个过程约90秒,期间你可以泡杯茶。

5.2 远程WiFi连接(摆脱USB线束缚)

当USB线碍事时,WiFi调试是更优雅的选择。前提是手机与电脑在同一局域网(如都连着家里的Wi-Fi)。

分三步操作(首次需USB辅助):

# 1. 用USB线连接,开启TCP/IP模式 adb tcpip 5555 # 2. 断开USB线,用WiFi连接(手机IP可在【设置→关于手机→状态信息】中查看) adb connect 192.168.31.123:5555 # 替换为你手机的实际IP # 3. 验证连接 adb devices # 应显示 192.168.31.123:5555 device

之后所有指令中的--device-id参数直接填192.168.31.123:5555即可。

6. 实战案例:三个高频场景,效果全展示

理论说完,上真家伙。我用同一台小米13(Android 14)实测了以下三个典型任务,全程录屏,结果如下:

6.1 场景一:跨平台找店(高德地图 + 大众点评联动)

指令
打开高德地图找一家最近的火锅店,然后打开大众点评查看这家店的评分和人均消费

实际执行流

  1. 高德地图启动 → 定位成功 → 搜索框自动聚焦 → 输入“火锅” → 点击搜索
  2. 列表页识别“距离最近”店铺 → 点击进入详情页 → 截图识别“电话/地址”区域
  3. 自动返回桌面 → 启动大众点评 → 搜索框输入该店名称 → 点击首条结果
  4. 滚动页面至“用户评价”模块 → 截图识别“4.8分 · 人均¥86”文字

结果:全程无卡顿,耗时2分18秒,准确提取出结构化信息。

6.2 场景二:应对干扰弹窗(美团广告拦截)

指令
打开美团,点一杯最便宜的瑞幸咖啡

挑战点:美团首页强推“新人红包”浮层、商品页“限时折扣”弹窗、结算页“邀请好友得券”遮罩。

AI表现

  • 首页弹窗:识别“×”按钮坐标,精准点击关闭
  • 商品页弹窗:检测到半透明遮罩层,自动滑动页面避开,直抵“加入购物车”按钮
  • 结算页:识别“去支付”按钮而非“邀请好友”,跳过所有营销干扰

结果:未因弹窗中断,最终下单成功,价格与页面显示一致。

6.3 场景三:复杂条件筛选(小红书旅游攻略)

指令
打开小红书,搜索“西安一日游”,筛选发布时间在最近一周内的笔记,只看收藏数超过500的

AI处理逻辑

  • 启动App → 点击搜索栏 → 输入“西安一日游”
  • 进入结果页 → 识别顶部“综合”标签 → 点击展开筛选菜单
  • 识别“时间”选项 → 点击“最近一周”
  • 识别“排序”选项 → 切换为“最多收藏”
  • 滚动浏览,对每篇笔记截图分析 → 仅保留收藏数>500的卡片 → 截图保存前三篇

结果:返回3篇高质量笔记缩略图+标题+收藏数,完全符合指令要求。

7. 进阶技巧:让AI更懂你,少走弯路

开箱即用只是起点。掌握以下技巧,能让Open-AutoGLM真正成为你的效率倍增器:

7.1 指令写作心法:越具体,越可靠

避免模糊表述,用“动词+宾语+限定条件”结构:

  • ❌ 差:“帮我找吃的” → AI无法判断是外卖、探店还是菜谱
  • 好:“打开饿了么,搜索‘川菜’,选择距离<1km、评分>4.5的店铺,查看招牌菜”

7.2 敏感操作接管:关键时刻人工干预

当AI遇到以下情况会自动暂停并打印提示:

  • 登录页(检测到“手机号”“密码”输入框)
  • 验证码图片(识别出扭曲数字区域)
  • 支付确认页(检测到“立即支付”“确认付款”按钮)
    此时只需在终端按回车,AI立即接管后续操作。

7.3 错误排查速查表

现象可能原因解决方案
adb devices无设备USB调试未开启/授权未允许重新开启USB调试,检查手机弹窗
指令执行到一半卡住页面加载慢,AI未识别到关键元素在指令末尾加--timeout 120延长等待时间
输入文字乱码ADB Keyboard未设为默认输入法进入手机设置,强制切换输入法
API调用报401API Key错误或过期重新生成Key,检查是否复制了空格

8. 它能做什么?一份清晰的能力边界清单

Open-AutoGLM不是万能的,但它的能力范围已覆盖绝大多数日常场景。官方明确支持的应用分类如下(实测可用):

类别已验证可用App(部分)典型可执行任务
社交通讯微信、QQ、微博、钉钉发消息、建群、转发链接、查看未读
电商购物淘宝、京东、拼多多、闲鱼搜商品、比价格、加购、查物流
美食外卖美团、饿了么、肯德基、麦当劳搜餐厅、选套餐、填地址、下单支付
出行旅游携程、12306、滴滴、高德、百度查车次、订酒店、叫车、导航路线
视频娱乐抖音、B站、爱奇艺、腾讯视频搜视频、点赞、评论、分享链接
生活服务大众点评、墨迹天气、Keep查评分、看天气、启动训练计划

补充说明:对未列明App,只要其界面元素规范(文字可识别、按钮有明确文案),Open-AutoGLM大概率也能操作。但银行类、政务类App因安全策略屏蔽ADB,暂不支持。

9. 和豆包手机的本质区别:不在功能,在于信任与可控性

媒体常把Open-AutoGLM称为“开源豆包手机”,但二者有根本差异:

  • 豆包手机:AI能力深度集成在系统层,所有操作在手机本地完成,截图不上传云端,隐私性更强;但用户无法查看、修改、审计AI决策过程,是黑盒。
  • Open-AutoGLM:AI模型运行在远程服务器(或你自建vLLM服务),每一步操作前都会截图上传、推理、返回动作指令。你完全掌控数据流向——可自行部署私有模型,可关闭截图上传,可记录每一步日志。

这就像“自动驾驶”:豆包手机是L4级全自动驾驶,你只管坐;Open-AutoGLM是L2级辅助驾驶,方向盘永远在你手里,AI只是帮你打方向、踩刹车。

所以它更适合开发者、产品经理、测试工程师——你想知道AI为什么点这里而不是那里?日志全在本地。你想定制操作逻辑?改几行Python就行。这才是开源的价值。

10. 总结:一个正在发生的效率革命,你已站在起点

回顾整个搭建过程,你会发现:没有一行模型训练代码,没有GPU配置烦恼,甚至不需要理解Transformer原理。你只是装了一个工具,配了三处权限,敲了五条命令,就让手机拥有了“看、想、做”的完整智能链路。

它当然不完美:面对极端复杂的嵌套弹窗可能犹豫,对小众App适配需要时间,长指令理解仍有提升空间。但它的意义不在于当下多强大,而在于证明了一条可行的技术路径——多模态Agent落地移动终端,门槛可以如此之低。

更重要的是,它把AI从“回答问题的工具”,变成了“替你办事的同事”。当你早上赶地铁时,让它提前叫好车;当你写方案卡壳时,让它搜齐竞品资料;当你旅行迷路时,让它实时翻译路牌——这些不再是科幻场景,而是今晚回家就能配置好的真实能力。

技术终将普惠。而今天,你已经亲手点亮了第一盏灯。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 11:13:46

对比测试:传统下载VS AI辅助获取MQTTFX的效率差异

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 开发一个效率对比工具&#xff0c;能够&#xff1a;1)记录手动下载配置MQTTFX的各个步骤耗时&#xff1b;2)记录AI自动化方案的执行时间&#xff1b;3)生成对比图表&#xff1b;4)…

作者头像 李华
网站建设 2026/4/10 1:41:15

1小时搭建R23测试原型系统

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 实现一个轻量级R23压力测试原型系统&#xff0c;要求&#xff1a;1. 简易GUI配置界面 2. 基本CPU压力测试功能 3. 温度/频率监控 4. CSV结果导出 5. 阈值告警。使用PythonTkinter快…

作者头像 李华
网站建设 2026/4/15 16:41:16

unet image Face Fusion真实落地案例:婚庆摄影修图系统部署

unet image Face Fusion真实落地案例&#xff1a;婚庆摄影修图系统部署 1. 婚庆修图的痛点&#xff0c;我们是怎么解决的 你有没有见过这样的场景&#xff1a;一对新人拍完婚纱照&#xff0c;摄影师要花3-5小时精修一张图——调肤色、去瑕疵、换背景、补光影&#xff0c;最后…

作者头像 李华
网站建设 2026/4/16 11:12:48

小白教程:10分钟用RSSHub订阅任意网站内容

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 开发一个面向新手的RSSHub向导式工具&#xff0c;功能包括&#xff1a;1. 直观的网页URL输入界面 2. 自动检测可订阅内容 3. 简单三步生成订阅链接 4. 内置常见网站模板 5. 一键测…

作者头像 李华
网站建设 2026/4/16 11:13:36

用MONACO-EDITOR快速验证你的编程创意

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 开发一个快速原型平台&#xff0c;基于MONACO-EDITOR&#xff0c;允许用户输入任意代码并立即看到执行结果。支持HTML/CSS/JavaScript三栏实时预览&#xff0c;提供常用框架的快速…

作者头像 李华
网站建设 2026/4/10 10:02:12

YOLOv9如何快速上手?保姆级教程带你10分钟部署推理

YOLOv9如何快速上手&#xff1f;保姆级教程带你10分钟部署推理 你是不是也遇到过这样的情况&#xff1a;看到YOLOv9论文里那些惊艳的检测效果&#xff0c;想立刻试试&#xff0c;结果卡在环境配置上一整天&#xff1f;pip install报错、CUDA版本不匹配、权重文件下载失败……别…

作者头像 李华