news 2026/4/16 16:57:28

手把手教你部署Open-AutoGLM,连手机都能听懂话

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
手把手教你部署Open-AutoGLM,连手机都能听懂话

手把手教你部署Open-AutoGLM,连手机都能听懂话

你有没有试过一边炒菜一边想:“要是手机能自己打开小红书搜‘快手家常菜’就好了”?
或者加班到深夜,只想说一句“把今天会议的截图发给张经理”,手机就自动完成——不用解锁、不用点开App、不用复制粘贴。
这不是科幻片,是 Open-AutoGLM 正在做的事:让手机真正听懂人话,并替你动手

它不是另一个聊天机器人,而是一个能“看”屏幕、“读”界面、“想”步骤、“点”按钮的 AI 手机助理。你下指令,它执行;你说需求,它跑流程;你动嘴,它动手。

本文不讲抽象概念,不堆技术参数,只做一件事:带你从零开始,在自己的电脑上搭起这个会听话的手机AI代理——哪怕你没碰过ADB,也没写过一行Python,也能照着操作成功。

全程实测基于 Windows 11 和 macOS Sonoma,覆盖真机连接、WiFi远程控制、本地轻量运行与云端高性能调用四种典型场景。所有命令可直接复制粘贴,所有坑我都替你踩过了。


1. 它到底能干什么?先看三个真实指令

别急着装,先确认:这东西是不是你想要的。

我们用三句最普通的中文,测试 Open-AutoGLM 在真实安卓手机上的表现(Pixel 7a,Android 14):

1.1 “打开微信,给王磊发条消息:今晚聚餐改到7点”

自动唤醒微信 → 进入聊天列表 → 搜索“王磊” → 点击对话框 → 输入文字 → 点击发送
(全程无手动干预,耗时约28秒)

1.2 “打开高德地图,查从公司到西溪湿地的公交路线”

启动高德 → 定位起点(自动获取当前位置)→ 输入“西溪湿地”为终点 → 切换至公交模式 → 展示首班/末班时间、换乘数、步行距离
(识别出地图顶部的“公交”Tab并精准点击)

1.3 “打开小红书,搜‘露营装备推荐’,保存前3篇笔记的封面图”

启动小红书 → 点击搜索栏 → 输入关键词 → 进入图文流 → 逐篇长按封面 → 选择“保存图片” → 弹出系统提示“已保存至相册”
(自动识别“保存图片”按钮位置,适配不同机型UI偏移)

关键不在“能不能做”,而在怎么做
它不靠预设脚本,不依赖固定ID;而是每一步都先“看”一眼当前屏幕(截图+UI结构XML),再结合你的语言指令推理下一步该点哪、输什么、滑多远——就像一个坐在你旁边、手速极快又特别耐心的朋友。


2. 准备工作:三件套搞定硬件与环境

部署分两部分:手机端准备(一次配置,长期有效)和电脑端控制(你的操作台)。我们按顺序来,不跳步。

2.1 手机端:开启“被操控权限”

这是最关键的一步。很多失败,卡在这儿。

  • 开启开发者选项
    设置 → 关于手机 → 连续点击“版本号”7次 → 输入锁屏密码 → 提示“您现在是开发者!”

  • 开启USB调试
    设置 → 系统 → 开发者选项 → 打开“USB调试” → 弹窗点“确定”

  • 安装并启用 ADB Keyboard(必须!)
    下载地址:https://github.com/senzhk/adbkeyb/releases
    安装 APK 后:
    设置 → 语言与输入法 → 虚拟键盘 → 勾选ADB Keyboard→ 设为默认输入法
    验证:在任意输入框长按 → 选“输入法” → 应能看到 ADB Keyboard 被选中

注意:部分国产手机(华为、小米)需额外开启“USB调试(安全设置)”或关闭“MIUI优化”。若 adb devices 显示unauthorized,请在手机弹窗点“允许”。

2.2 电脑端:装好ADB与Python

无论 Windows 还是 macOS,只需三步:

  • 安装 ADB 工具包
    官方下载页:https://developer.android.com/tools/releases/platform-tools
    解压后记下路径,例如:C:\platform-tools(Win)或~/Downloads/platform-tools(Mac)

  • 配置环境变量(让终端认得 adb 命令)

    • Windows
      Win + R→ 输入sysdm.cpl→ 高级 → 环境变量 → 系统变量 → Path → 新建 → 粘贴 ADB 解压路径 → 确定
      打开新命令行,输入adb version,应显示版本号(如1.0.41

    • macOS
      终端执行:

      echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc adb version
  • 安装 Python 3.10+
    推荐从 python.org 下载安装包,勾选“Add Python to PATH”
    终端输入python --version,确认输出 ≥ 3.10


3. 部署控制端:克隆、安装、连设备

现在,你的电脑就是“指挥中心”。

3.1 下载并安装 Open-AutoGLM 控制代码

打开终端(Windows 用 PowerShell 或 CMD,Mac 用 Terminal):

# 克隆官方仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境(推荐,避免依赖冲突) python -m venv venv source venv/bin/activate # Mac/Linux # venv\Scripts\activate # Windows # 安装依赖(含核心库 phone_agent) pip install -r requirements.txt pip install -e .

成功标志:无报错,且python -c "import phone_agent"不报错。

3.2 连接你的手机

确保手机已通过 USB 连接电脑,并已授权调试。

  • 检查连接状态
    终端执行:

    adb devices

    输出应类似:

    List of devices attached AERFUT4B08000806 device

    若显示unauthorized,请检查手机弹窗;若为空,重插USB线或换接口。

  • WiFi 远程连接(可选,适合桌面固定使用)
    首次需 USB 连接启用 TCP/IP:

    adb tcpip 5555 # 断开USB线,连接同一WiFi adb connect 192.168.1.100:5555 # 替换为手机IP(设置→关于手机→状态→IP地址)

小技巧:手机IP可在 WiFi 设置里长按网络名查看,或用adb shell ip addr show wlan0 | grep "inet "快速获取。


4. 启动AI代理:两种方式,按需选择

Open-AutoGLM 支持两种运行模式:本地轻量运行(适合体验、隐私敏感场景)和远程API调用(适合高性能、多设备管理)。我们分别说明。

4.1 方式一:本地运行(无需云服务,手机+电脑即可)

适用于 M1/M2 Mac 或 Windows + NVIDIA 显卡用户。模型需提前下载并量化。

  • 下载并量化模型(以 Mac M2 为例)

    # 安装 Hugging Face CLI pip install -U "huggingface_hub[cli]" # 下载原始模型(约12GB,支持断点续传) huggingface-cli download --resume-download zai-org/AutoGLM-Phone-9B \ --local-dir ./models/AutoGLM-Phone-9B # 4-bit 量化(生成约6.5GB MLX 格式模型,15分钟内完成) python -m mlx_vlm.convert --hf-path ./models/AutoGLM-Phone-9B -q --q-bits 4 \ --mlx-path ./models/autoglm-9b-4bit
  • 启动本地代理

    # 单次指令执行 python main.py --local --model ./models/autoglm-9b-4bit "打开知乎,搜‘大模型入门’" # 交互模式(连续输入多条指令) python main.py --local --model ./models/autoglm-9b-4bit

优势:数据不出本地,响应稳定,适合个人日常辅助。
注意:M2 16GB 内存可运行,但建议关闭其他应用;Windows 用户需 CUDA 环境支持。

4.2 方式二:远程API调用(推荐新手,开箱即用)

如果你不想折腾模型下载与量化,可直接调用已部署好的云端服务(如 CSDN 星图镜像广场提供的预置实例)。

  • 启动命令(替换为你实际的服务器地址)

    python main.py \ --device-id AERFUT4B08000806 \ --base-url http://192.168.1.200:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音,搜‘dycwo11nt61d’并关注"
  • 参数说明

    • --device-idadb devices显示的设备ID(USB)或IP:5555(WiFi)
    • --base-url:指向 vLLM 或 Ollama 启动的 OpenAI 兼容 API(端口需映射到公网或局域网)
    • 最后字符串:你的自然语言指令,支持中文,越具体越好

优势:免模型管理,即装即用,适合快速验证效果。
提示:CSDN 星图镜像广场提供一键部署的 Open-AutoGLM 服务镜像,含预装 vLLM 与模型,3分钟可上线。


5. 实战调试:遇到问题?这样排查最有效

部署中最常见的5个问题,及对应解法:

5.1 “adb devices 显示 offline 或 unauthorized”

  • 解决:拔掉USB线 → 关闭手机“开发者选项” → 重新开启 → 再次授权调试弹窗
  • 检查:手机是否开启“USB调试(安全设置)”(华为/OPPO等品牌特有)

5.2 “执行Type动作,手机没输入文字”

  • 核心原因:ADB Keyboard 未设为默认输入法
  • 操作:设置 → 语言与输入法 → 默认输入法 → 选 ADB Keyboard
  • 验证:在备忘录里点输入框 → 长按 → “输入法” → 确认 ADB Keyboard 被勾选

5.3 “模型返回乱码或空响应”

  • 检查 base-url 是否正确(末尾必须带/v1
  • 检查 vLLM 启动时--mm-processor-kwargs参数是否包含'{"max_pixels":5000000}'
  • 降低请求复杂度,先试“打开设置”等简单指令

5.4 “点击位置偏差,总点错地方”

  • 原因:手机开启了“字体缩放”或“显示大小”
  • 解决:设置 → 显示 → 字体大小与样式 → 设为“默认”;显示大小 → 设为“默认”

5.5 “WiFi连接后adb devices不显示设备”

  • 先用USB执行adb tcpip 5555
  • 确保电脑与手机在同一子网(如都是192.168.1.x
  • 关闭电脑防火墙临时测试

终极调试命令:
adb shell screencap -p /sdcard/screen.png && adb pull /sdcard/screen.png ./
可随时抓取当前屏幕截图,确认 Agent “看到”的画面是否与你一致。


6. 进阶玩法:不止于“听话”,还能“记事”“学习惯”

Open-AutoGLM 的设计远超单次任务执行。它支持上下文记忆、多轮协作与人工接管,让自动化更自然。

6.1 多轮对话:让AI记住你的偏好

比如你第一次说:“打开网易云,播周杰伦的歌”,它会启动App并搜索。
第二次说:“换一首”,它无需再打开App,直接点击“下一首”按钮——因为它记住了当前在播放界面。

原理:Agent 在每次操作后,缓存当前界面状态(截图+XML+历史动作),作为下一轮推理的上下文。

6.2 敏感操作人工接管:安全第一

当进入银行App、支付页面或验证码弹窗时,Agent 不会强行操作,而是输出:

{"action": "Take_over", "reason": "检测到支付确认弹窗,请手动输入验证码"}

此时你只需操作手机完成验证,Agent 自动恢复后续流程。

6.3 批量任务脚本化(适合测试工程师)

将指令写入文本文件,批量执行:

# tasks.txt 内容: 打开淘宝搜索蓝牙耳机 打开小红书搜“露营装备” 打开高德查公司到西湖路线 # 执行全部 cat tasks.txt | while read cmd; do python main.py --device-id AERFUT4B08000806 --base-url http://192.168.1.200:8800/v1 --model autoglm-phone-9b "$cmd" sleep 5 done

7. 总结:这不是工具,而是你手机的“第二双手”

回看开头那句:“连手机都能听懂话”——现在你知道,它不只是听懂,更是理解、规划、执行、反馈、学习。

  • 普通用户:它是厨房里的语音助手、通勤路上的行程管家、会议中的自动记录员;
  • 开发者:它是UI自动化测试的新范式,不再维护XPath,只描述“我要做什么”;
  • 产品经理:它是竞品功能快速验证器,一句话就能跑通整个用户旅程;
  • 安全研究员:它是移动App行为审计员,自动遍历所有页面并截图留痕。

Open-AutoGLM 的价值,不在于它多“聪明”,而在于它足够“务实”:
不要求你写一行代码,只要会说话;
不依赖特定App,所有安卓应用都适用;
不需要Root,不越狱,不越权;
不只是Demo,而是已在真实测试、辅助办公场景中稳定运行。

它不取代你,而是把你从重复点击中解放出来,让你专注真正需要思考的事。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 12:20:56

Zotero插件Ethereal Style:提升文献管理效率的全方位解决方案

Zotero插件Ethereal Style:提升文献管理效率的全方位解决方案 【免费下载链接】zotero-style zotero-style - 一个 Zotero 插件,提供了一系列功能来增强 Zotero 的用户体验,如阅读进度可视化和标签管理,适合研究人员和学者。 项…

作者头像 李华
网站建设 2026/4/16 15:22:05

IQuest-Coder-V1镜像部署推荐:Docker快速启动实战手册

IQuest-Coder-V1镜像部署推荐:Docker快速启动实战手册 1. 为什么你需要这个镜像——不是又一个代码模型,而是能真正写代码的搭档 你有没有过这样的经历:花半小时调通一个本地大模型,结果发现它连基础的Python函数都写不对&#…

作者头像 李华
网站建设 2026/4/4 9:59:22

AI图像生成模型的部署实践与技术解析

AI图像生成模型的部署实践与技术解析 【免费下载链接】Qwen-Image-Lightning 项目地址: https://ai.gitcode.com/hf_mirrors/lightx2v/Qwen-Image-Lightning 阿里通义千问团队推出的Qwen-Image-Lightning模型通过创新性的模型压缩技术,在文生图领域实现了显…

作者头像 李华
网站建设 2026/4/16 10:43:53

基于Python对B站热门视频的数据分析与研究开题报告

基于Python对B站热门视频的数据分析与研究开题报告 一、选题背景及意义 (一)选题背景 随着互联网视频行业的迭代升级,B站已从最初的二次元亚文化社区,发展为覆盖生活、知识、游戏、娱乐、科技等多元内容的综合性视频平台&#x…

作者头像 李华
网站建设 2026/4/15 15:42:44

基于Web的高等学校科技成果管理系统开题报告

基于Web的高等学校科技成果管理系统开题报告 一、选题背景及意义 (一)选题背景 在科技创新驱动发展的战略背景下,高等学校作为科研创新的核心阵地,承担着人才培养、科学研究与成果转化的重要使命。近年来,高校科研实…

作者头像 李华
网站建设 2026/4/16 12:13:24

基于大数据+Hadoop+Spring Boot的高血压患者数据可视化平台开题报告

基于大数据HadoopSpring Boot的高血压患者数据可视化平台开题报告 一、选题背景及意义 (一)选题背景 随着居民生活方式转变、人口老龄化加剧,高血压已成为全球高发的慢性疾病,也是诱发脑卒中、冠心病、肾衰竭等严重并发症的核心…

作者头像 李华