news 2026/4/16 14:41:40

手把手教你部署Open-AutoGLM,轻松打造私人手机助手

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
手把手教你部署Open-AutoGLM,轻松打造私人手机助手

手把手教你部署Open-AutoGLM,轻松打造私人手机助手

1. 这不是科幻,是今天就能用上的手机AI助理

你有没有想过,让AI替你点外卖、刷短视频、填表单、批量关注博主?不是靠写脚本,而是像对朋友说话一样,直接说:“打开小红书搜‘健身食谱’,把前五篇收藏”,然后它就真的做了。

Open-AutoGLM 就是这样一套真实可用的系统。它不是概念演示,也不是云端黑盒——它是一个开源、可私有化部署、真正能“看见”手机屏幕并“动手”操作的 AI Agent 框架。背后没有魔法,只有清晰的多模态理解 + 精准的动作规划 + 稳定的 ADB 控制链路。

这篇文章不讲大道理,不堆术语,只带你从零开始,在本地电脑上连上自己的安卓手机,跑通第一个自然语言指令。全程不需要云服务器、不依赖网络API、不碰复杂配置。只要一台能装Python的电脑、一部安卓真机、一根数据线,20分钟内,你就能亲眼看到AI替你点开APP、输入文字、点击按钮。

我们不预设你懂ADB、没接触过vLLM、甚至没写过一行Python。每一步都告诉你为什么这么做,哪里容易卡住,以及卡住了怎么快速解。

准备好了吗?我们这就开始。

2. 先搞懂它到底在做什么(一句话说清)

Open-AutoGLM 的核心能力,可以用一个闭环来概括:

你看得见的界面 → 它看得懂的图像 → 它想得到的步骤 → 它动得了的手指

具体来说:

  • :它通过截图获取当前手机屏幕画面,用视觉语言模型(VLM)理解界面上有什么——比如“顶部是搜索框,中间是‘小红书’图标,右下角是‘我’的Tab”;
  • :结合你输入的自然语言指令(如“登录微信并发送‘收到’给张三”),推理出要完成任务需要哪几步:先点微信图标 → 等待加载 → 找到张三聊天窗口 → 点击输入框 → 输入文字 → 点击发送;
  • :调用 ADB 命令,精准模拟人类操作:adb shell input tap x y(点击)、adb shell input text "收到"(输入)、adb shell input keyevent 66(回车);
  • :所有操作都在你掌控中——敏感动作(如支付、删除)会暂停并弹窗确认;遇到验证码或登录页,自动切回人工接管。

它不是万能的,但足够聪明:能处理绝大多数主流APP的常规操作,且越用越准。而这一切,都运行在你自己的设备上。

3. 本地部署四步走:环境、手机、代码、运行

我们跳过云服务、跳过GPU租用,专注最轻量、最可控的本地部署路径。整个流程分为四个明确阶段,每个阶段都有检查点,确保你随时知道卡在哪、怎么解。

3.1 第一步:配好你的控制端(本地电脑)

这是整个系统的“大脑”,负责发号施令。它不跑模型,只做调度和通信。

3.1.1 硬件与基础软件
  • 操作系统:Windows 10/11 或 macOS Monterey 及以上(不推荐Linux桌面版,ADB权限易出问题);
  • Python:必须是3.10.x(实测 3.10.12 最稳),不要用 3.11+ 或 3.9-,否则requirements.txt中某些包会安装失败;
  • ADB 工具:Android SDK Platform-Tools,官方下载页(选对应系统zip包);
  • 验证是否就绪
    python --version # 应输出 Python 3.10.x adb version # 应输出 Android Debug Bridge version 1.0.41 或更高
3.1.2 ADB 环境变量配置(关键!)
  • Windows
    1. 解压下载的platform-tools.zip到一个固定路径,例如C:\adb
    2. Win + R→ 输入sysdm.cpl→ “高级” → “环境变量”;
    3. 在“系统变量”中找到Path,点击“编辑” → “新建” → 粘贴C:\adb
    4. 重启命令行,再执行adb version,有输出即成功。
  • macOS: 在终端中执行(将路径替换为你实际解压位置):
    echo 'export PATH=$PATH:/Users/yourname/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc
    再执行adb version验证。

注意:很多卡顿源于此步。如果adb devices始终无响应,请先确认这一步是否100%完成。

3.2 第二步:调通你的安卓手机(真机优先,别用模拟器)

模拟器兼容性差,手势识别不准,强烈建议用真机。Android 7.0+ 即可,但推荐 Android 10+(系统更稳定,开发者选项更全)。

3.2.1 手机端三步设置(缺一不可)
  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”;
  2. 开启USB调试
    返回设置 → 系统 → 开发者选项 → 打开“USB调试”;
    部分华为/小米需额外打开“USB调试(安全设置)”
  3. 安装并启用 ADB Keyboard
    • 下载 ADBKeyboard.apk 并安装(允许“未知来源应用”);
    • 设置 → 语言和输入法 → 默认输入法 → 选择ADB Keyboard
    • 这是最关键的一步:没有它,AI无法向任何输入框打字。
3.2.2 连接与授权(一次搞定,终身受益)
  • 用原装USB数据线连接手机与电脑;
  • 手机弹出“允许USB调试吗?”对话框 →勾选“始终允许” → 点击“确定”
  • 电脑端执行:
    adb devices
  • 正常输出应为:
    List of devices attached ABC123456789 device
    如果显示unauthorized,说明授权失败,请重新插拔USB线,并在手机上再次确认授权。

检查点:adb devices输出device,且手机状态栏出现“USB调试已连接”提示。

3.3 第三步:拉取并安装 Open-AutoGLM 控制端

这一步只是下载代码、装依赖,不涉及模型下载(模型会在首次运行时按需拉取,节省本地空间)。

3.3.1 克隆代码与安装

打开命令行(Windows用CMD/PowerShell,macOS用Terminal),依次执行:

# 创建项目目录 mkdir ~/autoglm && cd ~/autoglm # 克隆仓库(注意:是 zai-org,不是 ZhipuAI) git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM # 创建虚拟环境(隔离依赖,避免冲突) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows
3.3.2 安装依赖(带清华源加速)
pip install --upgrade pip pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/ pip install -e .
  • -e .表示“开发模式安装”,让系统能直接调用phone_agent模块;
  • 如果某条pip install报错,大概率是网络问题,重试即可;极少数情况需手动升级setuptoolspip install --upgrade setuptools

检查点:命令行无红色报错,最后一行显示Successfully installed ...

3.4 第四步:运行第一个指令(见证奇迹的时刻)

现在,一切就绪。我们用一条最简单的指令测试:让AI打开计算器并输入“1+1”。

3.4.1 基础命令行运行

确保你仍在Open-AutoGLM目录下,且虚拟环境已激活(命令行前缀有(venv)),执行:

python main.py \ --device-id $(adb devices | grep -o '^[^[:space:]]*') \ --base-url http://localhost:8000/v1 \ "打开计算器,输入1加1等于"
  • --device-id:自动获取当前连接的设备ID(Windows用户请将$(...)替换为实际ID,如ABC123456789);
  • --base-url:这里先指向本地localhost:8000,因为我们暂不启动云端模型服务——Open-AutoGLM 自带一个轻量级本地推理模拟器,专为快速验证设计;
  • 最后字符串:就是你下达的自然语言指令。
3.4.2 首次运行会发生什么?
  • 终端会打印日志:Loading model...Taking screenshot...Understanding UI...Planning action...Executing: tap (x,y)
  • 手机屏幕会实时响应:自动解锁(若已设置锁屏密码,需提前关闭)、打开计算器APP、点击数字键和运算符;
  • 整个过程约10-20秒,取决于手机性能。

成功标志:手机计算器屏幕上清晰显示1+1=,终端日志末尾出现Task completed successfully.

如果失败,请对照以下高频问题自查:

现象可能原因快速解决
No device foundADB未连接或ID错误重新执行adb devices,复制正确ID填入--device-id
Connection refused本地模拟服务未启动先运行python -m phone_agent.local_server,再运行main.py
手机无反应ADB Keyboard未启用回手机设置,确认默认输入法是 ADB Keyboard
指令被忽略指令太模糊改用更明确的指令,如“打开系统自带计算器APP”

4. 超实用技巧:让AI更懂你、更听话

部署通了只是起点。下面这些技巧,能让你的私人手机助手真正好用起来。

4.1 指令怎么写才有效?(小白也能掌握的提示词心法)

Open-AutoGLM 不是通用大模型,它是为“手机操作”专项优化的Agent。指令越贴近真实操作逻辑,成功率越高。

  • 好指令(明确、具体、有上下文)
    “打开微信,进入‘技术交流群’,发送‘今天的部署很顺利!’,然后退出聊天窗口。”
    解析:APP名+页面名+动作+内容+收尾,形成完整闭环。

  • 差指令(模糊、抽象、无目标)
    “帮我沟通一下。”
    问题:没说APP、没说对象、没说内容,AI无法规划。

  • 进阶技巧

  • 加时间限定:“立刻”、“马上”会让AI跳过等待动画;

  • 加容错描述:“如果找不到‘技术交流群’,就搜索群名再进入”;

  • 加接管提示:“遇到登录页或验证码,暂停并通知我”。

4.2 用Python API写自己的自动化脚本

不想每次敲命令?把它变成你自己的工具函数:

# save_as auto_helper.py from phone_agent.main import run_task def open_xiaohongshu_search(keyword): """一键打开小红书搜索指定关键词""" return run_task( device_id="ABC123456789", base_url="http://localhost:8000/v1", instruction=f"打开小红书APP,点击搜索框,输入'{keyword}',点击搜索" ) # 使用 result = open_xiaohongshu_search("AI手机助手") print("执行结果:", result)
  • 把这段代码保存为auto_helper.py,放在Open-AutoGLM同级目录;
  • 运行python auto_helper.py,就能复用这个功能;
  • 后续可扩展为:批量关注博主、定时刷抖音、自动回复消息等。

4.3 远程控制:摆脱USB线,用WiFi操控手机

USB线虽稳,但不方便。WiFi ADB 是更优雅的方案:

# 1. 先用USB连接,开启TCP/IP模式 adb tcpip 5555 # 2. 断开USB,连接手机WiFi IP(在手机「设置→关于手机→状态」里查看IP) adb connect 192.168.1.100:5555 # 3. 验证 adb devices # 应显示 192.168.1.100:5555 device # 4. 运行指令时,直接用IP代替设备ID python main.py \ --device-id 192.168.1.100:5555 \ --base-url http://localhost:8000/v1 \ "打开B站,搜索‘Open-AutoGLM’"

注意:手机和电脑必须在同一WiFi网络下;部分企业WiFi会禁用ADB端口,家用路由器通常无问题。

5. 常见问题快查手册(省去翻文档时间)

我们把部署过程中90%的报错,浓缩成一张表。遇到问题,先看这里。

错误信息 / 现象根本原因三步解决法
adb: command not foundADB未加入环境变量①确认ADB解压路径 ②按3.1.2节重配Path ③重启命令行
device unauthorized手机未授权USB调试①拔掉USB线 ②手机设置里关闭“USB调试”再打开 ③重连并勾选“始终允许”
ModuleNotFoundError: No module named 'phone_agent'未安装项目包或环境未激活①确认在Open-AutoGLM目录下 ②执行source venv/bin/activate(macOS)或venv\Scripts\activate(Win) ③执行pip install -e .
Connection refused(连接本地服务失败)本地模拟服务器未启动①新开一个命令行窗口 ②进入Open-AutoGLM目录 ③运行python -m phone_agent.local_server
手机打开APP后无后续操作ADB Keyboard未启用①手机设置→语言和输入法 ②确认“默认输入法”是 ADB Keyboard ③返回桌面再试
指令执行一半卡住界面加载慢或元素未出现①在指令末尾加“等待页面加载完成” ②改用更稳定的APP(如系统计算器而非第三方) ③重启手机再试

6. 总结:你已经拥有了一个可成长的私人AI助理

回顾整个过程,你完成了:

  • 在本地电脑上配齐了ADB与Python环境;
  • 让自己的安卓真机成功接入并获得完全控制权;
  • 下载、安装并运行了Open-AutoGLM控制端;
  • 用一句自然语言,驱动AI完成了真实的手机操作;
  • 掌握了写高效指令、写自动化脚本、用WiFi远程控制的核心技能。

这不是终点,而是起点。接下来,你可以:

  • 把它集成进你的工作流:每天早上自动抓取新闻摘要、下班前汇总钉钉未读消息;
  • 为家人定制简易版:语音说“给妈妈打电话”,AI自动拨号;
  • 深入探索源码:phone_agent/planner/是动作规划核心,phone_agent/vision/是屏幕理解模块,它们都开放给你。

Open-AutoGLM 的价值,不在于它多强大,而在于它足够简单、足够透明、足够属于你。它把前沿的AI能力,从论文和Demo里解放出来,变成你桌面上一个可触摸、可调试、可信赖的工具。

现在,关掉这篇教程,拿起手机,连上电脑,输入你的第一条指令吧。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 3:06:20

一键启动FSMN VAD,语音活动检测开箱即用指南

一键启动FSMN VAD,语音活动检测开箱即用指南 1. 为什么你需要一个“开箱即用”的VAD工具? 你有没有遇到过这些场景: 会议录音长达2小时,但真正说话的时间加起来不到30分钟,手动剪掉静音段要花一整个下午&#xff1b…

作者头像 李华
网站建设 2026/4/16 10:46:08

verl内存冗余消除原理:3D-HybridEngine部署实测

verl内存冗余消除原理:3D-HybridEngine部署实测 1. verl 是什么:专为大模型后训练打造的强化学习框架 你可能已经用过 LLaMA、Qwen 或 Phi 等开源大模型,也尝试过用 PPO 微调它们——但有没有遇到过这样的问题:训练时显存爆满、…

作者头像 李华
网站建设 2026/4/16 3:14:00

ERNIE-4.5思维增强:21B轻量模型推理新引擎

ERNIE-4.5思维增强:21B轻量模型推理新引擎 【免费下载链接】ERNIE-4.5-21B-A3B-Thinking-GGUF 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/ERNIE-4.5-21B-A3B-Thinking-GGUF 百度ERNIE系列推出210亿参数的轻量级模型ERNIE-4.5-21B-A3B-Thinking&…

作者头像 李华
网站建设 2026/4/16 10:41:22

开源嵌入模型新标杆:Qwen3-Embedding-0.6B行业落地趋势解读

开源嵌入模型新标杆:Qwen3-Embedding-0.6B行业落地趋势解读 1. Qwen3-Embedding-0.6B:轻量高效的新一代嵌入引擎 你有没有遇到过这样的问题:想给自己的搜索系统加个语义理解能力,但一试大模型嵌入服务,不是显存爆了&…

作者头像 李华
网站建设 2026/4/16 11:11:04

小白友好:Unsloth + medical-o1数据集实战教学

小白友好:Unsloth medical-o1数据集实战教学 你是不是也遇到过这些情况: 想微调一个医学大模型,但被复杂的训练流程劝退?看到“LoRA”“SFT”“FlashAttention”就头皮发麻,不知道从哪下手?显卡只有24GB…

作者头像 李华
网站建设 2026/4/16 12:58:33

GPT-OSS-20B部署监控:GPU利用率实时跟踪教程

GPT-OSS-20B部署监控:GPU利用率实时跟踪教程 1. 为什么需要实时监控GPU利用率 当你在双卡4090D上成功启动GPT-OSS-20B的WebUI服务后,第一眼看到的往往是“模型加载完成”“服务已就绪”这类提示。但真正决定你能否稳定、高效、长时间使用它的&#xff…

作者头像 李华