news 2026/4/22 1:28:14

轻松部署Open-AutoGLM,打造专属AI手机管家

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
轻松部署Open-AutoGLM,打造专属AI手机管家

轻松部署Open-AutoGLM,打造专属AI手机管家

你有没有想过,让一个AI助手帮你操作手机?不是简单的语音唤醒,而是真正“看懂”屏幕、理解界面、自动点击、输入文字,甚至完成一连串复杂任务——比如“打开小红书搜美食”、“在抖音关注某个博主”、“查一下今天的天气并截图发朋友圈”。听起来像科幻片?现在,用Open-AutoGLM,这一切已经可以实现。

这是一套基于视觉语言模型的手机端AI Agent框架,由智谱开源。它能通过ADB连接你的安卓设备,结合多模态大模型理解屏幕内容,并根据你的自然语言指令自动规划和执行操作流程。本文将带你从零开始,一步步部署这个强大的AI手机管家,无需GPU也能轻松上手。


1. 什么是Open-AutoGLM?

Open-AutoGLM 是一个名为Phone Agent的开源项目,核心目标是让AI真正“接管”你的手机操作。它的运作方式非常直观:

  • :通过ADB实时获取手机屏幕画面,交给视觉语言模型分析。
  • :模型理解当前界面元素(按钮、输入框、标题等),结合你的指令推理下一步该做什么。
  • :通过ADB发送点击、滑动、输入等指令,自动完成任务。

整个过程就像有一个“数字分身”在替你使用手机。更棒的是,系统内置了敏感操作保护机制,遇到支付、验证码等场景会暂停并提示你手动确认,安全又智能。

你可以把它想象成一个永远在线、听懂人话、不会出错的“手机机器人”。


2. 部署前的准备工作

2.1 硬件与环境要求

要运行这套系统,你需要准备以下几样东西:

  • 一台电脑:Windows 或 macOS 均可,用于运行控制端代码。
  • 一部安卓手机:Android 7.0 及以上版本,支持USB调试。
  • Python环境:建议安装 Python 3.10 或更高版本。
  • ADB工具:Android Debug Bridge,用来连接和控制手机。

别担心,这些都不是什么高门槛的东西,大部分人都能快速搞定。

2.2 安装ADB并配置环境变量

ADB是连接电脑和手机的关键桥梁。你可以从谷歌官方下载平台工具包:

https://developer.android.com/tools/releases/platform-tools

下载后解压到任意目录,比如C:\platform-tools(Windows)或~/Downloads/platform-tools(Mac)。

接下来需要把ADB加入系统路径,这样你才能在命令行 anywhere 使用adb命令。

Windows 用户:
  1. Win + R输入sysdm.cpl打开系统属性。
  2. 进入“高级” → “环境变量”。
  3. 在“系统变量”中找到Path,点击编辑,添加你的ADB解压路径。
  4. 打开新的命令提示符窗口,输入:
    adb version
    如果显示版本号,说明安装成功。
Mac 用户:

在终端中执行以下命令(假设解压路径为~/Downloads/platform-tools):

export PATH=${PATH}:~/Downloads/platform-tools

为了永久生效,可以把这行写进.zshrc.bash_profile文件里。


3. 手机端设置:开启调试权限

为了让电脑能控制手机,必须开启开发者选项和USB调试。

3.1 开启开发者模式

进入手机“设置” → “关于手机” → 连续点击“版本号”7~10次,直到弹出提示:“您已进入开发者模式”。

不同品牌路径略有差异,也可以直接在设置中搜索“开发者选项”。

3.2 启用USB调试

返回设置主页面,进入“开发者选项”,找到并勾选:

  • USB调试
  • (小米用户额外开启)USB调试(安全设置)

注意:部分厂商(如华为、OPPO)可能会有额外的安全限制,记得允许电脑的调试授权弹窗。

3.3 安装ADB Keyboard(关键步骤!)

这是个神奇的小工具,能让AI通过ADB输入文字,而不是只能点击。

下载地址:https://github.com/senzhk/ADBKeyBoard/blob/master/ADBKeyboard.apk

将APK文件传到手机并安装。安装完成后,进入“设置” → “语言与输入法” → “默认键盘”,切换为ADB Keyboard

这一步非常重要!否则AI无法输入文字,很多操作都会失败。


4. 部署Open-AutoGLM控制端

现在回到电脑,开始部署本地控制程序。

4.1 克隆项目代码

打开终端或命令行工具,执行:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

4.2 安装依赖库

推荐使用国内镜像源加速安装:

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt pip install -e .

等待所有依赖安装完毕。如果出现报错,检查Python版本是否为3.10+,以及pip是否为最新版。


5. 连接手机设备

有两种方式连接手机:USB线缆和WiFi无线。推荐先用USB连接确保稳定性。

5.1 USB连接方式

用数据线将手机连上电脑,确保手机弹出“允许USB调试?”时点击“允许”。

然后在终端输入:

adb devices

你应该看到类似输出:

List of devices attached ABCDEF1234567890 device

只要有设备ID和device状态,就说明连接成功。

小贴士:如果你看到的是unauthorized,说明没点允许;如果是空列表,检查数据线或重新插拔。

5.2 WiFi远程连接(可选)

想摆脱数据线?可以用WiFi远程控制。

首先通过USB连接,启用ADB over TCP/IP:

adb tcpip 5555

断开USB线,然后用手机IP地址连接:

adb connect 192.168.x.x:5555

再次运行adb devices查看是否连接成功。

之后就可以在同一个局域网内远程操控手机了,非常适合做自动化测试或长期运行任务。


6. 接入AI模型服务(无需本地GPU)

Open-AutoGLM本身只是一个控制框架,真正的“大脑”是背后的多模态大模型。好消息是,你不需要自己部署模型,可以直接调用第三方API服务。

6.1 推荐方案:使用ModelScope或智谱API

以下是两个免费可用的接入方式:

平台模型名称Base URL是否需要API Key
ModelScope(魔搭)ZhipuAI/AutoGLM-Phone-9Bhttps://api-inference.modelscope.cn/v1
智谱BigModelautoglm-phonehttps://open.bigmodel.cn/api/paas/v4

两者都提供一定额度的免费调用次数,足够日常使用。

6.2 获取API Key

ModelScope为例:

  1. 访问 https://modelscope.cn
  2. 注册账号并登录
  3. 进入“个人中心” → “访问令牌” → 创建新令牌
  4. 复制生成的API Key(形如sk-xxxxxx

同样方法可在智谱平台获取对应密钥。


7. 启动AI代理,下达第一条指令!

一切准备就绪,现在让我们启动AI,让它接管手机。

7.1 命令行运行示例

在项目根目录下执行:

python main.py \ --device-id ABCDEF1234567890 \ --base-url https://api-inference.modelscope.cn/v1 \ --model "ZhipuAI/AutoGLM-Phone-9B" \ --apikey "your-api-key-here" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

  • --device-id:来自adb devices的设备ID
  • --base-url:选择的服务商API地址
  • --model:模型标识符
  • --apikey:你在平台上申请的密钥
  • 最后的字符串:你的自然语言指令

运行后,你会看到AI开始工作:

  1. 截取手机屏幕
  2. 分析界面元素
  3. 规划操作路径
  4. 自动点击“搜索框”→输入账号→点击搜索→进入主页→点击“关注”

整个过程全自动,你只需要看着手机自己“动起来”。


8. 使用Python API进行高级控制

除了命令行,你还可以在自己的脚本中调用Phone Agent的功能。

from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 获取设备IP(用于WiFi连接) ip = conn.get_device_ip() print(f"设备 IP: {ip}")

这种方式适合集成到自动化测试、批量处理或多设备管理场景中。


9. 常见问题与解决方案

9.1 连接失败或设备未识别

  • 检查USB调试是否开启
  • 确认手机弹出的“允许调试”已点击“允许”
  • 更换数据线(建议使用6A高质量线缆)
  • 重启ADB服务:adb kill-server && adb start-server

9.2 屏幕黑屏/被标记为“敏感屏幕”

错误提示:

屏幕被标记为敏感屏幕(黑屏),这可能是由于应用正在加载中或设备安全设置导致的。

原因分析: 某些应用(如银行、支付宝、淘宝)会主动屏蔽屏幕捕获,导致ADB无法获取画面。

解决方法:

  • 尝试清除应用缓存或重启应用
  • 关闭“隐私保护模式”或“防截屏”功能(如有)
  • 暂时退出该应用,让AI在普通界面操作后再切入

安全提醒:系统设计本意就是不在敏感界面上执行操作,这是保护机制,不必强行绕过。

9.3 模型响应慢或乱码

  • 检查网络连接是否稳定
  • 确认API Key有效且未超额
  • 尝试更换Base URL(如切换到智谱服务)
  • 查看服务商文档是否有调用频率限制

10. 总结:你的AI手机管家已上线

通过本文的完整部署流程,你现在拥有了一个真正意义上的AI手机助手。它不仅能听懂你说的话,还能“看见”屏幕、“动手”操作,完成一系列复杂的交互任务。

无论是日常使用的快捷指令,还是批量处理多个账号的操作,Open-AutoGLM都能大幅提升效率。更重要的是,它是开源的、可定制的、完全掌握在你自己手中的AI Agent。

未来,你可以进一步扩展它的能力:

  • 结合RPA工具实现跨App自动化
  • 添加语音输入接口,实现“动口不动手”
  • 构建家庭自动化中心,用手机控制智能家居

技术的进步,从来不是为了取代人类,而是让我们从重复劳动中解放出来。而今天,你已经迈出了第一步。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/19 3:32:08

XUnity Auto Translator:Unity游戏本地化解决方案详解

XUnity Auto Translator:Unity游戏本地化解决方案详解 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 一、游戏本地化的现实挑战 在全球化游戏市场中,语言差异常常成为开发者拓展…

作者头像 李华
网站建设 2026/4/19 12:29:55

DeepSeek-R1-Distill-Qwen-1.5B实战教程:Gradio界面集成详细步骤

DeepSeek-R1-Distill-Qwen-1.5B实战教程:Gradio界面集成详细步骤 你是否想快速搭建一个支持数学推理、代码生成和逻辑分析的轻量级AI对话系统?本文将带你从零开始,手把手部署 DeepSeek-R1-Distill-Qwen-1.5B 模型,并通过 Gradio …

作者头像 李华
网站建设 2026/4/19 18:47:14

3D打印文件处理新方案:告别格式转换烦恼的零代码解决方案

3D打印文件处理新方案:告别格式转换烦恼的零代码解决方案 【免费下载链接】Blender3mfFormat Blender add-on to import/export 3MF files 项目地址: https://gitcode.com/gh_mirrors/bl/Blender3mfFormat 您是否曾在3D打印工作流中反复遇到格式不兼容问题&a…

作者头像 李华
网站建设 2026/4/19 23:13:25

NewBie-image-Exp0.1显存占用高?14GB优化方案实战解决

NewBie-image-Exp0.1显存占用高?14GB优化方案实战解决 1. 为什么你一跑就卡住:显存告急的真实原因 NewBie-image-Exp0.1 这个镜像,名字里带“NewBie”,但实际跑起来却一点都不新手友好——很多人刚敲下 python test.py&#xff…

作者头像 李华
网站建设 2026/4/20 0:20:29

MinerU如何精准提取复杂PDF?表格识别部署实战案例详解

MinerU如何精准提取复杂PDF?表格识别部署实战案例详解 1. 为什么传统PDF提取总让人头疼? 你有没有遇到过这样的情况:一份精心排版的学术论文PDF,打开后复制文字却乱成一团?左边是公式,右边是图表&#xf…

作者头像 李华
网站建设 2026/4/19 12:26:33

LeagueAkari英雄联盟辅助工具全攻略:从入门到精通的效率提升指南

LeagueAkari英雄联盟辅助工具全攻略:从入门到精通的效率提升指南 【免费下载链接】LeagueAkari ✨兴趣使然的,功能全面的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/LeagueAkari …

作者头像 李华