news 2026/4/16 15:21:36

从GitHub克隆到运行:Open-AutoGLM完整部署流程图解

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从GitHub克隆到运行:Open-AutoGLM完整部署流程图解

从GitHub克隆到运行:Open-AutoGLM完整部署流程图解

1. Open-AutoGLM – 智谱开源的手机端AI Agent框架

你有没有想过,让AI帮你操作手机?不是简单的语音助手,而是真正“看懂”屏幕、理解界面、自动点击滑动,像真人一样完成复杂任务。比如你说一句:“打开小红书搜美食”,它就能自己启动App、输入关键词、浏览结果,甚至关注账号。

这听起来像科幻,但现在已经能实现了——靠的就是Open-AutoGLM,由智谱AI开源的手机端AI智能体(Agent)框架。它基于视觉语言模型(VLM),结合ADB(Android Debug Bridge)技术,构建了一个能“感知+决策+执行”的闭环系统。用户只需用自然语言下达指令,剩下的全部交给AI来完成。

这个项目的核心是AutoGLM-Phone,一个专为移动端设计的多模态AI助理框架。它不仅能“读图识字”,还能理解当前界面元素的功能,自动规划操作路径,并通过ADB下发点击、滑动、输入等指令。整个过程无需手动干预,真正实现“动口不动手”。

更关键的是,它不只是个玩具。系统内置了敏感操作确认机制,在涉及支付、权限申请或验证码输入时会暂停并提示人工接管,兼顾自动化与安全性。同时支持远程ADB调试,无论是本地USB连接还是WiFi无线控制,都能灵活应对开发和实际使用需求。

2. 硬件与环境准备:搭建本地控制端

要让Open-AutoGLM跑起来,我们需要在本地电脑上配置控制端,负责连接手机设备、采集屏幕信息,并将任务请求发送给云端的AI模型进行推理决策。

2.1 基础环境要求

  • 操作系统:Windows 或 macOS(Linux也可行,本文以Win/Mac为主)
  • Python版本:建议使用 Python 3.10 或更高版本
  • 安卓设备:Android 7.0 及以上系统的手机或模拟器
  • ADB工具:用于与安卓设备通信的核心组件

2.2 安装并配置 ADB

ADB 是 Android SDK 的一部分,我们可以单独下载 Platform Tools 包来获取它。

Windows 用户配置步骤:
  1. 前往 Android开发者官网 下载platform-tools压缩包。
  2. 解压到任意目录,例如C:\platform-tools
  3. 打开“运行”窗口(Win + R),输入sysdm.cpl,进入“系统属性”。
  4. 点击“高级”选项卡 → “环境变量” → 在“系统变量”中找到Path,点击编辑。
  5. 添加新条目:C:\platform-tools(根据你的实际路径调整)。
  6. 打开命令提示符,输入:
    adb version
    如果返回类似Android Debug Bridge version X.X.X,说明安装成功。
macOS 用户配置方法:

打开 Terminal,执行以下命令(假设你把 platform-tools 解压到了 Downloads 目录):

export PATH=${PATH}:~/Downloads/platform-tools

你可以将这行命令添加到 shell 配置文件(如.zshrc.bash_profile)中,避免每次重启终端都要重新设置。

验证方式同上:

adb version

3. 手机端设置:开启调试与输入法

为了让电脑能控制手机,我们需要在手机上做一些必要设置。

3.1 开启开发者模式

进入手机“设置” → “关于手机” → 连续点击“版本号”7次,直到提示“您已进入开发者模式”。

3.2 启用 USB 调试

返回设置主界面 → “开发者选项” → 找到并勾选“USB调试”(部分品牌可能叫“调试模式”)。连接电脑时,若弹出“允许USB调试?”对话框,请点击“确定”。

注意:不同厂商的菜单名称略有差异,如小米叫“USB调试”,华为可能在“更多设置”里。

3.3 安装 ADB Keyboard 输入法

由于AI无法直接调用常规输入法打字,我们需要一个可以通过ADB发送文本的虚拟键盘。

  1. 下载 ADB Keyboard APK(GitHub开源项目)。
  2. 将APK文件传到手机并安装。
  3. 进入“设置” → “语言与输入法” → “默认键盘”或“当前输入法”。
  4. 选择“ADB Keyboard”作为默认输入法。

这样,当AI需要输入文字时,就可以通过ADB命令直接推送内容,无需手动打字。

4. 部署控制端代码:克隆与安装 Open-AutoGLM

现在我们开始部署本地控制程序。

4.1 克隆项目仓库

打开终端或命令行工具,执行:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

该项目包含了完整的客户端逻辑、ADB封装、任务调度模块以及与大模型交互的接口。

4.2 安装依赖库

推荐使用虚拟环境(如venvconda)来隔离依赖。

python -m venv venv source venv/bin/activate # Linux/macOS # 或 venv\Scripts\activate # Windows

然后安装所需依赖:

pip install -r requirements.txt pip install -e .

其中-e .表示以可编辑模式安装当前项目,便于后续修改调试。

5. 连接设备:USB 与 WiFi 两种方式

确保手机已通过USB连接电脑,或处于同一局域网内。

5.1 使用 USB 连接

这是最稳定的方式,适合初次测试。

插上数据线后,在终端运行:

adb devices

正常输出应类似:

List of devices attached ABCDEF1234567890 device

只要看到设备ID后跟着device状态,就表示连接成功。

5.2 使用 WiFi 远程连接(无线ADB)

如果你希望摆脱数据线束缚,可以启用无线ADB。

前提:首次必须通过USB连接一次。

  1. 先用USB连接手机,执行:

    adb tcpip 5555

    这会启动ADB的TCP服务,监听5555端口。

  2. 断开USB线。

  3. 查看手机IP地址(可在“设置”→“WLAN”中找到)。

  4. 执行连接命令:

    adb connect 192.168.x.x:5555

再次运行adb devices,应该能看到设备出现在列表中。

小贴士:如果连接失败,请检查手机和电脑是否在同一网络下,且防火墙未阻止ADB端口。

6. 启动 AI 代理:下达第一条指令

一切准备就绪,现在让我们唤醒AI,让它接管手机。

6.1 命令行方式运行任务

Open-AutoGLM根目录下执行:

python main.py \ --device-id ABCDEF1234567890 \ --base-url http://<云服务器IP>:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

  • --device-id:从adb devices获取的设备唯一标识,如果是WiFi连接,则填写IP:5555格式。
  • --base-url:指向你部署的vLLM或FastChat服务的API地址,通常是公网IP加映射端口(如http://43.139.23.150:8800/v1)。
  • --model:指定使用的模型名称,需与后端加载的一致。
  • 最后的字符串:你要下达的自然语言指令。

执行后,你会看到AI开始工作:

  1. 截取当前手机屏幕;
  2. 将图像和指令一起传给云端模型;
  3. 模型分析意图,识别界面上的可操作元素;
  4. 返回下一步动作(如“点击‘应用’图标”、“输入搜索词”);
  5. 控制端通过ADB执行该动作;
  6. 循环直至任务完成。

整个过程就像一个“AI大脑”在远程操控你的手机。

6.2 使用 Python API 编程调用

除了命令行,你也可以在自己的脚本中集成该功能。

from phone_agent.adb import ADBConnection, list_devices # 创建ADB连接管理器 conn = ADBConnection() # 连接远程设备(WiFi) success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出所有已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # (可选)为USB设备开启TCP/IP模式 success, message = conn.enable_tcpip(5555) if success: ip = conn.get_device_ip() print(f"设备IP: {ip}") # 断开连接 conn.disconnect("192.168.1.100:5555")

这种方式更适合嵌入到自动化测试、远程运维或企业级RPA流程中。

7. 常见问题与排查建议

尽管流程清晰,但在实际部署中仍可能遇到一些问题。以下是高频故障及解决方案。

7.1 ADB 连接失败或设备离线

  • 现象adb devices显示unauthorizedoffline
  • 原因:未授权调试或ADB服务异常
  • 解决
    • 检查手机是否弹出“允许USB调试?”提示,点击“允许”。
    • 重启ADB服务:
      adb kill-server adb start-server
    • 更换数据线或USB接口。

7.2 云端模型无响应或返回乱码

  • 现象:AI长时间不返回动作,或输出不可读字符
  • 原因:vLLM/FastChat服务未正确启动,或参数配置不当
  • 检查点
    • 确保后端服务已绑定公网IP(非127.0.0.1)
    • 检查max_model_len是否足够处理长上下文
    • GPU显存是否充足(9B模型建议至少16GB)
    • 日志中是否有OOM(内存溢出)报错

7.3 屏幕识别不准或操作错误

  • 现象:AI点错按钮、输错文字
  • 可能原因
    • 屏幕分辨率过高导致图像压缩失真
    • 模型对特定UI样式理解偏差
    • 文字识别OCR环节出错
  • 优化建议
    • config.yaml中调整截图缩放比例
    • 提供更清晰的指令,如加上“在首页点击底部‘发现’标签”
    • 启用“操作前确认”模式,增加人工审核环节

7.4 防火墙或端口未开放

  • 现象Connection refused错误
  • 解决
    • 云服务器安全组规则中放行对应端口(如8800)
    • 本地路由器开启端口转发(如需外网访问)
    • 使用telnet <IP> <port>测试连通性

8. 总结:从零到一掌握 Open-AutoGLM 部署全流程

我们一步步完成了 Open-AutoGLM 的完整部署流程:

  1. 理解框架原理:AutoGLM-Phone 是一个基于视觉语言模型的手机AI代理,能通过自然语言指令驱动真实设备完成任务。
  2. 配置本地环境:安装ADB、开启手机调试权限、设置ADB Keyboard输入法。
  3. 部署控制端代码:克隆 GitHub 仓库,安装依赖,建立本地运行环境。
  4. 连接设备:支持USB有线和WiFi无线两种方式,灵活适配不同场景。
  5. 启动AI代理:通过命令行或Python API调用云端模型,实现“说一句话,办一件事”。
  6. 问题排查:针对连接、模型响应、操作准确性等问题提供了实用解决方案。

这套系统不仅可用于个人效率提升(比如自动打卡、批量点赞),也能应用于自动化测试、客服机器人、远程设备管理等多个领域。随着多模态模型能力不断增强,这类“看得见、想得到、做得到”的AI智能体将成为未来人机交互的重要形态。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 12:28:09

Qt6开源版本安装

https://www.qt.io/development/download-qt-installer-oss

作者头像 李华
网站建设 2026/4/16 13:57:53

Qwen3Guard-Gen-WEB如何集成?网页端推理快速上手教程

Qwen3Guard-Gen-WEB如何集成&#xff1f;网页端推理快速上手教程 你是否正在寻找一个高效、易用的安全审核方案&#xff0c;来为你的内容平台保驾护航&#xff1f;阿里开源的 Qwen3Guard-Gen-WEB 正是为此而生。它基于强大的 Qwen3 架构构建&#xff0c;专为实时内容安全检测设…

作者头像 李华
网站建设 2026/4/13 17:41:27

ERNIE 4.5-VL震撼发布:28B参数开启多模态新体验

ERNIE 4.5-VL震撼发布&#xff1a;28B参数开启多模态新体验 【免费下载链接】ERNIE-4.5-VL-28B-A3B-Base-PT 项目地址: https://ai.gitcode.com/hf_mirrors/baidu/ERNIE-4.5-VL-28B-A3B-Base-PT 百度正式推出新一代多模态大模型ERNIE 4.5-VL&#xff0c;其280亿参数的基…

作者头像 李华
网站建设 2026/4/12 22:43:27

Z-Image-Turbo亚秒级延迟是如何实现的?技术拆解报告

Z-Image-Turbo亚秒级延迟是如何实现的&#xff1f;技术拆解报告 1. 引言&#xff1a;为什么Z-Image-Turbo值得关注&#xff1f; 你有没有想过&#xff0c;生成一张高质量图像可以快到“还没等你反应过来就已经完成了”&#xff1f;阿里最新开源的 Z-Image-Turbo 正在把这种体…

作者头像 李华
网站建设 2026/4/10 9:32:15

WebGL调试终极指南:5分钟掌握Spector.js完整使用技巧

WebGL调试终极指南&#xff1a;5分钟掌握Spector.js完整使用技巧 【免费下载链接】Spector.js Explore and Troubleshoot your WebGL scenes with ease. 项目地址: https://gitcode.com/gh_mirrors/sp/Spector.js 还在为WebGL渲染问题头疼不已&#xff1f;想要快速定位3…

作者头像 李华
网站建设 2026/4/16 14:00:47

Speech Seaco Paraformer快速上手:三步完成单文件识别操作

Speech Seaco Paraformer快速上手&#xff1a;三步完成单文件识别操作 1. 欢迎使用&#xff1a;中文语音识别新选择 你是不是经常需要把会议录音、访谈内容或者语音笔记转成文字&#xff1f;手动打字太费时间&#xff0c;准确率还低。今天介绍的这个工具——Speech Seaco Par…

作者头像 李华