news 2026/4/16 15:54:26

新手必看:Open-AutoGLM手机端AI代理快速上手

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
新手必看:Open-AutoGLM手机端AI代理快速上手

新手必看:Open-AutoGLM手机端AI代理快速上手

你有没有想过,只要说一句“帮我打开小红书搜美食”,手机就自动完成打开App、输入关键词、点击搜索、滑动浏览——全程不用你点一下屏幕?这不是科幻电影,而是今天就能用上的真实能力。Open-AutoGLM 就是这样一款由智谱AI开源的手机端AI智能助理框架,它不依赖云端App或复杂配置,而是真正让AI“看见”你的手机屏幕、“听懂”你的自然语言,并“动手”帮你操作。

这篇文章不是讲原理、不堆参数、不谈架构,而是专为零基础用户准备的一份可执行、可复现、能立刻见效的实操指南。从连上手机到发出第一条指令,全程控制在15分钟内。无论你是想解放双手点外卖,还是帮父母自动查健康码,或是批量处理工作消息,这篇就是为你写的。


1. 它到底能做什么?先看三个真实场景

别急着装环境,我们先确认一件事:这东西值不值得你花15分钟试试?

  • 场景一:点外卖不翻页
    你说:“打开美团,搜‘附近2公里内的川菜馆’,按评分排序,选第一家,点‘水煮鱼双人套餐’,加辣,下单。”
    → Open-AutoGLM 自动完成:启动App → 点击搜索框 → 输入文字 → 点击搜索 → 滑动找店 → 点击进店 → 找套餐 → 加选项 → 提交订单。整个过程像真人操作,连键盘弹出、加载动画都等得恰到好处。

  • 场景二:微信消息批量处理
    你说:“给最近3个发消息的家人各回一句‘收到,谢谢!’,再把文件传输助手发来的PDF转成文字发给我。”
    → 它自动识别聊天列表、逐个进入对话、调起键盘、输入固定话术;接着切换到文件传输助手、长按PDF、选择“提取文字”、复制结果、粘贴发送。

  • 场景三:验证码人工接管
    你说:“登录支付宝,输手机号138****1234,等我输完验证码再继续。”
    → 它会自动打开支付宝、点击登录、输入号码、停在验证码输入框,弹出提示:“请手动输入验证码,完成后按回车继续”。你输完,它立刻接手下一步。

这些不是Demo视频里的剪辑效果,而是基于真实ADB控制+多模态视觉理解实现的端到端流程。它不靠预设脚本,不靠固定坐标,而是“看图说话”——每一步都基于当前屏幕内容动态决策。


2. 准备工作:三步搞定硬件与环境

不需要服务器、不刷机、不越狱。只需要一台电脑(Windows/macOS)、一部安卓手机(Android 7.0+),和10分钟耐心。

2.1 电脑端:装好ADB和Python

  • Python版本:建议 Python 3.10 或 3.11(太新或太旧可能报错)
    验证方式:终端输入python --version,看到3.10.x3.11.x即可

  • ADB工具:这是连接手机的“桥梁”

    • Windows:去 Android SDK Platform-Tools 下载zip包,解压到C:\adb这类简单路径
    • macOS:终端运行
      curl -O https://dl.google.com/android/repository/platform-tools-latest-darwin.zip unzip platform-tools-latest-darwin.zip export PATH="$PATH:$(pwd)/platform-tools"

    验证方式:终端输入adb version,看到类似Android Debug Bridge version 34.0.5即成功

小贴士:如果adb devices始终不显示设备,请先跳到2.2节完成手机设置,再回来验证。

2.2 手机端:开启“被操控权限”

这步最关键,但只需一次性设置。操作路径因品牌略有差异,核心就三件事:

步骤操作说明常见位置(以主流品牌为例)
① 开启开发者模式在“关于手机”里连续点击“版本号”7次华为/小米/OPPO:设置 → 关于手机 → 版本号
vivo:设置 → 系统管理 → 关于手机 → 版本号
② 开启USB调试在“开发者选项”中打开开关设置 → 更多设置 → 开发者选项 → USB调试(勾选)
③ 安装ADB Keyboard让AI能“打字”,否则无法输入文字GitHub Release页面下载apk → 安装 → 设置 → 语言与输入法 → 默认输入法 → 选择“ADB Keyboard”

注意:部分手机(如华为鸿蒙4+)需额外开启“仅充电模式下允许ADB调试”;小米还需关闭“MIUI优化”。若不确定,搜索“你的手机型号 + ADB调试开启方法”即可。

2.3 连接验证:确保电脑“认得”你的手机

用USB线连接手机和电脑后,在终端执行:

adb devices

正常输出应类似:

List of devices attached ZY225XXXXX device

出现一串字母数字+device,说明连接成功。
❌ 若显示unauthorized,请在手机弹出的授权窗口点“允许”;若为空白,检查USB线是否支持数据传输(有些充电线不行)。


3. 部署控制端:5行命令完成安装

所有操作都在电脑终端(Windows用CMD/PowerShell,macOS用Terminal)中进行。

3.1 克隆代码并安装依赖

# 1. 下载项目代码 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免污染全局Python) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装依赖(注意:requirements.txt已适配最新版) pip install -r requirements.txt pip install -e .

验证:运行python -c "import phone_agent; print('OK')"不报错即成功。

3.2 选择模型服务方式(新手推荐魔搭)

Open-AutoGLM本身是“大脑指挥官”,需要对接一个能理解图文的AI模型。有三种方式,新手强烈推荐第2种(ModelScope),免部署、免显卡、免API密钥申请(测试期免费):

方式是否需要显卡是否需申请Key上手难度推荐指数
① 智谱BigModel API❌ 否是(官网注册)★★☆☆☆☆☆
② ModelScope(魔搭)❌ 否❌ 否(直接调用)★☆☆☆☆
③ 本地vLLM部署是(需24G+显存)❌ 否★★★★★☆☆☆

选择魔搭方式(推荐):无需任何配置,直接使用。模型地址固定为:
https://api-inference.modelscope.cn/v1
模型名称固定为:
ZhipuAI/AutoGLM-Phone-9B


4. 第一次运行:从“Hello World”到真机操作

现在,我们用一条命令,让AI第一次真正操控你的手机。

4.1 获取设备ID(关键!)

仍在终端中,执行:

adb devices

记下输出中device前面那一串字符,例如ZY225XXXXX——这就是你的--device-id

4.2 发出第一条指令(务必复制粘贴,避免空格错误)

python main.py \ --device-id ZY225XXXXX \ --base-url https://api-inference.modelscope.cn/v1 \ --model ZhipuAI/AutoGLM-Phone-9B \ "打开设置,找到'电池',查看当前剩余电量"

替换说明:

  • ZY225XXXXX→ 替换为你自己的设备ID
  • 全部用英文引号包裹指令,中文无问题
  • 指令越具体越好,避免“帮我弄一下”这类模糊表达

你会看到终端滚动输出:
[INFO] 截取屏幕......已上传图像...AI正在思考...执行 tap(320, 180)...再次截屏验证

几秒后,手机屏幕会自动亮起、滑动、点击,最终停留在电池设置页。整个过程就像有人在替你操作。

4.3 如果失败?三个高频问题自查

现象可能原因快速解决
报错Connection refused魔搭API临时限流或网络问题换条网络,或稍等1分钟重试;也可改用智谱API(需Key)
手机没反应,终端卡在waiting for screen captureADB Keyboard未启用或权限被拒手机设置 → 应用管理 → ADB Keyboard → 权限 → 开启“显示在其他应用上层”
AI乱点、点错位置屏幕分辨率过高(如2K屏),模型未适配在手机设置 → 显示 → 屏幕分辨率 → 临时调为“FHD+”或“HD+”,操作完再调回

5. 进阶技巧:让AI更懂你、更稳更准

装好了只是开始。下面这些技巧,能让你从“能用”升级到“好用”。

5.1 指令怎么写才有效?记住这三条铁律

  • 铁律1:动词开头,目标明确
    “打开微信,搜索‘张三’,发消息‘会议改到3点’”
    ❌ “我想联系张三,告诉他会议时间变了”(AI不理解“我”“他”指代)

  • 铁律2:避免绝对坐标,用界面元素描述
    “点击右上角的‘+’号,选择‘拍摄’”
    ❌ “点击坐标(920, 120)”(不同手机坐标完全不同)

  • 铁律3:复杂任务分步下达
    先运行:"打开淘宝,搜索‘无线耳机’"
    再运行:"点击销量最高的商品,加入购物车"
    ❌ 试图一句完成全部(模型单次推理有步数限制)

5.2 敏感操作安全锁:防止误触支付

系统默认对以下行为强制人工确认:

  • 任何含“支付”“付款”“转账”“余额”的指令
  • 进入“设置→隐私”“设置→密码与安全”等页面
  • 点击“删除”“卸载”“清除数据”类按钮

当触发时,终端会暂停并提示:
检测到敏感操作:即将进入支付页面。请手动确认后按回车继续
你只需看一眼、按一下回车,AI才继续——安全和效率兼得。

5.3 WiFi远程控制:摆脱USB线束缚

家里WiFi稳定?可以拔掉USB线,让AI隔空操控:

# 1. 先用USB连着时执行(只做一次) adb tcpip 5555 # 2. 拔掉USB线,查看手机IP(设置→关于手机→状态→IP地址) # 3. 用WiFi连接(替换192.168.1.100为你的手机IP) adb connect 192.168.1.100:5555 # 4. 后续指令中的 --device-id 改为 IP:5555 python main.py --device-id 192.168.1.100:5555 --base-url ... "打开抖音"

成功后,手机离电脑3米远也能精准响应,适合放在支架上当“数字员工”。


6. 实用案例库:抄作业,直接复用

别再苦思冥想指令怎么写。这里整理了10个高频、开箱即用的真实指令,复制粘贴就能跑:

场景指令示例适用人群
信息查询"打开高德地图,查‘北京南站’到‘首都机场’的最快路线"出差党、学生党
社交管理"打开微博,关注‘人民日报’,点赞其最新一条带图片的微博"运营新人、内容创作者
电商比价"依次打开淘宝、京东、拼多多,搜索‘iPhone 15 128G’,截图价格页并保存到相册"理性消费者、数码爱好者
健康监测"打开支付宝,进入‘市民中心’→‘医保电子凭证’,截图二维码"中老年用户家属
办公提效"打开WPS,新建空白文档,标题写‘周报’,正文写‘本周完成:1. XXX;2. YYY’,保存为‘20240520_周报.docx’"白领、行政人员
学习辅助"打开小猿搜题,拍照识别这张数学题(已存在相册),给出解题步骤"学生、家长
娱乐休闲"打开网易云音乐,搜索‘周杰伦’,播放其最新专辑第一首歌,调音量到60%"音乐爱好者
生活服务"打开美团,搜‘家政保洁’,筛选评分4.8以上、距离3公里内,电话联系第一家"家庭主妇、租房族
旅行规划"打开携程,搜索‘上海→杭州’5月25日高铁,按出发时间排序,截图前3班次"自由行玩家
设备维护"打开设置,进入‘应用管理’,找到‘微信’,点击‘存储’→‘清除缓存’,确认"手机卡顿用户

进阶玩法:把常用指令保存为.sh(macOS)或.bat(Windows)脚本,双击一键执行。


7. 总结:这不是玩具,而是你下一个生产力伙伴

Open-AutoGLM 的价值,不在于它多酷炫,而在于它足够“老实”——不承诺100%成功率,但每次失败都给你明确反馈;不鼓吹取代人类,却实实在在把重复点击、跨App搬运、信息比对这些“脏活累活”接了过去。

它适合三类人立刻上手:

  • 普通用户:想让父母一键查健康码、帮孩子自动打卡、自己点外卖不翻页;
  • 运营/客服:批量回复消息、监控竞品App更新、生成多平台宣传图;
  • 开发者:基于其ADB封装快速构建定制化自动化工具,比如“自动抢演唱会门票脚本”“App崩溃日志自动归档”。

技术永远服务于人。当你不再为点开10个App、输入5次密码、反复滑动找按钮而皱眉时,你就已经站在了AI真正落地的起点上。

现在,合上这篇文章,拿起手机,连上电脑,打出那句:“打开小红书,搜美食。”
剩下的,交给Open-AutoGLM。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 19:54:02

本地生活服务实战:用MGeo打通多源地址数据

本地生活服务实战:用MGeo打通多源地址数据 1. 引言:本地生活服务中的地址“失联”困局 你有没有遇到过这样的情况? 用户在美团下单填的是“朝阳区三里屯太古里北区”,而商户后台登记的是“北京市朝阳区三里屯路19号院”&#xf…

作者头像 李华
网站建设 2026/4/16 13:06:40

人脸识别OOD模型开源可部署:达摩院RTS技术镜像免费使用

人脸识别OOD模型开源可部署:达摩院RTS技术镜像免费使用 你是否遇到过这样的问题:人脸比对系统在光照不足、角度偏斜或模糊的图片上频繁出错?不是模型不准,而是它根本没意识到——这张图根本不适合做人脸识别。 传统人脸识别模型…

作者头像 李华
网站建设 2026/4/16 14:43:20

Deepseek本地部署详细指南!从 Ollama 到个人知识库应用(附教程)

系统介绍 mbp pro 一、Ollama 安装与配置 1.1 跨平台安装指南 Ollama 作为本地运行大模型的利器,支持三大主流操作系统: # macOS一键安装 # Windows用户 访问官网 https://ollama.com/download 下载安装包# Linux安装(Ubuntu/Debian为例…

作者头像 李华
网站建设 2026/4/16 14:23:08

SenseVoice Small镜像:智能语音转写+情感分析全攻略

SenseVoice Small镜像:智能语音转写情感分析全攻略 1. 为什么说这是目前最省心的语音转写方案? 你有没有遇到过这样的情况: 花半天时间配环境,结果卡在No module named model; 好不容易跑起来,上传个MP3却…

作者头像 李华
网站建设 2026/4/16 11:42:47

零基础也能懂!万物识别模型实战教程,中文标签一键输出

零基础也能懂!万物识别模型实战教程,中文标签一键输出 这是一份真正为新手准备的图像识别入门指南。不需要你懂深度学习原理,不用配置复杂环境,只要会点鼠标、敲几行命令,就能让一张照片“开口说话”——告诉你图里有…

作者头像 李华
网站建设 2026/4/16 12:34:15

Local Moondream2开发者案例:嵌入Notion插件实现图片笔记智能增强

Local Moondream2开发者案例:嵌入Notion插件实现图片笔记智能增强 1. 为什么需要给笔记“装上眼睛” 你有没有过这样的经历:在Notion里整理学习资料时,随手插入一张实验截图、一张产品界面图,或者一张手绘草图,结果过…

作者头像 李华