news 2026/4/16 11:56:27

亲测Open-AutoGLM:一句话让AI替我操作手机太爽了

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
亲测Open-AutoGLM:一句话让AI替我操作手机太爽了

亲测Open-AutoGLM:一句话让AI替我操作手机太爽了

1. 这不是科幻,是我昨晚刚用上的真实体验

昨天晚上十一点,我瘫在沙发上刷小红书,看到一条“打开美团搜附近川菜馆”的评论。手一滑,顺手把这句话复制进终端——回车执行。三秒后,我的手机屏幕自动亮起,解锁、打开美团、跳转到搜索页、输入“川菜馆”,连定位都自动开了。我甚至没来得及放下薯片袋子。

这不是录屏,不是脚本,也不是预设流程。就是一句话,一个模型,一次真实的多模态理解与执行闭环。

Open-AutoGLM 不是又一个“能说会道”的大模型,它是第一个真正意义上看懂你手机屏幕、听懂你自然语言、然后替你点下去的 AI 手机助理。它不生成文字,不画图,不配音——它直接接管你的设备,像一个坐在你旁边、手指比你还快的朋友。

这篇文章不讲架构图、不列参数表、不谈“端云协同”这种虚词。我会带你从零开始,用一台旧安卓机、一台笔记本电脑,实打实跑通整个流程。你会看到:

  • 怎么让 AI 看懂微信聊天框里的“帮我订明天上午十点去首都机场的滴滴”
  • 它怎么识别弹窗、跳过广告、在验证码出现时主动喊你“该你输数字了”
  • 为什么说“打开小红书搜美食”背后,藏着视觉理解 + 意图解析 + 动作规划三重能力
  • 以及,它目前最真实的能力边界在哪——哪些事它干得比你利索,哪些事它还在挠头

全程不用改一行源码,不配一个环境变量(除了 ADB),不碰任何配置文件。就像装个普通软件那样简单。

2. 准备工作:三步搞定硬件与连接

2.1 你只需要这四样东西

  • 一台 Android 7.0+ 的真机(别用模拟器,它真要操作屏幕)
  • 一台 Windows 或 macOS 电脑(Mac 用户注意:别用 M 系列芯片的 Rosetta 模式运行 ADB,会掉线)
  • 一根 USB 数据线(WiFi 连接可选,但首次务必用 USB)
  • 十分钟耐心——真的,十分钟

不需要显卡,不跑本地大模型,所有 AI 推理都在云端完成。你本地只跑一个轻量控制端,负责截图、传图、发指令、执行点击。

2.2 手机设置:三分钟开好“遥控开关”

别被“开发者模式”吓到,这比连蓝牙耳机还简单:

  1. 开开发者模式:手机「设置」→「关于手机」→连续点击「版本号」7 次,直到弹出“您现在是开发者”
  2. 开 USB 调试:返回上一级,进「开发者选项」→ 找到「USB 调试」,打开它
  3. 装 ADB Keyboard(关键!)
    • 去 GitHub 下载 ADBKeyboard.apk(最新版 v1.3)
    • 安装后,进「设置」→「语言与输入法」→「当前键盘」→ 切换为「ADB Keyboard」
    • 这一步决定了 AI 能不能往输入框里打字。没有它,所有“搜索”“登录”“发消息”都会卡住。

小贴士:如果手机提示“未知来源应用”,请在安装界面点右上角三个点 → 允许此来源安装。

2.3 电脑装 ADB:Windows 和 Mac 都只需两行命令

  • Windows 用户:去 Android SDK Platform-Tools 页面 下载 zip 包 → 解压到C:\adb→ 右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→填入C:\adb→ 打开 CMD 输入adb version,看到版本号就成功了
  • Mac 用户:终端执行
    curl https://dl.google.com/android/repository/platform-tools-latest-darwin.zip -o platform-tools.zip unzip platform-tools.zip export PATH="$PATH:$(pwd)/platform-tools" adb version

验证成功的标志:手机连上 USB 后,在电脑终端输入adb devices,返回类似ZY322XXXXX device的一行,而不是unauthorized或空行。

如果显示unauthorized,请检查手机是否弹出了“允许 USB 调试吗?”的授权弹窗——点“允许”,并勾选“始终允许”。

3. 一分钟部署:克隆、安装、启动

3.1 控制端代码:真正的“一键获取”

打开终端(Windows 用 CMD/PowerShell,Mac 用 Terminal),依次执行:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .

全程无报错即成功。pip install -e .是为了让 Python 能直接 import 项目内的模块,不是可有可无的步骤。

3.2 连接你的手机:USB 是最稳的选择

确保手机已通过 USB 连接电脑,并且adb devices显示device状态。记下那一串字母数字组合,比如ZY322XXXXX——这就是你的--device-id

注意:不要用emulator-5554这类模拟器 ID。Open-AutoGLM 目前对模拟器支持不稳定,真机才是唯一推荐路径。

3.3 启动代理:一句话触发整套流程

现在,最关键的一步来了。在Open-AutoGLM目录下,执行:

python main.py \ --device-id ZY322XXXXX \ --base-url http://127.0.0.1:8000/v1 \ "打开微信,给张三发消息:今晚火锅局,老地方见!"

等等——http://127.0.0.1:8000/v1是哪来的?这是默认指向本地运行的 vLLM 服务。但别慌,我们不用自己搭。

实测建议:直接使用智谱官方提供的免费 API 服务(需注册获取 key)。替换为:
--base-url https://open.bigmodel.cn/api/phone/v1
并在命令末尾加--api-key your_api_key_here

不过,为了让你立刻上手,我们先用更轻量的方式:跳过自建推理服务,直接调用已部署好的公开 demo 端点(测试用,非生产环境):

python main.py \ --device-id ZY322XXXXX \ --base-url https://autoglm-demo.zhipu.ai/v1 \ "打开淘宝,搜‘无线充电宝’,按销量排序,点第一个商品"

你将亲眼看到:

  • 手机自动解锁 → 启动淘宝 → 顶部搜索栏高亮 → 弹出软键盘 → 输入“无线充电宝” → 点击搜索 → 等待结果加载 → 点击“销量”筛选 → 滑动 → 点击第一个商品卡片

整个过程无需人工干预,AI 自己判断每一步该点哪、等多久、要不要滑动。

4. 实测效果:它到底能干啥?哪些事它真比你强?

我用同一台小米 12(Android 13),连续测试了 12 类日常指令,以下是真实记录(非理想化描述):

4.1 它干得又快又准的事(成功率 95%+)

指令示例实际表现耗时备注
“打开小红书,搜‘露营装备推荐’”自动打开 App → 点搜索框 → 输入 → 点搜索 → 加载完成4.2 秒中文识别稳定,错别字容忍度高
“打开设置,关蓝牙”进设置 → 滑动找“蓝牙” → 点击 → 关开关3.8 秒对图标位置判断准确,不依赖文字识别
“打开相册,选最近一张照片,分享到微信”进相册 → 点最新图 → 点分享 → 选微信 → 发送6.1 秒能区分“分享”和“发送”,不误触“编辑”

核心优势:对主流 App(微信、淘宝、小红书、美团、设置、相册、浏览器)的 UI 结构理解成熟,动作规划逻辑清晰,响应延迟低(平均单步 1.2 秒)。

4.2 它会卡壳、需要你帮一把的事(成功率 60–75%)

指令示例卡点位置你该做什么原因分析
“登录支付宝,输账号 138****1234,密码 123456”在密码框弹出时,AI 停住不动手动点一下密码框,它立刻继续输入当前版本对“安全键盘”兼容性弱,需人工激活输入焦点
“打开京东,搜‘iPhone 15’,加购第一个,去结算”加购成功,但结算页未自动点“提交订单”提示“请确认收货地址”,你点一下地址栏多级弹窗+地址选择逻辑复杂,需更多上下文训练
“打开知乎,搜‘大模型怎么学’,点阅读量最高的回答”搜索成功,但无法准确识别“阅读量最高”标签手动滑动两下,它立刻识别并点击长列表中排序标识位置不固定,视觉模型需更强空间推理

真实提醒:它不是魔法,是仍在快速迭代的工程产品。它的强项是结构化任务流(打开→搜索→点击→输入),弱项是模糊语义+动态界面(“最好的”“最火的”“随便挑一个”)。但它会在卡住时明确告诉你:“正在等待用户确认验证码”或“检测到登录弹窗,请手动输入”。

4.3 它让我惊呼“原来还能这样”的隐藏能力

  • 跨 App 协同
    “把微信里王五发的链接,复制到 Safari 打开”
    → AI 自动长按微信消息 → 点“复制” → 切换到 Safari → 点地址栏 → 粘贴 → 回车。完全理解“复制”“切换”“粘贴”是三个独立动作。

  • 图文混合理解
    截图一张带二维码的公众号文章,发指令:“扫这个码,关注‘AI前线’”
    → AI 识别图中二维码 → 调起微信扫码 → 自动关注。它真能“看图办事”。

  • 容错式重试
    指令“打开微博,搜‘台风预警’,点第一条带视频的微博”
    → 第一次没找到视频图标,它自动滑动一页 → 再识别 → 找到后点击。失败不报错,而是主动探索。

这些不是文档里写的“支持”,是我在凌晨两点随手试出来的、带着生活毛边的真实能力。

5. 为什么它能做到?三句话说清技术内核

别被“多模态”“Agent”这些词绕晕。Open-AutoGLM 的聪明,就藏在三个务实设计里:

5.1 它不“读”屏幕,它“看”屏幕

传统自动化工具(如 Auto.js)靠坐标、ID、文本匹配。Open-AutoGLM 用 GLM-4.5V 视觉模型,把整张手机截图当一张图来理解——按钮是凸起的,输入框有光标,广告有“关闭”小叉,弹窗有半透明蒙层。它不依赖 App 是否开放 Accessibility 权限,只要屏幕亮着,它就能工作。

5.2 它不“执行”指令,它“规划”动作

你输入“打开抖音搜美食”,它内部拆解为:
① 启动抖音 App → ② 等待首页加载完成 → ③ 点击顶部搜索图标 → ④ 等待搜索框获得焦点 → ⑤ 输入“美食” → ⑥ 点击搜索按钮 → ⑦ 等待结果页渲染。
每一步都有超时判断、状态校验、失败回退。这不是脚本,是带反馈的闭环。

5.3 它不“越权”,它“守界”

所有敏感操作(支付、删除、发送私密消息)前,它会暂停并弹出通知:“即将向张三发送消息,确认执行?”。你点“是”,它才继续。它不会偷偷操作,而是把你放在决策环里——这才是真正可用的 AI 助理。

6. 现在就能动手的三个实用场景

别再想“未来怎样”,今天就能用起来。我整理了三个零门槛、高回报的落地方式:

6.1 场景一:信息聚合员(适合所有人)

指令:
“打开知乎、小红书、B站,分别搜‘RTX 5090 发布’,把前三条标题截图发我微信”

效果:
AI 自动轮换打开三个 App → 搜索 → 截图 → 切回微信 → 新建聊天 → 发送三张图。
你省下的不是时间,是反复切屏、手动截图、找聊天窗口的心智负担。

6.2 场景二:长辈远程助手(适合子女)

让父母手机连上你的电脑(WiFi 连接),你远程下发指令:
“帮我妈手机里,把微信收藏里的‘高血压食谱’发到她微信对话框”
→ AI 自动打开微信 → 进收藏 → 找文档 → 点开 → 长按 → 发送给“我”。
你不再需要视频教他们点哪,而是直接“告诉它你要什么”。

6.3 场景三:App 测试轻量化(适合开发者)

写个简单脚本,批量测试不同分辨率下的 UI 兼容性:

for app in ["taobao", "meituan", "xiaohongshu"]: cmd = f'python main.py --device-id {id} --base-url {url} "打开{app},点首页,截图"' os.system(cmd)

10 分钟生成 30 张各 App 首页截图,比手动点快 5 倍,比 Selenium 写脚本快 10 倍。

7. 总结:它不是替代你,是把“操作权”还给你

我用了一周 Open-AutoGLM,最大的感受不是“AI 多厉害”,而是“原来我每天在手机上做的,有 70% 根本不值得亲手点”。

点外卖、查快递、比价、转发链接、填表单、设闹钟……这些不是“使用手机”,是在给手机打工。Open-AutoGLM 的价值,不在于它多像人,而在于它足够不像人——它不犹豫、不手滑、不忘记、不厌烦,把重复劳动从你手指上卸下来。

它目前还有短板:对小众 App 支持弱、复杂表单填写吃力、中文口语指令泛化不足。但它开源,意味着下周可能就有开发者补上“支持钉钉审批”“适配鸿蒙系统”的 PR;意味着三个月后,它就能处理“把会议录音转文字,摘要重点,发邮件给老板”这样的链路。

这不是终点,是起点。当你第一次看着手机自己点开 App、输入文字、完成操作,那种轻微的眩晕感,和十年前第一次用 Siri 说“打电话给妈妈”时一模一样。

只是这一次,它真的伸出手,替你按下了那个按钮。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 1:29:12

通义千问3-Embedding-4B灾备方案:模型热备切换部署教程

通义千问3-Embedding-4B灾备方案:模型热备切换部署教程 1. 为什么需要 Embedding 模型的灾备能力? 你有没有遇到过这样的情况:知识库服务正在高峰期运行,用户查询量激增,突然 embedding 模型服务卡顿、响应超时&…

作者头像 李华
网站建设 2026/4/14 16:43:28

Ollama部署本地大模型安全可控方案:LFM2.5-1.2B-Thinking私有化部署

Ollama部署本地大模型安全可控方案:LFM2.5-1.2B-Thinking私有化部署 你是否担心把敏感业务问题发给云端大模型?是否厌倦了反复等待API响应、受限于调用量和网络稳定性?是否希望在不联网的内网环境里,也能拥有一个反应快、理解准、…

作者头像 李华
网站建设 2026/3/26 12:23:38

零基础玩转Qwen-Image-Edit-2511,AI图像编辑一键体验

零基础玩转Qwen-Image-Edit-2511,AI图像编辑一键体验 1. 这不是“重画”,而是真正的“编辑” 你有没有试过这样:上传一张自己穿白衬衫的照片,想把它换成复古格子衫——结果人变了、脸歪了、连背景都重新生成了一遍?或…

作者头像 李华
网站建设 2026/4/8 8:25:05

AutoGen Studio作品分享:Qwen3-4B驱动的AI研发助手完整工作流截图集

AutoGen Studio作品分享:Qwen3-4B驱动的AI研发助手完整工作流截图集 1. 什么是AutoGen Studio AutoGen Studio是一个面向开发者的低代码交互界面,它不追求炫酷的UI动效,而是把重心放在“让AI代理真正能干活”这件事上。你不需要写一整套Age…

作者头像 李华