Open-AutoGLM功能测评：多模态理解屏幕有多强？-编程阁

Open-AutoGLM功能测评：多模态理解屏幕有多强？

1. 这不是“手机助手”，是能看懂屏幕的AI眼睛

你有没有试过一边做饭一边想查个菜谱，手油乎乎却要摸手机点开App？或者在地铁上想给朋友发个定位，却得先解锁、找微信、点对话框、长按位置——三秒内手指就滑了两次。

Open-AutoGLM不解决“怎么更快点”，它直接跳过“点”这个动作。

它把手机屏幕变成一张可读的“纸”，把界面元素变成可理解的“文字”，再把你的自然语言指令，翻译成一连串精准的触摸坐标和操作逻辑。这不是语音控制，也不是快捷指令，而是一套真正具备视觉理解+意图解析+动作规划+设备执行闭环能力的轻量级AI Agent框架。

它的核心能力，藏在三个关键词里：

多模态理解：不是简单截图OCR，而是结合UI结构、文字语义、图标含义、布局关系，像人一样“看懂”当前页面在说什么；
零APP适配：不依赖任何应用开放接口，不修改源码，不越狱不root，只靠ADB就能操作任意安卓界面；
端云协同：手机只负责采集画面和执行动作，真正的“大脑”（9B视觉语言模型）跑在云端，本地只需轻量控制端。

换句话说，它让一台普通安卓机，在不换硬件、不装特殊系统的情况下，拥有了接近“豆包手机”的底层交互能力——只是这次，代码开源，路径透明，你可以亲手把它装进自己的设备。

2. 部署实录：从零到第一次自动打开小红书，我花了47分钟

别被“开源”两个字骗了——这真不是点几下鼠标就能跑起来的玩具。但也不像某些评测说的“只有博士能部署”。我们用一台2021款MacBook Pro（16GB内存）、一部小米12（Android 13）、一个闲置的云服务器（4×A10），完整走通了全流程。以下是真实耗时与关键卡点：

2.1 环境准备：ADB是第一道门槛

Mac配置ADB：解压platform-tools后，执行export PATH=$PATH:~/Downloads/platform-tools并写入.zshrc，重启终端后adb version返回1.0.41即成功；
手机开启调试：设置→关于手机→连续点击“版本号”7次→返回开发者选项→开启USB调试；
ADB Keyboard安装：必须手动安装APK（GitHub Release页提供），并在“语言与输入法”中设为默认——这是后续自动输入文字的关键，漏掉这步，所有带打字的任务都会失败。

实测提醒：小米/华为等品牌机需额外开启“USB调试（安全设置）”和“MIUI优化”关闭，否则adb devices显示unauthorized。

2.2 控制端部署：一行命令背后的依赖链

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .

这里踩了两个坑：

requirements.txt中opencv-python-headless版本冲突，需手动降级至4.9.0.80；
pydantic<2.0.0与新版fastapi不兼容，改用pydantic==1.10.19后正常。

整个安装过程约8分钟，无报错即表示控制端就绪。

2.3 云服务对接：模型不在你电脑上，但在你掌控中

Open-AutoGLM本身不包含大模型推理服务。你需要自行部署autoglm-phone-9b（官方提供vLLM启动脚本）。我们用以下参数在云服务器启动：

python -m vllm.entrypoints.api_server \ --model zhipu/autoglm-phone-9b \ --tensor-parallel-size 2 \ --max-model-len 4096 \ --port 8800 \ --host 0.0.0.0

关键点：

--max-model-len必须≥4096，否则长指令截断；
--tensor-parallel-size根据GPU数量调整，单卡A10设为1即可；
启动后访问http://<IP>:8800/docs可验证API是否就绪。

2.4 第一次任务执行：从指令到屏幕跳转，全程可追踪

运行命令：

python main.py \ --device-id 1234567890ABCDEF \ --base-url http://192.168.1.100:8800/v1 \ "打开小红书搜美食"

执行过程分四阶段（控制台实时输出）：

截图采集：调用adb shell screencap -p获取当前屏幕PNG；
视觉编码：将截图+指令文本送入云端模型，生成结构化意图（如：{"app":"xiaohongshu","action":"launch","search_query":"美食"}）；
动作规划：模型输出操作序列（click(520,180)→wait(2s)→click(800,120)→input("美食")）；
ADB执行：逐条调用adb shell input tap x y或adb shell input text完成操作。

从回车到小红书首页弹出搜索框，耗时23秒。中间无卡顿，无误触，无需要人工干预。

3. 多模态理解能力深度拆解：它到底“看懂”了多少？

我们设计了6类典型界面，测试其视觉理解鲁棒性。所有测试均使用同一张截图+同一句指令，记录模型输出的UI元素识别准确率与动作合理性。

测试场景	界面特征	指令示例	元素识别准确率	动作合理性	关键观察
纯文字列表页	微信聊天列表，头像+昵称+消息预览	“点开和张伟的对话”	98%	★★★★☆	能区分头像区域与文字区域，准确定位张伟头像坐标
图标主导页	手机桌面，16个APP图标+文件夹	“打开相机”	92%	★★★☆☆	对相似图标（相机/相册/图库）偶有混淆，需结合文字标签二次确认
复杂表单页	支付宝登录页，含账号框、密码框、验证码图、登录按钮	“输入账号1381234，密码**，点登录”	85%	★★☆☆☆	验证码图被识别为“图片”，但无法提取文字；需人工接管输入
弹窗遮罩页	应用权限请求弹窗（位置/存储/通知）	“允许所有权限”	95%	★★★★☆	能识别弹窗层级、按钮文本，“允许”按钮定位误差<5px
动态滚动页	小红书信息流，图文混排+点赞图标+评论气泡	“点赞第三篇笔记”	88%	★★★☆☆	能计数“笔记”元素，但滚动后位置偏移未补偿，需先滑动到可视区
深色模式页	设置→显示→深色模式开关页	“关闭深色模式”	96%	★★★★☆	对颜色反差敏感，开关状态识别准确，滑动轨迹计算合理

结论：Open-AutoGLM的视觉理解不是“认图”，而是“建模”——它把界面抽象为带坐标的语义节点树（View Tree），每个节点包含类型（Button/EditText/ImageView）、文本、可见性、层级、相对位置。这种结构化表征，让它能处理非标准UI（如自定义控件、Webview混合页），远超传统OCR+模板匹配方案。

4. 真实任务实战：哪些能全自动，哪些必须人工兜底？

我们模拟了12个高频生活场景，统计首次成功率（无需重试/修改指令）与平均完成时间：

任务类型	示例指令	首次成功率	平均耗时	人工介入点	可优化方向
App启停	“打开高德地图”	100%	3.2s	无	—
基础搜索	“在淘宝搜蓝牙耳机”	92%	8.7s	偶尔点错搜索框（顶部vs底部）	增加搜索框置信度阈值
内容分享	“把这篇知乎文章分享到微信”	75%	14.1s	微信选择联系人页需人工点选	支持联系人名称模糊匹配
表单填写	“在12306填身份证号110***19900101”	60%	22.5s	键盘弹出延迟导致输入错位	优化ADB Keyboard响应时序
多步导航	“从美团订一杯瑞幸咖啡，送到公司”	42%	48.3s	地址选择页、支付方式页多次误触	引入动作回溯与状态校验机制
敏感操作	“转账给王芳500元”	0%	—	自动触发确认弹窗，强制人工接管	设计分级权限策略

关键发现：
成功率拐点在“状态感知”：当任务涉及界面状态变化（如加载中、弹窗出现、网络等待），模型缺乏显式状态机，易在错误时机执行动作；
人工接管不是缺陷，是安全设计：所有金融、隐私、安装类操作，默认进入“确认模式”，需用户点击“继续执行”——这比强行自动化更符合实际需求；
最稳的场景是“确定性UI”：系统设置页、原生App首页、标准表单页，因其结构稳定、元素唯一，成功率超90%。

5. 与主流方案对比：它强在哪，弱在哪？

我们横向对比了三类技术路径：传统UI自动化（Appium）、端侧小模型（Phi-3-vision）、云端多模态Agent（Open-AutoGLM），聚焦四个核心维度：

维度	Appium（脚本驱动）	Phi-3-vision（端侧）	Open-AutoGLM（端云协同）
开发成本	高：需为每个App写XPath/ID定位器，维护成本大	中：需微调视觉编码器，适配不同屏幕分辨率	低：无需App知识，纯自然语言指令驱动
泛化能力	极低：换App/换版本即失效	中：对UI变化有一定鲁棒性，但受限于端侧算力	高：云端大模型理解跨App通用语义（如“搜索框”“返回键”“分享按钮”）
响应速度	快：毫秒级指令执行	快：本地推理，延迟<1s	中：依赖网络，端到端延迟3~8s（含截图上传、模型推理、结果下发）
功能上限	仅执行：能点、能滑、能输，不能“理解”	理解有限：95%准确率识别单图，难处理多步意图链	理解完整：支持“先查天气，再订外卖，最后发朋友圈”类复合指令