news 2026/4/16 13:30:04

Open-AutoGLM效果展示:自动打开App搜索并关注博主

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Open-AutoGLM效果展示:自动打开App搜索并关注博主

Open-AutoGLM效果展示:自动打开App搜索并关注博主

1. 这不是科幻,是正在发生的手机操作革命

你有没有过这样的经历:想关注一个博主,却要在小红书或抖音里反复点开、输入ID、翻找、点击关注——整个过程要手动操作7步以上?更别说中间还可能输错ID、点错按钮、被广告干扰。

现在,这一切只需一句话。

“打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!”

按下回车,手机屏幕自动亮起,App逐帧加载,搜索框精准定位,ID准确输入,结果页滚动展开,头像被识别,关注按钮高亮,手指(虚拟)轻点——完成。

这不是录屏剪辑,不是预设脚本,也不是云端遥控的“伪自动化”。这是Open-AutoGLM在真实安卓设备上,用视觉语言模型实时“看懂”屏幕、“想清楚”下一步、“动起来”执行的完整闭环。

它不依赖App内部API,不调用SDK,不越权获取数据。它像一个真正的人类用户那样:用眼睛看界面,用大脑理解意图,用手(ADB指令)点击滑动。唯一不同的是——它从不手抖,从不输错,从不忘记步骤。

本文不讲架构图、不列参数表、不谈训练方法。我们只做一件事:带你亲眼看看,当AI真正开始“操作手机”时,效果到底有多真实、多稳定、多接近人类操作。

2. 效果实录:三轮真实任务,全程无干预

我们使用一台Android 12真机(小米12),通过USB连接本地电脑,在Open-AutoGLM v0.3.1框架下,连续执行三项独立指令。所有操作均未预设任何App状态(即每次任务前均清空后台、关闭目标App),全程无人工介入,仅靠自然语言指令驱动。

2.1 任务一:打开小红书 → 搜索“咖啡探店” → 点击第一条笔记 → 关注作者

  • 指令原文
    打开小红书搜索咖啡探店,点开第一条笔记,关注作者

  • 执行过程与关键效果

    • 0:08秒:成功拉起小红书App(检测到启动动画结束)
    • 0:22秒:准确识别首页搜索栏(带放大镜图标+“搜索”文字),点击激活
    • 0:35秒:调出ADB键盘,逐字输入“咖啡探店”,无错别字、无漏字
    • 0:47秒:识别软键盘“搜索”按钮并点击,进入结果页
    • 1:03秒:在结果列表中准确定位“第一条笔记”区域(非标题文字,而是整张封面卡片)
    • 1:15秒:点击进入笔记详情页,成功加载图文内容
    • 1:28秒:识别右上角“作者头像+关注按钮”组合UI,点击“关注”
    • 1:32秒:界面刷新,“已关注”文字弹出,按钮变为灰色
  • 效果亮点
    在结果页存在3个相似头像(广告位、推荐位、笔记作者)的情况下,模型未误点广告头像,而是基于上下文(“第一条笔记”+“作者”语义)精准锚定目标;关注后按钮状态变化被实时识别,确认动作生效。

2.2 任务二:打开微博 → 搜索用户“@李想” → 进入主页 → 点击“关注”

  • 指令原文
    打开微博搜用户李想,进他主页,点关注

  • 执行过程与关键效果

    • 0:09秒:微博冷启动完成(检测到底部导航栏稳定显示)
    • 0:24秒:识别顶部搜索框(含“搜索微博”占位符),点击激活
    • 0:37秒:输入“@李想”,注意:模型主动补全了“@”符号(因微博搜索需带@才匹配用户)
    • 0:49秒:在搜索结果中识别“用户”标签页,并切换过去
    • 1:01秒:在用户列表中定位第一行“李想”(认证信息为“汽车圈创业者”),点击进入
    • 1:16秒:主页加载完成,识别右上角蓝色“关注”按钮(非“私信”或“分享”)
    • 1:20秒:点击,“已关注”toast弹出,按钮变灰
  • 效果亮点
    模型展现出对平台规则的理解能力——知道微博用户搜索需带@;能区分“用户”与“话题”标签页;在主页存在多个可点击按钮(关注/私信/分享/更多)时,依据指令语义(“点关注”)排除干扰项。

2.3 任务三:打开抖音 → 搜索抖音号“dycwo11nt61d” → 进入主页 → 点击“关注”

  • 指令原文
    打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!

  • 执行过程与关键效果

    • 0:07秒:抖音启动完成(检测到“首页”Tab高亮)
    • 0:21秒:识别顶部搜索图标(放大镜),点击进入搜索页
    • 0:33秒:识别搜索框,输入“dycwo11nt61d”(12位纯字母数字ID,无错漏)
    • 0:45秒:识别“用户”分类结果(非“综合”或“视频”),点击首条
    • 1:02秒:博主主页加载完成,准确识别顶部头像区域及下方“关注”按钮(绿色背景)
    • 1:08秒:点击,“已关注”提示出现,按钮变为“已关注”
  • 效果亮点
    对长字符串ID的输入零错误;在抖音搜索结果中,能跳过“官方账号”“相似账号”等干扰项,直取ID完全匹配的用户;关注按钮颜色(绿色)与状态变化(变灰)被准确感知并用于动作确认。

效果总结:三轮任务平均耗时1分12秒,全部一次性成功。无重启App、无误触返回、无输入中断。最值得强调的是——所有操作决策均基于当前屏幕画面实时生成,而非模板匹配或坐标硬编码。这意味着,哪怕你把抖音主题换成深色模式、把小红书字体调大200%,它依然能认出那个“关注”按钮在哪。

3. 质量拆解:为什么它看起来“像人”,而不是“像程序”

很多自动化工具也能点开App、输入文字,但Open-AutoGLM的效果之所以让人眼前一亮,是因为它在三个关键维度上逼近人类操作逻辑:

3.1 界面理解:不是找像素,是“读”界面

传统ADB脚本靠坐标点击,换分辨率就失效;UI自动化工具靠控件ID,App一更新就崩溃。而Open-AutoGLM用视觉语言模型“阅读”屏幕:

  • 它把整个屏幕截图送入GLM-4.5V模型,输出结构化描述:
    “顶部有搜索栏(含放大镜图标),中间是3个横向滚动卡片,右侧有‘关注’绿色按钮,按钮下方有‘已关注’文字”

  • 不依赖文字OCR精度:即使按钮文字模糊、被遮挡,只要视觉特征(颜色、形状、相对位置)存在,就能识别;

  • 理解UI语义:知道“放大镜图标”=“搜索入口”,“绿色按钮+‘关注’文字”=“可执行关注动作”,而非单纯匹配像素块。

我们测试过将小红书搜索框背景调成纯黑、文字调成浅灰——模型仍能通过图标轮廓和位置关系准确定位并点击。

3.2 动作规划:不是走流程,是“想”步骤

指令“打开小红书搜咖啡探店”背后,隐含至少5个原子动作:
① 启动App → ② 等待首页加载 → ③ 找搜索框 → ④ 点击激活 → ⑤ 输入文字 → ⑥ 点搜索按钮

Open-AutoGLM不靠预设流程树,而是用强化学习策略动态生成动作序列:

  • 每次动作前,模型会评估:“当前屏幕状态是否满足下一步条件?”
    (例:未看到搜索框,则先滑动/等待;看到搜索框但未激活,则先点击)
  • 若某步失败(如点击无响应),自动触发重试或降级策略(如改用全局搜索快捷键);
  • 支持跨页面记忆:在搜索结果页,能记住“刚才搜的是咖啡探店”,从而在笔记页准确关联“作者”身份。

这解释了为何它能在微博搜索页自动切换到“用户”标签——不是写死逻辑,而是理解“搜用户”这个意图需要进入用户列表。

3.3 执行反馈:不是发指令,是“看”结果

最关键的差异在于闭环验证。传统自动化发完ADB命令就认为完成了;Open-AutoGLM每执行一步,都会:

  • 截图 → 分析 → 判断是否达成预期状态
    (例:点击“关注”后,必须检测到“已关注”文字或按钮变灰,才确认成功)

我们在测试中故意拔掉USB线0.5秒再插回——模型检测到ADB断连后暂停操作,重连后重新截图分析当前界面,从断点继续,而非盲目重跑全流程。

这种“边做边看、做完必验”的机制,让它的行为具备了人类操作的稳健性:不假设、不猜测、不跳步。

4. 真实体验:流畅度、容错性与边界感

效果惊艳之外,我们更关心它在真实使用中的“手感”。以下是连续使用2小时后的核心体验总结:

4.1 流畅度:快得自然,慢得合理

  • App冷启动(首次打开):平均耗时8–12秒(取决于App体积,抖音最快,小红书稍慢)
  • 页面内操作(如点击按钮、滑动):平均响应延迟200–400ms,与人类手指反应时间(250ms)高度吻合
  • 文字输入:每字符间隔300–500ms,模拟真实打字节奏,避免机器式“瞬输”带来的违和感

这种“有呼吸感”的节奏,恰恰是它不像脚本、更像真人的重要原因——人类操作本就有微小停顿、偶尔修正。

4.2 容错性:遇到问题,它会“求助”,而不是“硬刚”

我们刻意制造了三类典型异常场景:

异常类型模型行为是否人工接管
验证码弹窗自动暂停,屏幕显示“请手动输入验证码”,并在终端打印提示是(需用户输入后继续)
登录态过期检测到“去登录”按钮,点击后停留在登录页,不尝试暴力输入密码是(安全设计,绝不自动填密)
界面卡死(无响应)连续3次截图比对无变化,自动执行“返回键→主页→重进App”恢复流程否(自主恢复)

这种“该停则停、该退则退、该求则求”的策略,极大提升了可信度。它不假装全能,而是清晰划出能力边界——这恰是成熟Agent的标志。

4.3 边界感:尊重权限,不越界操作

我们重点验证了其权限意识:

  • ❌ 从未尝试访问通讯录、短信、相册等敏感权限(即使App已授权)
  • ❌ 从未在未明确指令时,自动点击“允许通知”“开启定位”等弹窗
  • 所有涉及账号体系的操作(登录、支付、关注),均在目标App内完成,不调用系统级账户管理器
  • 每次执行前,终端会打印当前操作意图(如“即将点击:搜索框”),用户可随时Ctrl+C中断

它像一个被充分授权的助理,而非潜入系统的幽灵。这种克制,是长期可用的前提。

5. 实用建议:如何让效果更稳、更快、更准

基于实测,我们提炼出三条即刻生效的优化建议,无需改代码,只需调整使用方式:

5.1 屏幕设置:给AI一双“好眼睛”

  • 关闭动画缩放:设置 → 开发者选项 → 窗口动画缩放/过渡动画缩放/动画程序时长缩放 → 全部设为“关闭”
    (理由:动画过程屏幕内容持续变化,干扰视觉模型判断;关闭后界面切换更“干净”,识别成功率提升约35%)

  • 使用默认系统字体与大小:避免自定义字体、超大字体或第三方主题
    (理由:模型在训练时以标准UI为基准,非常规渲染易导致文字区域识别偏移)

  • 保持屏幕亮度≥60%:避免暗光下截图噪点多、对比度低
    (实测:亮度40%时,小红书“关注”按钮识别率下降至72%;80%时回升至98%)

5.2 指令表达:用“人话”,不说“机器话”

  • 推荐写法:
    打开小红书,搜“上海咖啡馆”,点第一个,关注作者
    进抖音,找抖音号dycwo11nt61d,关注他

  • ❌ 避免写法:
    启动com.xingin.xhs,执行Activity SearchActivity,输入text=上海咖啡馆...
    关注ID为dycwo11nt61d的用户

  • 关键原则

    • 用动词开头(打开、搜索、点、进、关注)
    • 用口语化名词(“第一个”“他”“主页”)而非技术术语(“首条Item”“目标用户”)
    • 保持单句简洁,复杂任务拆成多轮指令(如先“搜”,再“点”,再“关注”)

5.3 环境准备:一次配置,长久省心

  • ADB Keyboard务必安装并设为默认输入法:这是文字输入唯一可靠路径,模拟点击软键盘比OCR+ADB输入稳定10倍;
  • WiFi连接慎用:实测USB连接成功率99.2%,WiFi连接因网络抖动导致ADB超时率达18%;若必须用WiFi,请在adb connect后执行adb shell getprop ro.serialno验证设备在线;
  • 云服务端口映射务必检查:确保--base-url指向的端口在服务器防火墙开放,且vLLM服务日志中无Connection refused报错。

6. 总结:它不完美,但它真实地“活”在手机里

Open-AutoGLM的效果展示,不是一场炫技的发布会视频,而是一次可复现、可验证、可每天使用的操作体验。

它让我们第一次真切感受到:

  • AI Agent不是未来概念,它已经能稳稳握住你的手机,完成你交代的每一件小事;
  • “拟人化操作”的核心不在速度,而在理解、规划与反馈构成的完整闭环;
  • 真正的智能,是知道什么时候该快、什么时候该慢、什么时候该停下来等你。

当然,它仍有明显局限:

  • 复杂多步骤任务(如“比价三家外卖平台并选最便宜的下单”)成功率约63%,主因是跨App状态同步困难;
  • 对非中文界面(如英文版Instagram)支持较弱,识别准确率降至约58%;
  • 极端低光照或强反光屏幕下,视觉识别稳定性下降。

但这些,恰恰是它真实性的证明——它没有被包装成“全知全能”,而是坦诚展现当前能力的水位线。

如果你曾怀疑“AI操作手机”只是营销话术,那么请亲手试一次。
输入那句“打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!”,然后静静看着屏幕自己动起来。
那一刻,你会明白:手机操作权移交的进程,已经悄然开始。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 12:16:24

ChatTTS竞品分析:对比Azure Speech与Google TTS优势

ChatTTS竞品分析:对比Azure Speech与Google TTS优势 1. 为什么语音合成需要“像人”——从听感体验说起 你有没有听过这样的AI语音?语速均匀、停顿精准、每个字都咬得清清楚楚,但听完却觉得“哪里不对劲”——它太标准了,标准得…

作者头像 李华
网站建设 2026/4/14 5:49:39

Waifu2x-Extension-GUI重构指南:AI如何突破图像画质瓶颈

Waifu2x-Extension-GUI重构指南:AI如何突破图像画质瓶颈 【免费下载链接】Waifu2x-Extension-GUI Video, Image and GIF upscale/enlarge(Super-Resolution) and Video frame interpolation. Achieved with Waifu2x, Real-ESRGAN, Real-CUGAN, RTX Video Super Reso…

作者头像 李华
网站建设 2026/4/7 3:13:37

零基础入门:手把手教你使用Lingyuxiu MXJ生成唯美真人像

零基础入门:手把手教你使用Lingyuxiu MXJ生成唯美真人像 你是否试过输入一段文字,几秒后就得到一张皮肤细腻、眼神灵动、光影柔美的真人肖像?不是AI味浓重的“塑料感”人像,而是像专业影楼打光下拍出的高清写实作品——有呼吸感&…

作者头像 李华
网站建设 2026/4/13 16:39:43

天龙八部GM工具:打造专属游戏世界的全能管理平台

天龙八部GM工具:打造专属游戏世界的全能管理平台 【免费下载链接】TlbbGmTool 某网络游戏的单机版本GM工具 项目地址: https://gitcode.com/gh_mirrors/tl/TlbbGmTool 在单机版天龙八部游戏管理中,管理员常常面临角色数据调整繁琐、装备配置复杂、…

作者头像 李华
网站建设 2026/4/16 13:05:48

工业控制中可执行文件加载机制:深度剖析与优化策略

以下是对您提供的技术博文进行 深度润色与结构优化后的版本 。本次改写严格遵循您的全部要求: ✅ 彻底去除AI痕迹 :语言自然、专业、有“人味”,避免模板化表达和空洞术语堆砌; ✅ 摒弃机械章节标题 :不再使用“引言”“基本定义”“工作原理”等程式化小节,代之…

作者头像 李华