当 UI 自动化遇上 AI：一次来自飞猪的一线工程升级-编程阁

关注霍格沃兹测试学院公众号，回复「资料」, 领取人工智能测试开发技术合集

很多团队开始做 AI 自动化测试，往往是从一个很具体、也很痛的现实问题出发的。

不是“我们要用 AI”，而是——原来的自动化，已经很难支撑业务了。

在 C 端复杂业务里，这种感受尤其明显。

一、问题并不新，但规模变了

在飞猪这样的生活服务型应用中，质量保障长期面对的是三重叠加压力：

第一层，是业务节奏。旅行行业的节律非常极端：节假日密集、大促频繁、需求改动快，发布窗口被不断压缩。

第二层，是技术形态。 Native、Flutter、Weex、H5 并存，同时还要覆盖 App、手淘 Tab、支付宝、微信等多个入口，小程序形态各异。

第三层，是用户路径的分散性。同一个“订酒店”，可能从搜索、金刚位、活动页、标签入口进入，路径差异巨大。

在这样的背景下，传统 UI 自动化逐渐暴露出结构性问题：

用例一多，维护就开始失控
页面一改，失败率迅速堆积
断言只能校验“点没点”，却很难判断“对不对”
多端差异让测试盲区越来越多

这不是写脚本水平的问题，而是范式本身到了瓶颈。

二、AI 自动化真正难的，不是“能不能跑”

从外部看，AI 自动化测试似乎是一条顺理成章的技术路线： Prompt → RAG → Agent → 多智能体 → 模型优化。

但在真实工程里，最大的问题并不是“跑不起来”，而是——跑得久、跑得稳、跑得值不值。

当自动化规模提升到月级十万构建量时，任何一个小问题都会被无限放大：

Prompt 微调，可能引入不可控幻觉
RAG 更新，可能让关键路径召回率下降
模型升级，本地没问题，线上全量抖动

如果没有工程化的“安全网”，AI 反而会成为新的不稳定源。

三、先把“可控性”这件事做好

1. 评测体系不是附属品，而是地基

在 AI 自动化体系中，飞猪选择把评测放在最前面。

不是上线后再看效果，而是把评测结果当作技术决策的输入条件：

建立真实业务 workflow 的 Benchmark
分阶段验证：基座模型 → Prompt → RAG → Agent
每一次改动，都必须通过端到端效果校验

这一步看起来“慢”，但它解决了一个关键问题：避免 AI 优化方向与业务质量目标脱节。

2. 主动承认：模型也会犯“工程性错误”

在 UI 自动化场景中，最典型的工程问题是：死循环。

比如必填项未选，页面弹出 toast，但 AI 无法感知，于是不断重复点击。

飞猪并没有指望“模型再聪明一点”，而是直接在工作流层面兜底：

通过历史操作相似度，检测重复行为
设置耗时与重复阈值，判定异常循环
引入分级恢复策略：
- 轻量模型自检
- 必要时升级大模型 + 业务知识
- 无法修复则安全回退

这让系统具备了一种非常工程化的能力：知道什么时候该停下来。

3. 让 AI 理解“业务常识”，而不是只会操作页面

AI 不懂业务，是很多自动化失败的根源。

为此，飞猪在体系中显式引入了三类“业务补偿能力”：

RAG 业务知识库
- 高频用户路径
- 行业术语映射
短期记忆体
- 记录近期真实操作偏好
- 大促期间动态调整优先入口
子智能体分工
- 路由、术语校正、关键节点验证

目标并不复杂：让自动化测试，尽量像真实用户一样“走路”。

4. 从“操作正确”升级为“结果正确”

传统自动化更像“执行器”：我点了、我跳了、我提交了。

但真正影响用户体验的问题，往往不是逻辑错误，而是视觉异常：

弹窗空坑
样式错位
渲染异常但接口返回正常

AI 的视觉理解能力，让测试第一次具备了“看懂页面”的能力：

单图判断异常状态
多图对比链路一致性
结合外部数据，识别潜在体验风险

断言，从代码规则，进化成了感知能力。

四、一些真实的变化

在持续演进之后，AI 自动化在飞猪的质量体系中，逐渐呈现出稳定收益：

用例维护投入明显下降
多端漏测问题显著减少
死循环类问题基本被工程化消除

更重要的是：自动化不再是“需要人时刻盯着的系统”。

职场晋升必备技能

作为一个测试工程师，该如何提升自己的能力呢？由霍格沃兹测试开发学社推出的名企定向培养计划正好满足了大家的需求。通过名企定向培养计划、不仅能学到扎实的测试开发技术，同时还可以享受学社提供的面试指导、内推、奖学金等服务。

霍格沃兹测试开发学社自创办以来，就陆续收到了来自阿里、腾讯、字节、华为、蚂蚁、百度、美团、小米、京东、OPPO、平安、快手、滴滴等众多知名互联网企业对中高级测试开发工程师的人才推荐请求，大多数职位的薪资范围在年薪 30w-80w 之间。

但因为行业里一直缺乏优秀的测试开发工程师，导致各家公司招聘压力一直很大，为了解决行业里企业招聘测试开发人才困难的问题，学社发起了【AI自动化测试开发进阶班】，以保证行业顶级企业的测试团队有充足的测试开发技术人才输入，从而支撑公司的质量保证业务顺利进行。

五、写在最后

AI 并没有让测试工程师变得多余。它只是把工程师从重复执行中解放出来。

当系统可以自己处理异常、识别 UI 问题、主动脱困时，人才能真正回到更高价值的工作上——判断风险、设计策略、理解业务本质。

这，或许才是 AI 自动化测试真正成熟的标志。

关于霍格沃兹测试开发学社

霍格沃兹测试开发学社，隶属于测吧（北京）科技有限公司，是一个面向软件测试爱好者的技术交流社区，聚焦软件测试、软件测试入门、自动化测试、性能测试、接口测试、测试开发、全栈测试，以及人工智能测试（AI 测试）等方向。

学社内容覆盖 Python 自动化测试、Java 自动化测试、Web 自动化（Selenium、Playwright、App 自动化（Appium）、JMeter、LoadRunner、Jenkins 等测试技术与工具，同时关注 AI 在测试设计、用例生成、自动化执行、质量分析与测试平台建设中的应用，以及开源测试相关实践。

在人才培养方面，学社建设并运营高校测试实训平台，组织“火焰杯” 软件测试相关技术赛事，探索面向高校学员的实践型培养模式，包括先学习、就业后付款等能力导向路径。

此外，学社还提供面向测试工程师的能力提升支持，包括名企大厂 1v1 私教服务，用于结合个人背景的定向指导与工程能力提升。