三月初,OpenAI 没搞预告片式的悬念,直接把 GPT-5.4 推了出来。从官方口径看,这是目前为止他们堆料最狠、效率最高的一代前沿模型。但普通用户更关心的其实是另一件事——以前要切来切去用的那些功能,这次是不是终于能在一个对话窗口里搞定了?
答案是肯定的。GPT-5.4 把高级推理、代码生成和智能体工作流硬塞进了一个统一系统,不再像过去那样,写代码得切到 Codex,搞复杂推理又得换别的专用模型。对百度SEO和AI从业者来说,这种"大一统"思路本身就意味着大模型竞争逻辑变了。
从"分工协作"到"一人成团"
过去一年多,OpenAI 的路线其实是"拆"。GPT-5.2 管通用对话,GPT-5.3-Codex 专啃代码,再加上各种插件和外部工具,用户手里像拿着一把瑞士军刀,功能都有,但得自己知道该掰哪一格。GPT-5.4 的思路反过来了:把 GPT-5.3-Codex 那套业界顶尖的编码能力,跟增强后的通用推理、原生计算机操作能力直接焊在一起。
这种整合带来的变化很实在。做表格、做演示文稿,或者跑那种需要十几步才能完成的复杂智能体任务,你不用再反复告诉模型"刚才做到哪了"。端到端的专业工作流,它自己能串起来。
在 ChatGPT 里,GPT-5.4 Thinking 模式加了个前置推理规划机制。说人话就是:模型正在想的时候,你可以直接插嘴打断、纠正方向,它不用从头再来。老一代推理模型最烦人的就是这点——中途改个需求,等于前功尽弃。现在这个实时可控性,用起来更像跟真人协作,而不是对着一台必须等它"想完"的机器。
跑分只是参考,关键看"能不能打"
发布大模型少不了刷榜,GPT-5.4 这次的数据确实硬。覆盖美国 GDP 前九大行业、44 种职业的 GDPval 测试里,它在 83% 的对比中达到或超过专业人员水平,比 GPT-5.2 的 70.9% 高出一大截。SWE-Bench Pro 公开榜拿到 57.7%,OSWorld-Verified 冲到 75.0%,BrowseComp 更是干到 82.7%。
法律 AI 公司 Harvey 的应用研究主管 Niko Grupen 放了个更具体的数字:在面向法律文档的 BigLaw Bench 评测中,GPT-5.4 得分 91%。法律文本向来是 NLP 的重灾区,术语多、逻辑链长、容错率低,这个分数说明模型对长文本的语义把握已经不只是"看懂",而是接近专业级应用标准。
不过比跑分更有意思的是两个细节。一是 Toolathlon 54.6% 的成绩,比 GPT-5.2 的 46.3% 涨了不少,说明它调用外部工具、在多工具间切换的稳定性变强了。二是 OSWorld-Verified 的 75.0% 直接超过了人类基准 72.4%,这意味着在模拟操作系统环境里,模型靠"看"屏幕完成任务的能力已经不比人差。
原生计算机操作:模型开始"动手"了
GPT-5.4 是 OpenAI 第一个具备原生计算机操作能力的通用大模型。这句话听起来很技术,翻译一下就是:它能通过截图理解你的屏幕现状,然后用鼠标指令和键盘输入跟软件直接交互。
在 WebArena-Verified 环境里,它的浏览器操作成功率是 67.3%;到了 Online-Mind2Web 任务,仅靠截图观察就能拿到 92.8%。更夸张的是 Mainstay 公司的实测数据——CEO Dod Fraser 说,他们在近 3 万个房产门户任务里,GPT-5.4 首次尝试成功率达到 95%,完成速度是以前的 3 倍,token 消耗反而比前代计算机操作模型少了 70%。
对企业开发者来说,这组数字的潜台词很明确:以前用 AI 自动化流程,要么成功率不够得配人工兜底,要么烧 token 烧到心疼。现在这两块短板同时被补上了一块。
百万上下文与事实准确性:长任务和"胡说八道"问题同步改善
这次 API 直接支持 100 万 tokens 的上下文窗口,跟谷歌、Anthropic 的旗舰能力拉平。长上下文的意义不只是能塞进去一本小说,而是支撑智能体在长周期任务里不"失忆"。比如让一个 AI 连续处理几小时的财务报表分析,或者跟踪一个跨多页面的复杂项目,上下文断了就等于任务崩盘。
OpenAI 还强调了一件事:GPT-5.4 是他们事实准确性最高的一代。单条陈述错误率比 GPT-5.2 下降 33%,完整回复错误率下降 18%。在大模型落地过程中,"幻觉"一直是企业采购的拦路虎,这次把错误率压下来,比单纯涨跑分更能打动 B 端客户。
再加上 token 效率的提升——解决同样的推理问题,消耗的 token 更少,API 成本和响应速度双双受益。对于每天调用几十万次的生产环境,这笔账算下来很可观。
怎么用上?开放节奏有讲究
目前 GPT-5.4 Thinking 已经向 ChatGPT Plus、Team、Pro 订阅用户开放。OpenAI 的计划是未来三个月内让它逐步取代 GPT-5.2 Thinking,所以还在用老推理模型的用户,过渡期不算长。
开发者这边可以通过 OpenAI API 直接调用 GPT-5.4 和 GPT-5.4 Pro。Pro 版本面向需要海量算力处理复杂任务的用户,生产环境支持优先处理,token 生成速度更快。简单来说,普通任务用标准版,要跑重型工作流或者对延迟极度敏感的场景,Pro 是备选项。
写在最后
GPT-5.4 的发布,表面看是 OpenAI 又发了个更强的模型,深层逻辑其实是他们终于放弃"一个场景一个模型"的打法,转而押注统一架构。对行业来说,这种"全能型"路线如果跑通,后面小模型的生存空间会被进一步挤压。而对普通用户和企业而言,少切几次模型、少修几次幻觉、少付一点 token 费,才是实打实的体验升级。大模型的竞争,说到底还是要回到"能不能一口气把活干完"这个朴素标准上