news 2026/4/17 3:19:23

别急着换模型——Claude Opus 4.7 发布后,我连夜做了一张对比表

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
别急着换模型——Claude Opus 4.7 发布后,我连夜做了一张对比表

昨晚 10 点半,Anthropic 发了一条推文,3 小时 330 万浏览。

Claude Opus 4.7,他们说这是"最能干的 Opus"。

我看完官方博客、跑完三个 benchmark 数据源、做完横纵向对比表之后,想说一句可能不太受欢迎的话:

大部分人根本不需要 Opus 4.7。

不是因为它不好——恰恰相反,它好得很具体。问题出在:你选模型的方式本身就是错的。

01 先看数据,再聊感受

Opus 4.7 的核心提升:

SWE-bench Verified(编程):80.8% →87.6%,一个版本涨了 6.8 个百分点。
视觉精度 XBOW:54.5% →98.5%,接近翻倍。
CursorBench(IDE 内编程):58% →70%
生产环境任务解决量:上一代的3 倍
工具调用错误:减少 33%

这些数字很硬。编程场景下,Opus 4.7 是目前毫无争议的第一。

但我紧接着做了一件事——把它和 GPT-5.4、Gemini 3.1 Pro 放在同一张表里。

结果让我清醒了。

02 没有全能之王

能力维度第一名分数第二名差距
编程(SWE-bench)Claude Opus 4.787.6%Gemini 3.1 Pro 80.6%+7pp
工具调用(MCP-Atlas)Claude Opus 4.777.3%Gemini 73.9%+3.4pp
科学推理(GPQA)GPT-5.4 Pro94.4%Opus 4.7 94.2%仅差0.2%
多语言(MMMLU)Gemini 3.1 Pro92.6%Opus 4.7 91.5%+1.1pp
搜索(BrowseComp)GPT-5.4 Pro89.3%Opus 4.7 79.3%+10pp
数学(FrontierMath)GPT-5.4 Pro50.0%无对手
上下文长度Gemini 3.1 Pro1000万Llama 4 Scout 1000万并列

编程 → Claude 碾压。数学 → OpenAI 统治。科学+多模态 → Google 最全面。

三家各有一块绝对领地,没有任何一个模型在所有维度上同时第一。

这就是 2026 年 4 月的真相:AI 模型之间的竞争,已经从"谁更强"变成了"谁在你的场景里更强"。

03 选错模型,等于烧钱

来看一笔账。

假设你是一个日常开发团队,主要用 AI 写代码和 review。你选了 GPT-5.4 Pro,因为"综合最强"。

GPT-5.4 Pro 定价:$30 输入 / $180 输出(每百万 token)。
Claude Sonnet 4.6 定价:$3 输入 / $15 输出。

编程场景下,Sonnet 4.6 的 SWE-bench 是 79.6%,GPT-5.4 是 78.2%。

你花了 10 倍的价格,买到了更低 1.4% 的编程分数。

反过来,如果你是做科研推理的,选了 Opus 4.7($5/$25),而 Gemini 3.1 Pro($2/$12)在 GPQA 上还高了 0.1%,你又多花了 2 倍。

这不是"哪个模型好"的问题,是"你的钱花在对的地方了吗"的问题。

04 一张决策表,省你半小时

别看 benchmark 论文了。记住这张表就够:

你的场景直接选月成本量级别选
日常写代码Claude Sonnet 4.6 ($3/$15)$50-200GPT-5.4 Pro(贵10倍,编程更弱)
高难 Agent 自主任务Claude Opus 4.7 ($5/$25)$200-800
科研推理/博士级问答Gemini 3.1 Pro ($2/$12)$30-150Opus(科学推理不是最强项)
数学竞赛/研究级数学GPT-5.4 Pro ($30/$180)$500+其他所有(数学OpenAI无对手)
预算极度敏感Kimi K2 Thinking ($0.6/$2.5)$10-50任何 $5+ 的模型
处理超长文档Gemini 3.1 Pro (1000万上下文)$30-150Opus(20万上下文,差50倍)
本地部署/数据不出境GLM-5 或 Llama 4硬件成本所有闭源API
极致省钱跑量Qwen 3.5 9B ($0.10/M)$5-20

核心逻辑:先定场景,再选模型。不是反过来。

05 Opus 4.7 真正值得关注的三件事

抛开 benchmark 数字,Opus 4.7 有三个能力升级是质变级别的:

第一,自我验证。

推文原话:“verifies its own outputs before reporting back”。

这不是简单的 double-check。它会在输出前主动设计一套验证方案,跑完验证才给你结果。遇到数据对不上的情况,它会告诉你"数据不足,我无法确认",而不是编一个看起来合理的答案。

对于跑长时间 Agent 任务的人,这是从"你要盯着它"到"它自己能负责"的跨越。

第二,视觉分辨率 3 倍提升。

从约 125 万像素到 375 万像素。XBOW 渗透测试的视觉精度从 54.5% 跳到 98.5%。

之前让 Claude 看截图、分析 UI、读文档里的表格,经常瞎猜。现在基本能看清了。这对产品经理、设计师、测试工程师来说是实打实的能力解锁。

第三,Anthropic 手里还有一张没打的牌。

官方博客明确说了:Opus 4.7不如Claude Mythos Preview。

Mythos 在 SWE-bench Pro 上跑出了 77.8%,Opus 4.7 是 64.3%——差了 13.5 个百分点。

这意味着 Anthropic 的技术上限远不止于此。Opus 4.7 是正式发布的"稳定版",Mythos 是还在测试的"核弹"。

06 2026 年选模型的底层逻辑变了

去年这个时候,选模型的决策很简单——选最贵最强的就对了,因为差距太大。

今年不一样了。三个趋势彻底改变了游戏规则:

趋势一:成本崩塌。去年花 $500/月才能用到的能力,今年 $50 就够了。Qwen 3.5 9B 只要 $0.10/M tokens,一个 9B 参数的小模型在 GPQA 上跑出了 81.7%——超过去年的 120B 大模型。

趋势二:开源逼平闭源。GLM-5 在 SWE-bench 上 77.8%,Claude Opus 4.6 是 80.8%,差距只有 3 个百分点。"开源落后闭源两年"这句话,2026 年已经被数据证伪了。

趋势三:没有全能冠军。每家都有自己的绝对领地——Claude 的编程、OpenAI 的数学、Google 的科学推理和长上下文。选模型从"选最强的"变成了"选最匹配的"。

所以我的建议很简单:

别追"最新发布",追"最匹配场景"。Opus 4.7 发布了,很好。但如果你的核心场景是科研推理,Gemini 3.1 Pro 仍然是更好的选择,而且只要 1/2.5 的价格。

连夜写完这篇的时候,外面天快亮了。推特上还在刷 Opus 4.7 的 benchmark 截图,评论区一片"Claude 永远的神"。

我只想说一句:2026 年了,"神"有好几个。关键是你拜对了庙。


*数据来源:Anthropic 官方博客、Build Fast with AI、LM Council(Epoch/Scale 独立测试)、Vellum.ai。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 3:18:42

20 年 Python 库 `akismet` 重写:支持新功能与异步操作,解决历史难题

重写一个有 20 年历史的 Python 库早在 2005 年,很多人都有个人博客,会在上面撰写各类内容,还喜欢设置评论区,但这也成了垃圾信息的磁石。当时 Akismet 上线,提供网络服务对评论进行垃圾信息分类,很受欢迎且…

作者头像 李华
网站建设 2026/4/17 3:18:23

第七章 结构体

结构体类似于其他面向对象语言的类,它包含了一些表达某类特性的属性组合,内容是一组属性名和属性值的集合。结构体还包含了对应相关联的函数方法和行为。它和元祖的区别是:元祖不包含属性名称,结构体包含属性名称。元祖使用小括号…

作者头像 李华
网站建设 2026/4/17 3:17:12

【FreeRTOS】深入解析消息队列的阻塞机制与任务通信实战

1. 为什么需要消息队列? 在嵌入式开发中,任务间的数据传递是个永恒的话题。记得我刚接触FreeRTOS时,第一反应就是用全局变量来传递数据——这不就跟裸机编程一样简单直接吗?但很快就被现实狠狠教育了。有一次在电机控制项目中&…

作者头像 李华
网站建设 2026/4/17 3:13:12

遥感数字图像处理教程【2.3】

5 . 3 系 统 辐 射 校 正 1 . 边缘减光现象 在使用透镜的光学系统中,由于透镜光学的非均匀性,在成像平面上边缘部分比中间部分暗,即边缘减光。对于这种问题,如果光线以平行于主光轴的方向通过透镜到达像平面的光 强 度 为 其&am…

作者头像 李华