昨晚 10 点半,Anthropic 发了一条推文,3 小时 330 万浏览。
Claude Opus 4.7,他们说这是"最能干的 Opus"。
我看完官方博客、跑完三个 benchmark 数据源、做完横纵向对比表之后,想说一句可能不太受欢迎的话:
大部分人根本不需要 Opus 4.7。
不是因为它不好——恰恰相反,它好得很具体。问题出在:你选模型的方式本身就是错的。
01 先看数据,再聊感受
Opus 4.7 的核心提升:
SWE-bench Verified(编程):80.8% →87.6%,一个版本涨了 6.8 个百分点。
视觉精度 XBOW:54.5% →98.5%,接近翻倍。
CursorBench(IDE 内编程):58% →70%。
生产环境任务解决量:上一代的3 倍。
工具调用错误:减少 33%。
这些数字很硬。编程场景下,Opus 4.7 是目前毫无争议的第一。
但我紧接着做了一件事——把它和 GPT-5.4、Gemini 3.1 Pro 放在同一张表里。
结果让我清醒了。
02 没有全能之王
| 能力维度 | 第一名 | 分数 | 第二名 | 差距 |
|---|---|---|---|---|
| 编程(SWE-bench) | Claude Opus 4.7 | 87.6% | Gemini 3.1 Pro 80.6% | +7pp |
| 工具调用(MCP-Atlas) | Claude Opus 4.7 | 77.3% | Gemini 73.9% | +3.4pp |
| 科学推理(GPQA) | GPT-5.4 Pro | 94.4% | Opus 4.7 94.2% | 仅差0.2% |
| 多语言(MMMLU) | Gemini 3.1 Pro | 92.6% | Opus 4.7 91.5% | +1.1pp |
| 搜索(BrowseComp) | GPT-5.4 Pro | 89.3% | Opus 4.7 79.3% | +10pp |
| 数学(FrontierMath) | GPT-5.4 Pro | 50.0% | — | 无对手 |
| 上下文长度 | Gemini 3.1 Pro | 1000万 | Llama 4 Scout 1000万 | 并列 |
编程 → Claude 碾压。数学 → OpenAI 统治。科学+多模态 → Google 最全面。
三家各有一块绝对领地,没有任何一个模型在所有维度上同时第一。
这就是 2026 年 4 月的真相:AI 模型之间的竞争,已经从"谁更强"变成了"谁在你的场景里更强"。
03 选错模型,等于烧钱
来看一笔账。
假设你是一个日常开发团队,主要用 AI 写代码和 review。你选了 GPT-5.4 Pro,因为"综合最强"。
GPT-5.4 Pro 定价:$30 输入 / $180 输出(每百万 token)。
Claude Sonnet 4.6 定价:$3 输入 / $15 输出。
编程场景下,Sonnet 4.6 的 SWE-bench 是 79.6%,GPT-5.4 是 78.2%。
你花了 10 倍的价格,买到了更低 1.4% 的编程分数。
反过来,如果你是做科研推理的,选了 Opus 4.7($5/$25),而 Gemini 3.1 Pro($2/$12)在 GPQA 上还高了 0.1%,你又多花了 2 倍。
这不是"哪个模型好"的问题,是"你的钱花在对的地方了吗"的问题。
04 一张决策表,省你半小时
别看 benchmark 论文了。记住这张表就够:
| 你的场景 | 直接选 | 月成本量级 | 别选 |
|---|---|---|---|
| 日常写代码 | Claude Sonnet 4.6 ($3/$15) | $50-200 | GPT-5.4 Pro(贵10倍,编程更弱) |
| 高难 Agent 自主任务 | Claude Opus 4.7 ($5/$25) | $200-800 | — |
| 科研推理/博士级问答 | Gemini 3.1 Pro ($2/$12) | $30-150 | Opus(科学推理不是最强项) |
| 数学竞赛/研究级数学 | GPT-5.4 Pro ($30/$180) | $500+ | 其他所有(数学OpenAI无对手) |
| 预算极度敏感 | Kimi K2 Thinking ($0.6/$2.5) | $10-50 | 任何 $5+ 的模型 |
| 处理超长文档 | Gemini 3.1 Pro (1000万上下文) | $30-150 | Opus(20万上下文,差50倍) |
| 本地部署/数据不出境 | GLM-5 或 Llama 4 | 硬件成本 | 所有闭源API |
| 极致省钱跑量 | Qwen 3.5 9B ($0.10/M) | $5-20 | — |
核心逻辑:先定场景,再选模型。不是反过来。
05 Opus 4.7 真正值得关注的三件事
抛开 benchmark 数字,Opus 4.7 有三个能力升级是质变级别的:
第一,自我验证。
推文原话:“verifies its own outputs before reporting back”。
这不是简单的 double-check。它会在输出前主动设计一套验证方案,跑完验证才给你结果。遇到数据对不上的情况,它会告诉你"数据不足,我无法确认",而不是编一个看起来合理的答案。
对于跑长时间 Agent 任务的人,这是从"你要盯着它"到"它自己能负责"的跨越。
第二,视觉分辨率 3 倍提升。
从约 125 万像素到 375 万像素。XBOW 渗透测试的视觉精度从 54.5% 跳到 98.5%。
之前让 Claude 看截图、分析 UI、读文档里的表格,经常瞎猜。现在基本能看清了。这对产品经理、设计师、测试工程师来说是实打实的能力解锁。
第三,Anthropic 手里还有一张没打的牌。
官方博客明确说了:Opus 4.7不如Claude Mythos Preview。
Mythos 在 SWE-bench Pro 上跑出了 77.8%,Opus 4.7 是 64.3%——差了 13.5 个百分点。
这意味着 Anthropic 的技术上限远不止于此。Opus 4.7 是正式发布的"稳定版",Mythos 是还在测试的"核弹"。
06 2026 年选模型的底层逻辑变了
去年这个时候,选模型的决策很简单——选最贵最强的就对了,因为差距太大。
今年不一样了。三个趋势彻底改变了游戏规则:
趋势一:成本崩塌。去年花 $500/月才能用到的能力,今年 $50 就够了。Qwen 3.5 9B 只要 $0.10/M tokens,一个 9B 参数的小模型在 GPQA 上跑出了 81.7%——超过去年的 120B 大模型。
趋势二:开源逼平闭源。GLM-5 在 SWE-bench 上 77.8%,Claude Opus 4.6 是 80.8%,差距只有 3 个百分点。"开源落后闭源两年"这句话,2026 年已经被数据证伪了。
趋势三:没有全能冠军。每家都有自己的绝对领地——Claude 的编程、OpenAI 的数学、Google 的科学推理和长上下文。选模型从"选最强的"变成了"选最匹配的"。
所以我的建议很简单:
别追"最新发布",追"最匹配场景"。Opus 4.7 发布了,很好。但如果你的核心场景是科研推理,Gemini 3.1 Pro 仍然是更好的选择,而且只要 1/2.5 的价格。
连夜写完这篇的时候,外面天快亮了。推特上还在刷 Opus 4.7 的 benchmark 截图,评论区一片"Claude 永远的神"。
我只想说一句:2026 年了,"神"有好几个。关键是你拜对了庙。
*数据来源:Anthropic 官方博客、Build Fast with AI、LM Council(Epoch/Scale 独立测试)、Vellum.ai。