DeepSeek V4 的成功发布,Opus 4.7 的落寞:中美大模型正在进行一场上甘岭战役
2025年4月,DeepSeek V4 震撼发布,Reddit 社区却爆发"Opus 4.7 is Anthropic’s downfall"的吐槽。这场中美大模型的较量,恰似一场上甘岭战役——一方攻势凌厉,一方坚守阵地,战况胶着而激烈。
引言:两个世界的交汇
2025年4月25日,两个截然不同的消息同时在 AI 圈引爆:
- DeepSeek V4 正式发布— 1.6T 参数 MoE 架构,100 万 token 上下文,MIT 开源,价格低到令人窒息
- Reddit r/ClaudeCode 热帖— “Opus 4.7 is Anthropic’s downfall”,49 分(63% upvoted),109 条评论,用户愤怒吐槽
这两个事件看似无关,实则揭示了一个深层趋势:中美大模型正在进入白热化的竞争阶段,一场"上甘岭战役"已然打响。
第一战场:DeepSeek V4 的技术突破
核心架构升级
DeepSeek V4 带来了多项技术突破:
| 模型 | 总参数 | 激活参数 | 上下文长度 | 架构 |
|---|---|---|---|---|
| DeepSeek-V4-Pro | 1.6T | 49B | 1M | MoE |
| DeepSeek-V4-Flash | 284B | 13B | 1M | MoE |
三大技术创新:
- 混合注意力机制— CSA + HCA 组合,在 1M token 上下文场景下,推理延迟和内存占用大幅下降
- mHC 残差连接— 增强信号传播稳定性,保持模型表达能力
- Muon 优化器— 更快收敛,更稳定训练
训练规模:
- 32T+ 高质量 tokens 预训练
- 两阶段后训练:领域专家独立培养(SFT + GRPO RL) → 统一蒸馏整合
基准测试:开源模型的历史性突破
DeepSeek V4 Pro Max 的基准测试数据令人震撼:
编程基准测试对比
| 基准 | Opus 4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro | Kimi K2.6 | DeepSeek V4 Pro Max |
|---|---|---|---|---|---|
| LiveCodeBench | 88.8 | - | 91.7 | 89.6 | 93.5🏆 |
| Codeforces Rating | - | 3168 | 3052 | - | 3206🏆 |
| HumanEval | 62.8* | - | - | - | 76.8 |
DeepSeek V4 Pro Max 在 LiveCodeBench 和 Codeforces 上全面领先!
推理与数学基准
| 基准 | Opus 4.6 Max | GPT-5.4 | Gemini-3.1-Pro | Kimi K2.6 | GLM-5.1 | DeepSeek V4 Pro Max |
|---|---|---|---|---|---|---|
| GPQA Diamond | 91.3 | 93.0 | 94.3🏆 | 90.5 | 86.2 | 90.1 |
| HMMT 2026 Feb | 96.2 | 97.7🏆 | 94.7 | 92.7 | 89.4 | 95.2 |
| IMOAnswerBench | 75.3 | 91.4🏆 | 81.0 | 86.0 | 83.8 | 89.8 |
| MMLU-Pro | 89.1 | 87.5 | 91.0🏆 | 87.1 | 86.0 | 87.5 |
Agentic 任务基准
| 基准 | Opus 4.6 Max | GPT-5.4 | Gemini-3.1-Pro | Kimi K2.6 | GLM-5.1 | DeepSeek V4 Pro Max |
|---|---|---|---|---|---|---|
| SWE Verified | 80.8 | - | 80.6 | 80.2 | - | 80.6 |
| SWE Pro | 57.3 | 57.7 | 54.2 | 58.6🏆 | 58.4 | 55.4 |
| Terminal Bench 2.0 | 65.4 | 75.1🏆 | 68.5 | 66.7 | 63.5 | 67.9 |
| BrowseComp | 83.7 | 82.7 | 85.9🏆 | 83.2 | 79.3 | 83.4 |
| GDPval-AA Elo | 1619 | 1674🏆 | 1314 | 1482 | 1535 | 1554 |
关键发现:
- ✅ DeepSeek V4 Pro Max 编程能力超越所有竞争对手
- ✅ SWE Verified 与 Opus 4.6 Max持平
- ⚠️ Agentic 任务略逊于 GPT-5.4,但差距缩小
- ✅ 作为开源模型,这是历史性突破
价格战:DeepSeek 的杀手锏
| 模型 | 输入(缓存命中) | 输入(缓存未命中) | 输出 | 上下文 |
|---|---|---|---|---|
| DeepSeek V4 Flash | ¥0.2/M | ¥1/M | ¥2/M | 1M |
| DeepSeek V4 Pro | ¥1/M | ¥12/M | ¥24/M | 1M |
| Claude Opus 4.7 | $15/M | $15/M | $75/M | 200K |
| Claude Sonnet 4.7 | $3/M | $3/M | $15/M | 200K |
| GPT-5.5 | $10/M | $10/M | $30/M | 128K |
价格对比(按汇率换算):
| 对比项 | DeepSeek V4 Flash | Claude Opus 4.7 | 差距 |
|---|---|---|---|
| 输入(缓存) | ¥0.2 ≈ $0.03 | $15 | 500 倍差距! |
| 输入(未缓存) | ¥1 ≈ $0.14 | $15 | 107 倍差距 |
| 输出 | ¥2 ≈ $0.28 | $75 | 270 倍差距 |
DeepSeek V4 Flash 的价格比 Claude Opus 便宜 100-500 倍!
第二战场:Opus 4.7 的落寞
Reddit 热帖:用户的愤怒
2025年4月25日,Reddit r/ClaudeCode 出现热帖《Opus 4.7 is Anthropic’s downfall》:
“我给了 Anthropic 10 天时间。尝试修复多个 repo 的多个 bug。Opus 4.7 就在那转圈,什么都不做。作为 Max 订阅者 1 年后,我切换到 GPT 5.5。”
评分:49(63% upvoted),109 条评论。
用户核心抱怨
1. 无限循环问题
“我正在经历无尽的 bugfix 循环,就在此刻。”
“Opus 4.7 修复 bug 时进入无限循环,什么都不做。”
2. 速度严重下降
“Opus 变得太慢了。现在连最简单的任务都要 2-4 分钟。”
“默认 Opus 4.7,即使 medium effort,也比任何版本的 Opus 都慢。”
3. 质量退化
“我得不到以前的质量,创造力消失了,不再思考了。”
“更多幻觉,更多错误假设,要频繁重置上下文。”
“Opus 4.7 就像当年的 Sonnet 3.7。OG 们懂我在说什么。”
“Sonnet 3.7 是 Anthropic 史上最差模型。”
4. 额度紧张
“Claude Design 3-4 个提示就一周额度!”
“在 Codex 里 2 天用了 1B tokens,不可能用完额度。”
“你需要另一个 agent 不停提示才能用完 Codex 额度。”
“ChatGPT Image 2 一小时 30-40 张图都没用完额度。”
“Codex 的免费额度都比 Claude Pro 的付费额度好!”
5. 强制迁移争议
“他们发布 4.7 并移除了 4.6 访问(Pro 计划),强迫用户用新模型。”
“4.6 也被 nerf 了!”
“涨价降额度,Pro 账户现在就像个 demo。”
用户迁移潮
大量用户宣布切换到 GPT 5.5:
“我已切换到 GPT 5.5,一切都好。”
“同上。”
“我取消了 Claude Max 订阅,改用 $100/月的 Kimi plan。”
“把我的 x20s 都转到 GPT 了,编码比 Opus 4.7 更好。”
“从 Claude Pro 切换到 Codex 恢复理智。目前挺好。”
“kimi-k2.5 看起来不错,用同样的 Claude Code。有时慢但不会几分钟内用完额度。”
反方观点:抱怨太戏剧化
也有用户认为抱怨过度:
“你们太戏剧化了 lol”
“我在 Claude Code 上正常工作,产出我需要的东西。”
“不排除竞争对手用 agent 发这种帖子攻击。”
“很多人不知道怎么正确编码和引导 AI。大概是 vibe coder 和新手在抱怨。”
“有意思的是 r/Codex 也有同样的抱怨关于 GPT-5.5。”
第三战场:上甘岭战役的战略分析
什么是"上甘岭战役"?
上甘岭战役(1952年)是抗美援朝战争中最惨烈的阵地战:
- 志愿军:依托坑道工事,顽强坚守,以劣势装备对抗优势火力
- 美军:火力优势,空中优势,但无法突破志愿军的防御阵地
- 结果:志愿军成功守住阵地,美军被迫停止进攻
这场战役的特点:
- 防守方凭借意志和智慧,抵御进攻方的火力优势
- 双方伤亡惨重,战况胶着
- 最终防守方取得战略胜利
大模型领域的"上甘岭战役"
| 角色 | 对应方 | 特点 |
|---|---|---|
| 进攻方(志愿军式) | DeepSeek、Kimi、GLM | 技术突破、价格优势、开源策略、快速迭代 |
| 防守方(美军式) | Anthropic、OpenAI、Google | 生态优势、品牌忠诚、技术积淀、资本雄厚 |
| 战场 | Agentic Coding、开发者工具 | Claude Code vs OpenCode vs Codex |
| 火力 | 模型性能 + 价格 + 用户体验 | 基准测试 + API 价格 + 工具集成 |
进攻方攻势凌厉
DeepSeek 的"火力压制"
- 技术突破:1.6T MoE、100 万上下文、MIT 开源
- 价格优势:比 Claude 便宜 100-500 倍
- 开源策略:模型权重公开,社区可自行部署
- 生态建设:支持 Anthropic API 格式,无缝迁移
Kimi 的"侧翼突破"
“Kimi K2.6 比 Opus 4.6 更高效(近期 Opus 性能下降)”
“我用 Kimi K2.6 替代 Opus 4.6 三天了,体验很好。”
“$100/月 vs Claude Max $200/月,性价比极高。”
GLM 的"本土防守"
“GLM 5.1 的效果和 Sonnet 4.7 差不多。”
“Codex 5.5 现在非常棒。”
“GLM 5 才开始有用,5.1 比 5 有显著提升。”
防守方坚守阵地
Anthropic 的"阵地优势"
- 生态优势:Claude Code 工具链成熟
- 品牌忠诚:Max 用户长期付费习惯
- 技术积淀:Opus 系列的历史口碑(4.5、4.6 曾是标杆)
- 资本雄厚:Amazon、Google 投资,烧得起钱
OpenAI 的"火力反击"
“GPT 5.5 的额度比 Claude 宽松得多。”
“Codex 的免费额度都比 Claude Pro 的付费额度好。”
“切换到 Codex 后恢复正常工作。”
战况胶着:谁占上风?
进攻方占优领域
| 领域 | 进攻方优势 | 防守方劣势 |
|---|---|---|
| 价格 | DeepSeek 便宜 100-500 倍 | Claude/GPT 价格高昂 |
| 编程基准 | DeepSeek V4 Pro Max LiveCodeBench 93.5 第一 | Opus 88.8 略逊 |
| 开源生态 | DeepSeek MIT 开源,社区自由部署 | Claude/GPT 闭源 |
| 上下文长度 | DeepSeek/Kimi 100 万 token | Claude 200K、GPT 128K |
防守方占优领域
| 领域 | 防守方优势 | 进攻方劣势 |
|---|---|---|
| Agentic 任务 | GPT-5.4 Terminal Bench 75.1、GDPval 1674 | DeepSeek 67.9、1554 |
| 工具生态 | Claude Code 成熟稳定 | OpenCode 尚在发展 |
| 易用性 | “Claude 太容易用了,不需要动脑子” | 国产模型需要 Prompt Engineering |
| 推理能力 | GPT-5.4 IMOAnswerBench 91.4 | DeepSeek 89.8、Kimi 86.0 |
战局演变:用户心态的变化
从"单品牌忠诚"到"多模型组合"
用户的策略正在变化:
“同时用多个模块更好,而不是依赖一个。”
“Opus 用于协调,Sonnet 是工人。”
“用 Claude Code + DeepSeek V4 Flash 组合。”
“Gemini 有时能修其他模型修不了的 bug,模型多样性更好。”
从"付费订阅"到"API 灵活调用"
“取消 Claude Max,改用 API + DeepSeek 组合。”
“Codex 的 $100 plan 比 Claude Max $200 plan 更划算。”
“DeepSeek Flash 的价格让我可以无限制测试。”
从"品牌粉丝"到"理性选择"
“我们都在供应商间循环跳 — 就是谁 screw up 最少的比赛。”
“接下来呢?切换到 GPT5.5,2 个月后又回 Anthropic!”
“AI 编程格局还在演变,没人能确定长期选择。”
战略预测:谁将胜出?
短期预测(2025年内)
进攻方将继续扩大优势:
- DeepSeek V4 的开源生态将迅速发展
- 价格优势将吸引大量开发者迁移
- Kimi、GLM 将继续提升性能
防守方将调整策略:
- Anthropic 可能调整价格或额度政策
- OpenAI 将继续强调生态优势
- 双方都可能发布新版本修复问题
中期预测(2025-2026)
战场将分化:
- 低成本场景:DeepSeek V4 Flash 将主导
- 高端场景:Claude/GPT 将保持优势
- 开源生态:DeepSeek 将成为主流
- 企业客户:多模型组合将成为常态
期预测(2026+)
可能的结局:
- 进攻方胜利:DeepSeek/Kimi/GLM 全面超越 Claude/GPT,开源成为主流
- 防守方胜利:Anthropic/OpenAI 凭借生态和资本优势压制进攻方
- 双方共存:差异化竞争,各占细分市场
结语:上甘岭战役的历史启示
上甘岭战役告诉我们:
- 意志和智慧可以弥补火力劣势— DeepSeek 凭借开源和价格策略,正在弥补技术差距
- 防守方需要警惕阵地松动— Anthropic 的 Opus 4.7 问题显示,即使是领先者也可能犯错
- 战况胶着,胜负未定— 当前阶段,双方各有优势,战况仍在演变
- 用户是最终裁判— 开发者的迁移选择将决定最终胜负
附录:关键数据汇总
DeepSeek V4 技术规格
| 参数 | DeepSeek V4 Pro | DeepSeek V4 Flash |
|---|---|---|
| 总参数 | 1.6T | 284B |
| 激活参数 | 49B | 13B |
| 上下文长度 | 1M | 1M |
| 最大输出 | 384K | 384K |
| 架构 | MoE | MoE |
| 许可证 | MIT | MIT |
DeepSeek V4 价格(人民币/百万 tokens)
| 项目 | V4 Flash | V4 Pro |
|---|---|---|
| 输入(缓存命中) | ¥0.2 | ¥1 |
| 输入(缓存未命中) | ¥1 | ¥12 |
| 输出 | ¥2 | ¥24 |
关键基准对比
| 基准 | DeepSeek V4 Pro Max | Opus 4.6 Max | GPT-5.4 | 胜者 |
|---|---|---|---|---|
| LiveCodeBench | 93.5 | 88.8 | - | DeepSeek 🏆 |
| Codeforces | 3206 | - | 3168 | DeepSeek 🏆 |
| SWE Verified | 80.6 | 80.8 | - | Opus 略胜 |
| Terminal Bench | 67.9 | 65.4 | 75.1 | GPT 🏆 |
本文数据来源:DeepSeek V4 HuggingFace Model Card、DeepSeek API 文档、Reddit r/ClaudeCode 社区讨论。数据截止 2025年4月25日。模型能力会持续迭代,建议关注最新评测。