DeepSeek V4 的成功发布，Opus 4.7 的落寞：中美大模型正在进行一场上甘岭战役-编程阁

DeepSeek V4 的成功发布，Opus 4.7 的落寞：中美大模型正在进行一场上甘岭战役

2025年4月，DeepSeek V4 震撼发布，Reddit 社区却爆发"Opus 4.7 is Anthropic’s downfall"的吐槽。这场中美大模型的较量，恰似一场上甘岭战役——一方攻势凌厉，一方坚守阵地，战况胶着而激烈。

引言：两个世界的交汇

2025年4月25日，两个截然不同的消息同时在 AI 圈引爆：

DeepSeek V4 正式发布— 1.6T 参数 MoE 架构，100 万 token 上下文，MIT 开源，价格低到令人窒息
Reddit r/ClaudeCode 热帖— “Opus 4.7 is Anthropic’s downfall”，49 分（63% upvoted），109 条评论，用户愤怒吐槽

这两个事件看似无关，实则揭示了一个深层趋势：中美大模型正在进入白热化的竞争阶段，一场"上甘岭战役"已然打响。

第一战场：DeepSeek V4 的技术突破

核心架构升级

DeepSeek V4 带来了多项技术突破：

模型	总参数	激活参数	上下文长度	架构
DeepSeek-V4-Pro	1.6T	49B	1M	MoE
DeepSeek-V4-Flash	284B	13B	1M	MoE

三大技术创新：

混合注意力机制— CSA + HCA 组合，在 1M token 上下文场景下，推理延迟和内存占用大幅下降
mHC 残差连接— 增强信号传播稳定性，保持模型表达能力
Muon 优化器— 更快收敛，更稳定训练

训练规模：

32T+ 高质量 tokens 预训练
两阶段后训练：领域专家独立培养（SFT + GRPO RL） → 统一蒸馏整合

基准测试：开源模型的历史性突破

DeepSeek V4 Pro Max 的基准测试数据令人震撼：

编程基准测试对比

基准	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro	Kimi K2.6	DeepSeek V4 Pro Max
LiveCodeBench	88.8	-	91.7	89.6	93.5🏆
Codeforces Rating	-	3168	3052	-	3206🏆
HumanEval	62.8*	-	-	-	76.8

DeepSeek V4 Pro Max 在 LiveCodeBench 和 Codeforces 上全面领先！

推理与数学基准

基准	Opus 4.6 Max	GPT-5.4	Gemini-3.1-Pro	Kimi K2.6	GLM-5.1	DeepSeek V4 Pro Max
GPQA Diamond	91.3	93.0	94.3🏆	90.5	86.2	90.1
HMMT 2026 Feb	96.2	97.7🏆	94.7	92.7	89.4	95.2
IMOAnswerBench	75.3	91.4🏆	81.0	86.0	83.8	89.8
MMLU-Pro	89.1	87.5	91.0🏆	87.1	86.0	87.5

Agentic 任务基准

基准	Opus 4.6 Max	GPT-5.4	Gemini-3.1-Pro	Kimi K2.6	GLM-5.1	DeepSeek V4 Pro Max
SWE Verified	80.8	-	80.6	80.2	-	80.6
SWE Pro	57.3	57.7	54.2	58.6🏆	58.4	55.4
Terminal Bench 2.0	65.4	75.1🏆	68.5	66.7	63.5	67.9
BrowseComp	83.7	82.7	85.9🏆	83.2	79.3	83.4
GDPval-AA Elo	1619	1674🏆	1314	1482	1535	1554

关键发现：

✅ DeepSeek V4 Pro Max 编程能力超越所有竞争对手
✅ SWE Verified 与 Opus 4.6 Max持平
⚠️ Agentic 任务略逊于 GPT-5.4，但差距缩小
✅ 作为开源模型，这是历史性突破

价格战：DeepSeek 的杀手锏

模型	输入（缓存命中）	输入（缓存未命中）	输出	上下文
DeepSeek V4 Flash	¥0.2/M	¥1/M	¥2/M	1M
DeepSeek V4 Pro	¥1/M	¥12/M	¥24/M	1M
Claude Opus 4.7	$15/M	$15/M	$75/M	200K
Claude Sonnet 4.7	$3/M	$3/M	$15/M	200K
GPT-5.5	$10/M	$10/M	$30/M	128K

价格对比（按汇率换算）：

对比项	DeepSeek V4 Flash	Claude Opus 4.7	差距
输入（缓存）	¥0.2 ≈ $0.03	$15	500 倍差距！
输入（未缓存）	¥1 ≈ $0.14	$15	107 倍差距
输出	¥2 ≈ $0.28	$75	270 倍差距

DeepSeek V4 Flash 的价格比 Claude Opus 便宜 100-500 倍！

第二战场：Opus 4.7 的落寞

Reddit 热帖：用户的愤怒

2025年4月25日，Reddit r/ClaudeCode 出现热帖《Opus 4.7 is Anthropic’s downfall》：

“我给了 Anthropic 10 天时间。尝试修复多个 repo 的多个 bug。Opus 4.7 就在那转圈，什么都不做。作为 Max 订阅者 1 年后，我切换到 GPT 5.5。”

评分：49（63% upvoted），109 条评论。

用户核心抱怨

1. 无限循环问题

“我正在经历无尽的 bugfix 循环，就在此刻。”
“Opus 4.7 修复 bug 时进入无限循环，什么都不做。”

2. 速度严重下降

“Opus 变得太慢了。现在连最简单的任务都要 2-4 分钟。”
“默认 Opus 4.7，即使 medium effort，也比任何版本的 Opus 都慢。”

3. 质量退化

“我得不到以前的质量，创造力消失了，不再思考了。”
“更多幻觉，更多错误假设，要频繁重置上下文。”
“Opus 4.7 就像当年的 Sonnet 3.7。OG 们懂我在说什么。”
“Sonnet 3.7 是 Anthropic 史上最差模型。”

4. 额度紧张

“Claude Design 3-4 个提示就一周额度！”
“在 Codex 里 2 天用了 1B tokens，不可能用完额度。”
“你需要另一个 agent 不停提示才能用完 Codex 额度。”
“ChatGPT Image 2 一小时 30-40 张图都没用完额度。”
“Codex 的免费额度都比 Claude Pro 的付费额度好！”

5. 强制迁移争议

“他们发布 4.7 并移除了 4.6 访问（Pro 计划），强迫用户用新模型。”
“4.6 也被 nerf 了！”
“涨价降额度，Pro 账户现在就像个 demo。”

用户迁移潮

大量用户宣布切换到 GPT 5.5：

“我已切换到 GPT 5.5，一切都好。”
“同上。”
“我取消了 Claude Max 订阅，改用 $100/月的 Kimi plan。”
“把我的 x20s 都转到 GPT 了，编码比 Opus 4.7 更好。”
“从 Claude Pro 切换到 Codex 恢复理智。目前挺好。”
“kimi-k2.5 看起来不错，用同样的 Claude Code。有时慢但不会几分钟内用完额度。”

反方观点：抱怨太戏剧化

也有用户认为抱怨过度：

“你们太戏剧化了 lol”
“我在 Claude Code 上正常工作，产出我需要的东西。”
“不排除竞争对手用 agent 发这种帖子攻击。”
“很多人不知道怎么正确编码和引导 AI。大概是 vibe coder 和新手在抱怨。”
“有意思的是 r/Codex 也有同样的抱怨关于 GPT-5.5。”

第三战场：上甘岭战役的战略分析

什么是"上甘岭战役"？

上甘岭战役（1952年）是抗美援朝战争中最惨烈的阵地战：

志愿军：依托坑道工事，顽强坚守，以劣势装备对抗优势火力
美军：火力优势，空中优势，但无法突破志愿军的防御阵地
结果：志愿军成功守住阵地，美军被迫停止进攻

这场战役的特点：

防守方凭借意志和智慧，抵御进攻方的火力优势
双方伤亡惨重，战况胶着
最终防守方取得战略胜利

大模型领域的"上甘岭战役"

角色	对应方	特点
进攻方（志愿军式）	DeepSeek、Kimi、GLM	技术突破、价格优势、开源策略、快速迭代
防守方（美军式）	Anthropic、OpenAI、Google	生态优势、品牌忠诚、技术积淀、资本雄厚
战场	Agentic Coding、开发者工具	Claude Code vs OpenCode vs Codex
火力	模型性能 + 价格 + 用户体验	基准测试 + API 价格 + 工具集成

进攻方攻势凌厉

DeepSeek 的"火力压制"

技术突破：1.6T MoE、100 万上下文、MIT 开源
价格优势：比 Claude 便宜 100-500 倍
开源策略：模型权重公开，社区可自行部署
生态建设：支持 Anthropic API 格式，无缝迁移

Kimi 的"侧翼突破"

“Kimi K2.6 比 Opus 4.6 更高效（近期 Opus 性能下降）”
“我用 Kimi K2.6 替代 Opus 4.6 三天了，体验很好。”
“$100/月 vs Claude Max $200/月，性价比极高。”

GLM 的"本土防守"

“GLM 5.1 的效果和 Sonnet 4.7 差不多。”
“Codex 5.5 现在非常棒。”
“GLM 5 才开始有用，5.1 比 5 有显著提升。”

防守方坚守阵地

Anthropic 的"阵地优势"

生态优势：Claude Code 工具链成熟
品牌忠诚：Max 用户长期付费习惯
技术积淀：Opus 系列的历史口碑（4.5、4.6 曾是标杆）
资本雄厚：Amazon、Google 投资，烧得起钱

OpenAI 的"火力反击"

“GPT 5.5 的额度比 Claude 宽松得多。”
“Codex 的免费额度都比 Claude Pro 的付费额度好。”
“切换到 Codex 后恢复正常工作。”

战况胶着：谁占上风？

进攻方占优领域

领域	进攻方优势	防守方劣势
价格	DeepSeek 便宜 100-500 倍	Claude/GPT 价格高昂
编程基准	DeepSeek V4 Pro Max LiveCodeBench 93.5 第一	Opus 88.8 略逊
开源生态	DeepSeek MIT 开源，社区自由部署	Claude/GPT 闭源
上下文长度	DeepSeek/Kimi 100 万 token	Claude 200K、GPT 128K

防守方占优领域

领域	防守方优势	进攻方劣势
Agentic 任务	GPT-5.4 Terminal Bench 75.1、GDPval 1674	DeepSeek 67.9、1554
工具生态	Claude Code 成熟稳定	OpenCode 尚在发展
易用性	“Claude 太容易用了，不需要动脑子”	国产模型需要 Prompt Engineering
推理能力	GPT-5.4 IMOAnswerBench 91.4	DeepSeek 89.8、Kimi 86.0

战局演变：用户心态的变化

从"单品牌忠诚"到"多模型组合"

用户的策略正在变化：

“同时用多个模块更好，而不是依赖一个。”
“Opus 用于协调，Sonnet 是工人。”
“用 Claude Code + DeepSeek V4 Flash 组合。”
“Gemini 有时能修其他模型修不了的 bug，模型多样性更好。”

从"付费订阅"到"API 灵活调用"

“取消 Claude Max，改用 API + DeepSeek 组合。”
“Codex 的 $100 plan 比 Claude Max $200 plan 更划算。”
“DeepSeek Flash 的价格让我可以无限制测试。”

从"品牌粉丝"到"理性选择"

“我们都在供应商间循环跳 — 就是谁 screw up 最少的比赛。”
“接下来呢？切换到 GPT5.5，2 个月后又回 Anthropic！”
“AI 编程格局还在演变，没人能确定长期选择。”

战略预测：谁将胜出？

短期预测（2025年内）

进攻方将继续扩大优势：

DeepSeek V4 的开源生态将迅速发展
价格优势将吸引大量开发者迁移
Kimi、GLM 将继续提升性能

防守方将调整策略：

Anthropic 可能调整价格或额度政策
OpenAI 将继续强调生态优势
双方都可能发布新版本修复问题

中期预测（2025-2026）

战场将分化：

低成本场景：DeepSeek V4 Flash 将主导
高端场景：Claude/GPT 将保持优势
开源生态：DeepSeek 将成为主流
企业客户：多模型组合将成为常态

期预测（2026+）

可能的结局：

进攻方胜利：DeepSeek/Kimi/GLM 全面超越 Claude/GPT，开源成为主流
防守方胜利：Anthropic/OpenAI 凭借生态和资本优势压制进攻方
双方共存：差异化竞争，各占细分市场

结语：上甘岭战役的历史启示

上甘岭战役告诉我们：

意志和智慧可以弥补火力劣势— DeepSeek 凭借开源和价格策略，正在弥补技术差距
防守方需要警惕阵地松动— Anthropic 的 Opus 4.7 问题显示，即使是领先者也可能犯错
战况胶着，胜负未定— 当前阶段，双方各有优势，战况仍在演变
用户是最终裁判— 开发者的迁移选择将决定最终胜负

附录：关键数据汇总

DeepSeek V4 技术规格

参数	DeepSeek V4 Pro	DeepSeek V4 Flash
总参数	1.6T	284B
激活参数	49B	13B
上下文长度	1M	1M
最大输出	384K	384K
架构	MoE	MoE
许可证	MIT	MIT

DeepSeek V4 价格（人民币/百万 tokens）

项目	V4 Flash	V4 Pro
输入（缓存命中）	¥0.2	¥1
输入（缓存未命中）	¥1	¥12
输出	¥2	¥24

关键基准对比

基准	DeepSeek V4 Pro Max	Opus 4.6 Max	GPT-5.4	胜者
LiveCodeBench	93.5	88.8	-	DeepSeek 🏆
Codeforces	3206	-	3168	DeepSeek 🏆
SWE Verified	80.6	80.8	-	Opus 略胜
Terminal Bench	67.9	65.4	75.1	GPT 🏆

本文数据来源：DeepSeek V4 HuggingFace Model Card、DeepSeek API 文档、Reddit r/ClaudeCode 社区讨论。数据截止 2025年4月25日。模型能力会持续迭代，建议关注最新评测。