news 2026/4/16 12:19:43

100 万token!Anthropic 重磅发布 Claude Opus 4.6,成功登顶编程王座

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
100 万token!Anthropic 重磅发布 Claude Opus 4.6,成功登顶编程王座

Anthropic 毫无预警地发布了Claude Opus 4.6。说实话,这半年被各种“遥遥领先”的模型轰炸得有点审美疲劳,本来想关灯睡觉,但扫了一眼官方的 Changelog,我直接垂死病中惊坐起——这货居然支持 100 万 token 上下文了?而且还会自己改 Bug?

1. 它终于学会了“像人一样思考”

以前我们用 AI 写代码,最烦的是什么?是它写了一段看着很完美的代码,一运行全是红字,然后你把报错扔回去,它就开始瞎蒙,越改越错。

Opus 4.6 最让我惊喜的一点是它的自省能力

官方文档里提到它在“Terminal-Bench 2.0”里拿了最高分,还在那个听起来很吓人的“人类最后的考试(Humanity's Last Exam)”里碾压了对手。但数据是冰冷的,真实的体感是:它变稳了。

Opus 4.6 还能将其增强的功能应用于一系列日常工作任务:运行财务分析、进行研究以及使用和创建文档、电子表格和演示文稿。在Cowork 环境中,Claude 可以自主地执行多任务,Opus 4.6 可以代表用户运用所有这些技能。

Opus 4.6 在多个专业领域的实际工作任务中都达到了最先进的水平

该模型在多项评估中均表现出色,堪称业界领先。例如,它在智能体编码评估工具Terminal-Bench 2.0中取得了最高分,并在“人类最后的考试”(一项复杂的多学科推理测试)中领先于所有其他前沿模型。

在GDPval-AA(一项评估模型在金融、法律和其他领域中具有经济价值的知识工作任务上的表现的测试)中, Opus 4.6 的表现比业界次优模型(OpenAI 的 GPT-5.2)高出约 144 个 Elo 分数,比其前身(Claude Opus 4.5)高出 190 分。此外,Opus 4.6 在BrowseComp 测试中也优于其他所有模型,该测试用于衡量模型在线查找难寻信息的能力。

我在 Claude Code 里丢给它一个很恶心的遗留代码重构任务。以前的模型可能直接就上手改,改完崩了算我的。但 Opus 4.6 并没有急着输出代码,而是先规划。它列出了几个可能踩坑的点,甚至在运行过程中,它自己发现了逻辑漏洞,然后自己修好了

这种“自我纠错”的感觉,太像一个靠谱的高级工程师坐在你旁边结对编程了。它不再是一个单纯的“代码生成器”,更像是一个能帮你兜底的 Partner。

Opus 4.6 擅长诊断复杂的软件故障

2. 100 万 Token 上下文:告别“金鱼记忆”

咱们做开发的都有个痛点叫“Context Rot”(上下文腐烂)。聊着聊着,AI 就忘了十分钟前我们定义的变量,或者在处理长文档时开始胡言乱语。

这次 Opus 4.6 直接上了100 万 Token 的上下文窗口(虽然是测试版)。这是什么概念?你可以把几本技术书、整个项目的文档、甚至几万行的屎山代码一次性扔给它。

Opus 4.6 在长上下文检索方面表现出显著的改进

官方对比数据里,那个“大海捞针”测试(MRCR v2),前代 Sonnet 4.5 得分只有 18.5%,而 Opus 4.6 飙到了76%

我自己试着扔了一份超长的 API 文档进去让它查一个冷门参数,它不仅找出来了,还关联了上下文告诉我这玩意儿在这个版本里有坑。说真的,以前那种“还得我自己先读一遍文档再喂给 AI”的憋屈日子,可能真要结束了。

3. 给打工人的“真·福利”:Excel 和 PPT

虽然咱们是写代码的,但谁还没个被老板逼着写 PPT、做报表的时候?

Opus 4.6 这次不仅是程序员的福音,也是“打工人的神”。它对 Excel 进行了史诗级升级,还搞了个 PowerPoint 的预览版。

这就很有意思了。想象一下,你把一堆乱七八糟的财务数据扔给它,说:“帮我分析下上个季度的亏损原因,并做个 PPT,我要向老板汇报。” 然后它就开始自主执行多任务(Multitasking),一边跑分析,一边画图表,最后还给你生成了幻灯片。

在 Cowork 环境下,它甚至能代表你操作这些工具。这不就是我梦寐以求的“硅基实习生”吗?

4. 丰俭由人:学会了“偷懒”的 AI 才是好 AI

这次 API 的更新里,有个功能我觉得特别人性化:Adaptive Thinking(自适应思维)

以前调用模型,要么全速跑,要么强制它深度思考,很死板。现在 Opus 4.6 学聪明了,它会根据上下文判断:这个问题很简单,我就秒回;这个问题很复杂,我要开启“扩展思维”好好琢磨一下。

而且,开发者终于可以控制Workload(工作量)了!你可以选低、中、高、最高四档。想省钱的时候开低档,遇到硬骨头开最高档。

这就很像真实的职场:不是所有任务都需要拼命三郎,懂得分配精力的 AI,反而让我觉得它更懂事了。而且价格没变,加量不加价,这点必须给好评。

5. 安全感:不只是不乱说话

最后聊聊安全。虽然大家都不爱看系统卡(System Card),但我扫了一眼,这次 Anthropic 确实下了功夫。

Opus 4.6 在网络安全防御上很强,甚至能用来帮咱们修开源软件的漏洞。官方说它的“过度拒绝率”是最低的——意思是,它不会动不动就因为误判而拒绝回答你的正常问题(这在以前真的很搞心态)。它在保持安全的同时,更听话了。

写在最后

现在的 AI 圈,每隔几个月就是一次“工业革命”。但说实话,作为用户,我关心的不是你在榜单上比 GPT-5.2 高了多少分(虽然这次 Opus 4.6 确实高了 144 分,挺夸张的),我关心的是:你能不能让我早点下班?

从 Opus 4.6 身上,我看到了一种趋势:AI 正在从“工具”向“队友”转变。它开始有记忆、有判断力、懂得自我反思,甚至懂得帮你省钱。

更多transformer,VIT,swin tranformer 参考头条号:人工智能研究所 v号:人工智能研究Suo, 启示AI科技

动画详解transformer 在线视频教程

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/8 23:00:18

开题卡住了?AI论文工具 千笔 VS 灵感ai,专科生专属神器!

随着人工智能技术的迅猛发展,AI辅助写作工具逐渐成为高校学生完成毕业论文的重要助手。无论是开题报告还是论文撰写,越来越多的学生开始借助AI工具提升效率、降低难度。然而,面对市场上功能各异、品质参差不齐的AI写作工具,许多学…

作者头像 李华
网站建设 2026/4/15 15:41:38

“自动驾驶控制器:毫米波雷达到车体坐标系标定工程——偏航角Yaw的标定与学习指南”

自动驾驶控制器,自动驾驶多传感器联合标定系列之毫米波雷达到车体坐标系的标定工程 , 本商品对毫米波雷达的偏航角yaw进行标定,分为粗略标定、静态目标识别和曲线拟合三个步骤。这个工程带有代码注释,帮助您对标定算法的的理解和学习。 实实在…

作者头像 李华
网站建设 2026/4/10 19:04:41

2025年OE SCI2区TOP,面向复杂三维海上风电海域救援的多无人机协同路径规划,深度解析+性能实测

目录1.摘要2.环境模型3.海洋多无人机路径规划4.结果展示5.参考文献6.代码获取7.算法辅导应用定制读者交流1.摘要 随着海洋经济的发展,海上救援任务日益频繁,多无人机协同搜索与救援为海上救援提供了新的技术途径。针对复杂三维海上风场环境下的多无人机…

作者头像 李华
网站建设 2026/4/15 16:38:01

AI应用架构师深度:AI在科研伦理审查中的辅助决策架构

AI应用架构师深度:AI在科研伦理审查中的辅助决策架构 1. 引入与连接 1.1 引人入胜的开场 想象一下,在一个先进的科研实验室里,研究人员正准备开展一项具有突破性的基因编辑实验。这项实验有可能治愈一种目前无法攻克的遗传疾病,但…

作者头像 李华
网站建设 2026/4/16 9:34:31

Mayr和Cassie电弧模型是电力系统中研究电弧特性的重要工具,两者在电弧仿真和特性分析中各有侧重。本文将从模型原理出发,结合仿真实例,分析两者的异同

电力系统电弧模型有关的内容:mayr和Cassie电弧模型仿真及其特性分析。电弧模型概述 电弧是一种放电现象,在电力系统中常伴随着断路器开断过程。研究电弧特性的模型多种多样,其中Mayr模型和Cassie模型是较为经典的代表。 1. Mayr电弧模型 Mayr…

作者头像 李华