news 2026/6/10 17:13:46

AI之Coding之Claude Opus 4.6:Anthropic 发布 Claude Opus 4.6:在引入 1M-token 长上下文与显著提升的编码、agentic 规划与多步骤执行能力的

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI之Coding之Claude Opus 4.6:Anthropic 发布 Claude Opus 4.6:在引入 1M-token 长上下文与显著提升的编码、agentic 规划与多步骤执行能力的

AI之Coding之Claude Opus 4.6:Anthropic 发布 Claude Opus 4.6:在引入 1M-token 长上下文与显著提升的编码、agentic 规划与多步骤执行能力的同时,通过 adaptive thinking、四档 effort、context compaction 与 agent teams 加强开发者工具链;在 Terminal-Bench、GDPval-AA 等基准中领先并获得企业广泛采用

导读:2026年02月05日,Anthropic 发布Claude Opus 4.6。本文基于 Anthropic 官方发布的 Claude Opus 4.6,旨在让产品经理、开发者、企业架构与安全负责人在 2–3 分钟内把握“为什么值得关心”与“能做什么”。核心要点是:Opus 4.6 在多步规划与 agent 式工作流、代码审查与调试、以及超长上下文检索(支持 1,000,000 token(Beta))上有显著提升;Anthropic 同时提供了 adaptive thinking、四档 effort 控制、context compaction 与 agent teams 等平台特性以便落地。若你的场景涉及跨仓库代码审查、长期研究或需要模型长期记忆与连续决策,Opus 4.6 能显著提高自动化深度与产出质量;相反,对单步简单问答建议使用 lower-effort 配置或前代模型以节约成本。

目录

Anthropic 发布 Claude Opus 4.6:在引入 1M-token 长上下文与显著提升的编码、agentic 规划与多步骤执行能力的同时,通过 adaptive thinking、四档 effort、context compaction 与 agent teams 加强开发者工具链;在 Terminal-Bench、GDPval-AA 等基准中领先并获得企业广泛采用

第一章:发布与核心亮点(Intro / “We’re upgrading our smartest model.”)

核心要点

经验 / 使用技巧

第二章:第一印象(“First impressions”)

核心要点

经验 / 使用技巧

第三章:评估与基准(“Evaluating Claude Opus 4.6”)

核心要点(量化摘录)

经验 / 使用技巧

第四章:产品与 API 更新(“Product and API updates”)

核心要点

经验 / 使用技巧

第五章:安全性进展(“A step forward on safety”)

核心要点

经验 / 使用技巧

第六章:可用性、定价与生态(Availability & Related content)

核心要点

经验 / 使用技巧


Anthropic 发布 Claude Opus 4.6:在引入 1M-token 长上下文与显著提升的编码、agentic 规划与多步骤执行能力的同时,通过 adaptive thinking、四档 effort、context compaction 与 agent teams 加强开发者工具链;在 Terminal-Bench、GDPval-AA 等基准中领先并获得企业广泛采用

地址

文章地址:https://www.anthropic.com/news/claude-opus-4-6

时间

2026年02月05日

作者

Anthropic

第一章:发布与核心亮点(Intro / “We’re upgrading our smartest model.”)

Opus 4.6 是 Opus 系列的增量升级,重点提升编码能力、长期/多步骤的 agentic 任务执行、在大型代码库中的可靠性、代码审查与调试能力,并引入了 Opus 系列首个 1M token 上下文窗口(beta)。同时强调面向日常知识工作(财务分析、研究、文档/表格/演示)与在 Cowork 中的多任务自动化能力。

核心要点

>>能力提升方向更深的规划(planning)、更长的任务持续性、更稳健的代码审查/调试。

>>长上下文:1,000,000 token 上下文窗口(beta);超 200k token 的输入/输出使用差别化(premium)计费。

>>可用平台:claude.ai、API 与主流云平台均可用;开发者可通过 claude-opus-4-6 访问。

经验 / 使用技巧

>>选择场景:当任务需要跨大量文档、审查大型代码库、或多轮 agent 协作时优先选用 Opus 4.6。

>>成本与效率折中:若你只做简单问答或单步任务,Opus 4.6 默认可能“想得比较多”(成本与延迟上升);可通过 /effort 参数把 effort 调至 medium 或 low 来节省成本与延迟。

第二章:第一印象(“First impressions”)

Anthropic 团队和早期合作伙伴的主观体验:模型在分解复杂任务、自动执行、在未明确指示下聚焦关键难点方面表现突出;在多公司实测中被视为“更像协作者而非工具”。

核心要点

>>更自主的执行:常能在未过度提示下拆解并推进任务(agentic)。

>>跨团队/跨仓库作业能力:示例包括自动关闭 issue、分配任务、处理多仓库的组织决策。

>>企业客户反馈一致性:Notion、GitHub、Replit、Asana、Thomson Reuters 等多家早期合作方报告显著提升(例如代码审查、长链研究工作、设计和原型生成等)。

经验 / 使用技巧

>>让模型先“计划”:复杂任务可先让 Opus 4.6 产生步骤计划(planning step),再执行每步,能让其更可靠地完成多步任务。

>>并行子代理(Agent Teams):独立、可分割的读密集任务(如代码审查的大量文件)可采用并行子 agent 来提升吞吐与速度(在 Claude Code 的 agent teams preview 可用)。

第三章:评估与基准(“Evaluating Claude Opus 4.6”)

文章列出大量基准与测试结果,表明 Opus 4.6 在多项专业任务(agentic coding、长上下文检索、深度搜索、多领域推理)上处于行业领先或显著优于前代/竞争对手的位置。文中引用多个评测(Terminal-Bench 2.0、Humanity’s Last Exam、GDPval-AA、BrowseComp、MRCR 等)。

核心要点(量化摘录)

>>Terminal-Bench 2.0:在 agentic 编码评测中得分行业最高(文内图表与说明)。

>>GDPval-AA:在“经济有价值的知识工作”评估上,Opus 4.6 比 OpenAI 的 GPT-5.2 高约 144 Elo,比自身前代 Opus 4.5 高 190 Elo(文章提供的比较与注解)。

>>长上下文检索:在 8-needle 1M MRCR v2 上,Opus 4.6 得 76%,而 Sonnet 4.5 得 18.5%——显示“在海量文本中找针”的明显改进,减少上下文“漂移(context rot)”。

>>专业领域能力:在法律(BigLaw Bench)、计算生物学、网络安全、跨语言编程等专项测试上也有显著提升(文章提供图表与说明)。

经验 / 使用技巧

>>以评测导向选择模型:若任务是“高价值知识工作”(法律、财务、复杂研究),Opus 4.6 在 GDPval-AA 类评测上显示优势,可优先考虑。

>>长文档检索策略:将重要资料分块并引导模型逐块索引/汇总,然后使用 context compaction 或 1M token 上下文以减少信息丢失(见 API 更新)。

第四章:产品与 API 更新(“Product and API updates”)

为配合模型的新能力,Anthropic 在平台与工具上做了多项改进:adaptive thinking(自适应思考)、四档 effort 控制、context compaction(上下文压缩)以及 agent teams(Claude Code 的多 agent 并行)。并增强了与 Office 套件(Excel、PowerPoint)的集成。

核心要点

>>Adaptive thinking:模型能根据上下文自动决定是否启用更深的内部“extended thinking”,默认在 high effort 下启用,但开发者可控制。

>>Effort 参数:四档设置(low / medium / high / max),用户可在效率、成本与深入推理间权衡。

>>Context compaction(Beta):自动总结并替换旧上下文,以支持更长的会话与长期 agent 任务(降低频繁人工管理上下文的需要)。

>>1M token 上下文(Beta)与定价:Opus 4.6 首次支持 1M token;超过 200k token 的输入/输出有 premium 定价(文章列明常规与 premium 的定价区间)。

>>Claude in Excel / PowerPoint:Excel 中能力提升(推断未结构化数据、一次性多步骤变更);PowerPoint 支持读取版式/模板以生成品牌一致的幻灯片(PowerPoint 研究预览)。

>>Agent teams:在 Claude Code 中可以并行启动多个子 agent 并协调,适合分布式、可并行化的代码审查等任务。

经验 / 使用技巧

>>调节 effort:发现模型“想太久”或回答过于冗长时,优先把 effort 调到 medium/low,或者仅在关键步骤使用 max。

>>使用 context compaction:对于长会话或持续运行的 agent,把 compaction threshold 设定为合适值(例如接近 50k 时触发)可延长任务运行周期且减少手动上下文管理开销。

>>并行化策略:将大型读取/审查型工作拆分成独立子任务交给 agent teams,人工只在出现 blocker 或合并结果阶段介入。

第五章:安全性进展(“A step forward on safety”)

Anthropic 强调 Opus 4.6 的能力提升并未以安全为代价:在自动化行为审计中显示出低误导、低拍马屁(sycophancy)、较低的“过度拒绝”(over-refusal),并进行了更全面的安全评估与 interpretability 实验;同时针对其在网络安全能力上可能带来的双用风险,Anthropic 引入了多项新的检测 probe 与防护思路。详细实验和方法列于其系统卡(system card)。

核心要点

>>自动化行为审计:Opus 4.6 在误导、协助滥用等 misaligned 行为测试上表现和/或优于前代模型,且 over-refusal 率更低。

>>解释性研究(interpretability):开始采用模型内部可解释性方法以发现潜在异常行为或机制性缺陷。

>>网络安全双用风险与探针:鉴于模型在发现漏洞方面能力增强(可发现 0-day),Anthropic 开发了六种新的 cybersecurity probes 来检测潜在有害响应,并发布了相应的防御/治理讨论(red.anthropic 的技术博客)。

经验 / 使用技巧

>>对安全敏感场景:在允许模型执行与安全相关的自动化(如漏洞扫描、攻防自动化)前,务必结合 Anthropic 的探针与内部治理策略,且优先在受控环境中进行评估与审计。

>>审计与可解释性:把 interpretability 输出纳入定期安全审计(例如:行为日志、决策路径摘要),能更早捕捉异常策略或边界情况。

第六章:可用性、定价与生态(Availability & Related content)

Opus 4.6 已在 claude.ai、API 与主流云平台上线;标准计费继续维持 $5(input)/$25(output)每百万 token,但对于超过 200k token 的大上下文使用启用了 premium 定价(文章列明 premium 价)。同时文章列出相关内容与集成(Claude in Excel、PowerPoint、Claude Code、Cowork 等)。

核心要点

>>可用性:今天可在 claude.ai、API 与云平台访问(开发者通过 claude-opus-4-6 调用)。

>>定价:基础价格 $5/$25 per million tokens;超过 200k token 的 input/output 使用 premium 收费(文章有具体数值说明)。

>>生态集成:微软 Azure / Foundry 等云平台亦开始托管或支持(第三方报道/云厂商公告)。

经验 / 使用技巧

>>成本控制:对大上下文任务(接近或超过 200k)先评估是否真的需要 1M 上下文,或通过 compaction /分批策略以避免 premium 计费。

>>选择托管方式:企业若关心合规/治理可优先选用云厂商托管版本(如 Azure Foundry)以获得额外的治理与集成支持

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 13:26:19

3步实现极速部署:faster-whisper从0到1的生产级应用指南

3步实现极速部署:faster-whisper从0到1的生产级应用指南 【免费下载链接】faster-whisper 项目地址: https://gitcode.com/gh_mirrors/fas/faster-whisper 在企业级语音转写场景中,如何兼顾处理速度与资源消耗?本文将通过"问题-…

作者头像 李华
网站建设 2026/6/5 12:38:07

深岩银河存档管理进阶指南:探索安全高效的游戏进度管理方案

深岩银河存档管理进阶指南:探索安全高效的游戏进度管理方案 【免费下载链接】DRG-Save-Editor Rock and stone! 项目地址: https://gitcode.com/gh_mirrors/dr/DRG-Save-Editor 深岩银河存档修改是许多玩家关注的话题,尤其当面对资源收集耗时、职…

作者头像 李华
网站建设 2026/6/10 15:21:03

低代码时代的逆袭:如何用腾讯云插件10分钟实现蓝牙配网?

低代码时代的蓝牙配网革命:腾讯云插件10分钟实战指南 在智能硬件爆发的今天,蓝牙配网技术正成为连接物理世界与数字世界的隐形桥梁。传统蓝牙开发需要处理复杂的协议栈、适配不同芯片平台,甚至要考虑iOS与Android的系统差异,这让…

作者头像 李华
网站建设 2026/6/10 14:09:17

ollama Phi-4-mini-reasoning:适合初学者的AI推理工具

ollama Phi-4-mini-reasoning:适合初学者的AI推理工具 如果你对AI大模型感兴趣,但一看到动辄几十上百亿的参数、复杂的部署流程就望而却步,那么今天介绍的这款工具,可能就是为你量身定做的。Phi-4-mini-reasoning,一个…

作者头像 李华
网站建设 2026/6/10 16:04:05

Llava-v1.6-7b量化部署:4bit压缩技术实践

Llava-v1.6-7b量化部署:4bit压缩技术实践 1. 为什么需要量化部署 在实际使用Llava-v1.6-7b这类多模态大模型时,很多人会遇到一个现实问题:显存不够用。原版的Llava-v1.6-vicuna-7b模型参数量约70亿,采用BF16精度加载时需要接近1…

作者头像 李华