如果你最近还在纠结“哪个模型更强”,那你可能只看到了上半场。
真正决定下一代软件工程效率的,不只是模型参数,不只是 prompt,也不只是 IDE 里的代码补全,而是一整套围绕模型展开的工程控制层:任务拆解、上下文组织、工具调用、沙箱隔离、测试验证、评审回路、知识沉淀、运行时观测、失败恢复与安全治理。
这套东西,现在有了一个越来越多人开始使用的名字:Harness Engineering。
一个足够震撼的行业信号
2026 年 2 月 11 日,OpenAI 发布文章《Harness engineering: leveraging Codex in an agent-first world》。文中提到,他们用 Codex 构建并交付了一个真实可用的内部 beta 产品:整个代码库约 100 万行代码、约 1500 个 PR,在实验阶段“0 行人工手写代码”,整体开发时间约为纯手写的 1/10。
这段信息真正值得所有开发者重视的,不只是“AI 会写代码”这件事本身,而是背后的角色变化:当工程师的主要工作不再是逐行编写代码,而是设计环境、表达意图、建立反馈闭环,软件工程就已经进入了一个新的阶段。
换句话说,人类工程师并没有消失,但工作的重心,正在整体上移一层。
什么是 Harness Engineering?
如果用一句更好理解的话来解释:
Harness Engineering 不是让模型更聪明,而是让模型在真实工程环境里更可靠。
它关心的不是“这句 prompt 怎么写更优雅”,而是下面这些更工程化的问题:
模型有没有足够好的任务入口与上下文地图?
它能不能安全地调用仓库、浏览器、终端、测试、监控等工具?
它写完之后,谁来验收,怎么验收,失败后怎么回滚?
它能不能跨长任务保持一致性,还是跑着跑着就“脑雾”了?
它产生的知识,能不能沉淀回仓库,成为下一轮 agent 的燃料?
它的权限、密钥、数据边界,是否被严格约束?
OpenAI 的做法很典型:把AGENTS.md从“百科全书”降级成“目录”,把真正的知识库结构化放进仓库;把 UI、日志、指标都变成 agent 可读、可验证的反馈信号;甚至用一个持续运行的 “doc-gardening” agent 去修复过期文档。
这已经不是传统意义上的“AI 辅助编程”,而是在搭建一个面向 AI 的工程操作面板。
为什么它会在 2026 年突然变得重要?
因为模型变强之后,瓶颈转移了。
过去,软件工程的大头在“写出来”。今天,越来越多团队发现,真正拖慢交付速度的,是写完之后的那一长串事情:测试、验证、安全、发布、回归、治理、可观测性、成本控制。
这也是 Harness 这家公司在 2025 年到 2026 年反复强调的关键词:Everything After Code。
它的判断很直接:AI 正在大幅提升代码生成速度,但测试、安全、部署与治理,反而会因为变更量暴涨而成为更大的瓶颈。于是,未来的软件工程竞争,不再只是“谁写得快”,而是“谁能把 AI 生成的东西稳定送上生产环境”。
这点和 OpenAI、Anthropic、LangChain 的观察,实际上正在汇流成同一个结论。
三家公司,给了我们三个关键判断
1. OpenAI:软件工程正在从“写代码”变成“设计反馈闭环”
OpenAI 在 2026 年 2 月的文章里最核心的经验,不是某个模型技巧,而是工程方法变化:
工程师通过 prompt 驱动 agent,而不是亲手改每一行代码
PR 审查、修复、回归、合并,可以越来越多地由 agent 对 agent 完成
仓库里的文档、计划、架构说明、质量评分,正在变成 agent 的“系统记忆”
UI、日志、指标、追踪系统,也要变成 agent 可验证的反馈信号
这意味着,未来优秀工程师的护城河,不只是代码能力,而是把知识、规则、验证与协作流程编码成可执行系统的能力。
2. Anthropic:真正拉开差距的,是Planner + Generator + Evaluator这类结构
2026 年 3 月 24 日,Anthropic 在《Harness design for long-running application development》中明确写到:Harness design 是 agentic coding 前沿表现的关键。
他们给出的一个重要启发是,多智能体分工开始变得像真实软件团队:
Planner负责把一句模糊需求扩展成产品规格Generator负责分阶段构建Evaluator负责像 QA 一样点击、验证、打分、找缺陷
更有意思的是,Anthropic 给出了一个非常现实的结论:Evaluator并不是永远都要有,但当任务刚好超出模型“单兵作战”能力边界时,它会带来非常明显的提升。
这对未来软件工程的影响很大。因为它说明,团队的价值不再只是“有没有更强模型”,而是“能不能为不同复杂度的任务,设计合适的 agent 组织结构”。
3. LangChain:只改 Harness,不换模型,成绩也能大幅提升
2026 年 2 月 17 日,LangChain 发文介绍,他们只调整了 coding agent 的 harness,没有换模型,就把 Terminal Bench 2.0 的成绩从 52.8 拉到 66.5,排名从 Top 30 进入 Top 5。
这组数据非常有穿透力。
它告诉我们,未来软件工程不会只卷底模,也会开始卷:
system prompt 设计
tools 选择
middleware 与 hooks
self-verification 机制
trace 分析与错误归因
memory 与 context delivery
也就是说,模型能力会越来越像“基础设施”,而 harness 设计会越来越像“应用层差异化能力”。
更值得开发者注意的是,LangChain 这里讨论的并不是纸上谈兵,而是围绕deepagents-cli、trace、sandbox orchestration 这些可落地、可复用、也更接近开源生态的工程能力展开。
Harness Engineering 会怎样改写未来软件工程?
如果把时间拉长到未来 3 到 5 年,我的判断是,它至少会带来六个变化。
第一,工程师的角色会整体上移
未来的高价值工程师,会更像:
AI 任务设计师
工程流程编排师
验证系统设计者
知识与规范的产品经理
安全与权限边界的架构师
写代码仍然重要,但它会更像“交给 agent 执行的局部动作”,而不是人类最主要的产出方式。
第二,代码库会从“代码容器”变成“组织知识底座”
OpenAI 的经验已经很说明问题:如果知识只存在于 Slack、会议记录或人的脑海里,对 agent 来说就等于不存在。
所以未来的 repo 会越来越像一个活的系统:
代码是实现层
AGENTS.md是导航层docs/是知识层plan、ADR、quality score、runbook 是决策层
test、trace、metrics、screenshots 是验证层
一个对 agent 友好的仓库,很可能也会对新同事更友好,对组织传承更友好。
第三,测试与验证会从“收尾环节”升级为“主战场”
AI 最擅长的是快速生成,最不擅长的是天然怀疑自己。
所以未来团队的关键能力,会越来越体现在:
是否能把“验收标准”写得可执行
是否能让 agent 自动运行测试、截图、查日志、读指标
是否能在退出前强制自检
是否能把失败反馈变成下一轮迭代信号
一句话,没有验证闭环的 AI 编程,只是更快地产生不确定性。
第四,多智能体协作会像今天的微服务一样普及
Planner、Builder、Reviewer、QA、Release、SRE、Security,这些角色未来很可能都会有对应的 agent。
Harness 公司在其平台里已经把这种方向产品化了:DevOps、SRE、AppSec、Test、FinOps 等专用 agent,通过统一的知识图谱与编排层协作。这背后释放出的信号是,未来的软件工程,不只是“一个超级模型干所有事”,而是一群有边界、有上下文、有权限控制的 agent,在同一工程系统里协同工作。
第五,Everything After Code会成为新一轮基础设施机会
如果 AI 让代码产能暴涨,那么测试、部署、安全、回滚、观测、成本治理,就会成为更值钱的基础设施层。
这也是为什么我判断,未来最有价值的一批开源项目,很可能不再只是“另一个聊天 UI”或“另一个模型壳”,而是:
agent sandbox
trace 与 eval 平台
execution plan 与 context management 工具
policy-as-code 与权限控制层
repo knowledge graph
面向 agent 的 CI/CD、QA、observability 组件
谁能把这些能力做成稳定、好用、开放的底座,谁就更可能卡住下一代软件工程入口。
第六,软件工程会更像“持续调教系统”,而不是“一次性交付项目”
OpenAI 提到,他们一度每周五要花 20% 的时间清理 “AI slop”,后来才把“黄金原则”编码进仓库,用后台任务持续做清理。
这件事很重要。它说明未来软件工程不是“交给 agent 之后就自动变好”,而是会进入一个新的长期状态:
持续观察 agent 的失败模式
持续把经验写进规则、文档、技能与脚本
持续删除已经过时的 harness 假设
持续重构 agent 看得懂、也能继续维护的代码库
换句话说,未来的软件工程,会更像经营一个会自我放大的系统。
这件事对普通开发者意味着什么?
不是每个人都要明天就组一支多智能体团队,但现在就有三件事值得开始做。
1. 把隐性知识写回仓库
架构原则、验收标准、运行手册、常见坑、测试方式,不要只留在聊天记录里。对未来的 agent 来说,这些内容必须是可发现、可版本化、可链接的。
2. 把“验证”前置到和“生成”同等重要的位置
让 agent 先写测试、跑测试、截屏、查日志、读指标,再决定是否结束任务。谁先把验证体系搭好,谁就更能真正用好 AI 编程。
3. 关注开源世界里新的“工程底座”机会
接下来值得重点关注的,不一定是“最会写代码的模型”,而是那些能让模型更稳定、更安全、更可审计地参与软件交付的开源项目与协议,比如 sandbox、trace、eval、MCP、agent runtime、repo memory、quality gates 等方向。
如果你在做效率工具、开发者平台或开源基础设施,这不是一个旁观赛道,而很可能就是接下来几年最值得下注的新入口。
最后一句
如果说过去十年软件工程的关键词是 Cloud、DevOps、Platform Engineering,那么接下来几年,一个很可能频繁出现的新词,就是 Harness Engineering。
它本质上代表的是一场角色迁移:
从“人类亲自完成大部分实现”,转向“人类设计系统,让 AI 在系统中持续产出可信结果”。
下一代最强的工程团队,不一定是写代码最快的团队,而是最会设计这套系统的团队。
而下一波真正值得关注的效率工具、开源项目,可能也不会只是“更聪明的模型壳”,而是帮助我们把 AI 变成真正工程生产力的那层 harness。
参考资料
OpenAI,Harness engineering: leveraging Codex in an agent-first world(2026-02-11)
https://openai.com/index/harness-engineering/Anthropic,Harness design for long-running application development(2026-03-24)
https://www.anthropic.com/engineering/harness-design-long-running-appsAnthropic,Scaling Managed Agents: Decoupling the brain from the hands(2026)
https://www.anthropic.com/engineering/managed-agentsLangChain,Improving Deep Agents with harness engineering(2026-02-17)
https://www.langchain.com/blog/improving-deep-agents-with-harness-engineeringHarness,Harness AI: The Platform for Everything After Code(2025-08-26)
https://www.harness.io/blog/announcing-harness-aiHarness,Accelerating Our Mission to Bring AI to Everything After Code(2025-12-11)
https://www.harness.io/blog/240m-financing-to-bring-ai-to-everything-after-codeHarness AI product page
https://www.harness.io/products/harness-ai