写代码不再是主角：Harness Engineering，正在重塑软件工程-编程阁

如果你最近还在纠结“哪个模型更强”，那你可能只看到了上半场。

真正决定下一代软件工程效率的，不只是模型参数，不只是 prompt，也不只是 IDE 里的代码补全，而是一整套围绕模型展开的工程控制层：任务拆解、上下文组织、工具调用、沙箱隔离、测试验证、评审回路、知识沉淀、运行时观测、失败恢复与安全治理。

这套东西，现在有了一个越来越多人开始使用的名字：Harness Engineering。

一个足够震撼的行业信号

2026 年 2 月 11 日，OpenAI 发布文章《Harness engineering: leveraging Codex in an agent-first world》。文中提到，他们用 Codex 构建并交付了一个真实可用的内部 beta 产品：整个代码库约 100 万行代码、约 1500 个 PR，在实验阶段“0 行人工手写代码”，整体开发时间约为纯手写的 1/10。

这段信息真正值得所有开发者重视的，不只是“AI 会写代码”这件事本身，而是背后的角色变化：当工程师的主要工作不再是逐行编写代码，而是设计环境、表达意图、建立反馈闭环，软件工程就已经进入了一个新的阶段。

换句话说，人类工程师并没有消失，但工作的重心，正在整体上移一层。

什么是 Harness Engineering？

如果用一句更好理解的话来解释：

Harness Engineering 不是让模型更聪明，而是让模型在真实工程环境里更可靠。

它关心的不是“这句 prompt 怎么写更优雅”，而是下面这些更工程化的问题：

模型有没有足够好的任务入口与上下文地图？
它能不能安全地调用仓库、浏览器、终端、测试、监控等工具？
它写完之后，谁来验收，怎么验收，失败后怎么回滚？
它能不能跨长任务保持一致性，还是跑着跑着就“脑雾”了？
它产生的知识，能不能沉淀回仓库，成为下一轮 agent 的燃料？
它的权限、密钥、数据边界，是否被严格约束？

OpenAI 的做法很典型：把AGENTS.md从“百科全书”降级成“目录”，把真正的知识库结构化放进仓库；把 UI、日志、指标都变成 agent 可读、可验证的反馈信号；甚至用一个持续运行的 “doc-gardening” agent 去修复过期文档。

这已经不是传统意义上的“AI 辅助编程”，而是在搭建一个面向 AI 的工程操作面板。

为什么它会在 2026 年突然变得重要？

因为模型变强之后，瓶颈转移了。

过去，软件工程的大头在“写出来”。今天，越来越多团队发现，真正拖慢交付速度的，是写完之后的那一长串事情：测试、验证、安全、发布、回归、治理、可观测性、成本控制。

这也是 Harness 这家公司在 2025 年到 2026 年反复强调的关键词：Everything After Code。

它的判断很直接：AI 正在大幅提升代码生成速度，但测试、安全、部署与治理，反而会因为变更量暴涨而成为更大的瓶颈。于是，未来的软件工程竞争，不再只是“谁写得快”，而是“谁能把 AI 生成的东西稳定送上生产环境”。

这点和 OpenAI、Anthropic、LangChain 的观察，实际上正在汇流成同一个结论。

三家公司，给了我们三个关键判断

1. OpenAI：软件工程正在从“写代码”变成“设计反馈闭环”

OpenAI 在 2026 年 2 月的文章里最核心的经验，不是某个模型技巧，而是工程方法变化：

工程师通过 prompt 驱动 agent，而不是亲手改每一行代码
PR 审查、修复、回归、合并，可以越来越多地由 agent 对 agent 完成
仓库里的文档、计划、架构说明、质量评分，正在变成 agent 的“系统记忆”
UI、日志、指标、追踪系统，也要变成 agent 可验证的反馈信号

这意味着，未来优秀工程师的护城河，不只是代码能力，而是把知识、规则、验证与协作流程编码成可执行系统的能力。

2. Anthropic：真正拉开差距的，是`Planner + Generator + Evaluator`这类结构

2026 年 3 月 24 日，Anthropic 在《Harness design for long-running application development》中明确写到：Harness design 是 agentic coding 前沿表现的关键。

他们给出的一个重要启发是，多智能体分工开始变得像真实软件团队：

Planner负责把一句模糊需求扩展成产品规格
Generator负责分阶段构建
Evaluator负责像 QA 一样点击、验证、打分、找缺陷

更有意思的是，Anthropic 给出了一个非常现实的结论：Evaluator并不是永远都要有，但当任务刚好超出模型“单兵作战”能力边界时，它会带来非常明显的提升。

这对未来软件工程的影响很大。因为它说明，团队的价值不再只是“有没有更强模型”，而是“能不能为不同复杂度的任务，设计合适的 agent 组织结构”。

3. LangChain：只改 Harness，不换模型，成绩也能大幅提升

2026 年 2 月 17 日，LangChain 发文介绍，他们只调整了 coding agent 的 harness，没有换模型，就把 Terminal Bench 2.0 的成绩从 52.8 拉到 66.5，排名从 Top 30 进入 Top 5。

这组数据非常有穿透力。

它告诉我们，未来软件工程不会只卷底模，也会开始卷：

system prompt 设计
tools 选择
middleware 与 hooks
self-verification 机制
trace 分析与错误归因
memory 与 context delivery

也就是说，模型能力会越来越像“基础设施”，而 harness 设计会越来越像“应用层差异化能力”。

更值得开发者注意的是，LangChain 这里讨论的并不是纸上谈兵，而是围绕deepagents-cli、trace、sandbox orchestration 这些可落地、可复用、也更接近开源生态的工程能力展开。

Harness Engineering 会怎样改写未来软件工程？

如果把时间拉长到未来 3 到 5 年，我的判断是，它至少会带来六个变化。

第一，工程师的角色会整体上移

未来的高价值工程师，会更像：

AI 任务设计师
工程流程编排师
验证系统设计者
知识与规范的产品经理
安全与权限边界的架构师

写代码仍然重要，但它会更像“交给 agent 执行的局部动作”，而不是人类最主要的产出方式。

第二，代码库会从“代码容器”变成“组织知识底座”

OpenAI 的经验已经很说明问题：如果知识只存在于 Slack、会议记录或人的脑海里，对 agent 来说就等于不存在。

所以未来的 repo 会越来越像一个活的系统：

代码是实现层
AGENTS.md是导航层
docs/是知识层
plan、ADR、quality score、runbook 是决策层
test、trace、metrics、screenshots 是验证层

一个对 agent 友好的仓库，很可能也会对新同事更友好，对组织传承更友好。

第三，测试与验证会从“收尾环节”升级为“主战场”

AI 最擅长的是快速生成，最不擅长的是天然怀疑自己。

所以未来团队的关键能力，会越来越体现在：

是否能把“验收标准”写得可执行
是否能让 agent 自动运行测试、截图、查日志、读指标
是否能在退出前强制自检
是否能把失败反馈变成下一轮迭代信号

一句话，没有验证闭环的 AI 编程，只是更快地产生不确定性。

第四，多智能体协作会像今天的微服务一样普及

Planner、Builder、Reviewer、QA、Release、SRE、Security，这些角色未来很可能都会有对应的 agent。

Harness 公司在其平台里已经把这种方向产品化了：DevOps、SRE、AppSec、Test、FinOps 等专用 agent，通过统一的知识图谱与编排层协作。这背后释放出的信号是，未来的软件工程，不只是“一个超级模型干所有事”，而是一群有边界、有上下文、有权限控制的 agent，在同一工程系统里协同工作。

第五，`Everything After Code`会成为新一轮基础设施机会

如果 AI 让代码产能暴涨，那么测试、部署、安全、回滚、观测、成本治理，就会成为更值钱的基础设施层。

这也是为什么我判断，未来最有价值的一批开源项目，很可能不再只是“另一个聊天 UI”或“另一个模型壳”，而是：

agent sandbox
trace 与 eval 平台
execution plan 与 context management 工具
policy-as-code 与权限控制层
repo knowledge graph
面向 agent 的 CI/CD、QA、observability 组件

谁能把这些能力做成稳定、好用、开放的底座，谁就更可能卡住下一代软件工程入口。

第六，软件工程会更像“持续调教系统”，而不是“一次性交付项目”

OpenAI 提到，他们一度每周五要花 20% 的时间清理 “AI slop”，后来才把“黄金原则”编码进仓库，用后台任务持续做清理。

这件事很重要。它说明未来软件工程不是“交给 agent 之后就自动变好”，而是会进入一个新的长期状态：

持续观察 agent 的失败模式
持续把经验写进规则、文档、技能与脚本
持续删除已经过时的 harness 假设
持续重构 agent 看得懂、也能继续维护的代码库

换句话说，未来的软件工程，会更像经营一个会自我放大的系统。

这件事对普通开发者意味着什么？

不是每个人都要明天就组一支多智能体团队，但现在就有三件事值得开始做。

1. 把隐性知识写回仓库

架构原则、验收标准、运行手册、常见坑、测试方式，不要只留在聊天记录里。对未来的 agent 来说，这些内容必须是可发现、可版本化、可链接的。

2. 把“验证”前置到和“生成”同等重要的位置

让 agent 先写测试、跑测试、截屏、查日志、读指标，再决定是否结束任务。谁先把验证体系搭好，谁就更能真正用好 AI 编程。

3. 关注开源世界里新的“工程底座”机会

接下来值得重点关注的，不一定是“最会写代码的模型”，而是那些能让模型更稳定、更安全、更可审计地参与软件交付的开源项目与协议，比如 sandbox、trace、eval、MCP、agent runtime、repo memory、quality gates 等方向。

如果你在做效率工具、开发者平台或开源基础设施，这不是一个旁观赛道，而很可能就是接下来几年最值得下注的新入口。

最后一句

如果说过去十年软件工程的关键词是 Cloud、DevOps、Platform Engineering，那么接下来几年，一个很可能频繁出现的新词，就是 Harness Engineering。

它本质上代表的是一场角色迁移：

从“人类亲自完成大部分实现”，转向“人类设计系统，让 AI 在系统中持续产出可信结果”。

下一代最强的工程团队，不一定是写代码最快的团队，而是最会设计这套系统的团队。

而下一波真正值得关注的效率工具、开源项目，可能也不会只是“更聪明的模型壳”，而是帮助我们把 AI 变成真正工程生产力的那层 harness。

参考资料

OpenAI,Harness engineering: leveraging Codex in an agent-first world（2026-02-11）
https://openai.com/index/harness-engineering/
Anthropic,Harness design for long-running application development（2026-03-24）
https://www.anthropic.com/engineering/harness-design-long-running-apps
Anthropic,Scaling Managed Agents: Decoupling the brain from the hands（2026）
https://www.anthropic.com/engineering/managed-agents
LangChain,Improving Deep Agents with harness engineering（2026-02-17）
https://www.langchain.com/blog/improving-deep-agents-with-harness-engineering
Harness,Harness AI: The Platform for Everything After Code（2025-08-26）
https://www.harness.io/blog/announcing-harness-ai
Harness,Accelerating Our Mission to Bring AI to Everything After Code（2025-12-11）
https://www.harness.io/blog/240m-financing-to-bring-ai-to-everything-after-code
Harness AI product page
https://www.harness.io/products/harness-ai

写代码不再是主角：Harness Engineering，正在重塑软件工程

一个足够震撼的行业信号

什么是 Harness Engineering？

为什么它会在 2026 年突然变得重要？

三家公司，给了我们三个关键判断

1. OpenAI：软件工程正在从“写代码”变成“设计反馈闭环”

2. Anthropic：真正拉开差距的，是`Planner + Generator + Evaluator`这类结构

3. LangChain：只改 Harness，不换模型，成绩也能大幅提升

Harness Engineering 会怎样改写未来软件工程？

第一，工程师的角色会整体上移

第二，代码库会从“代码容器”变成“组织知识底座”

第三，测试与验证会从“收尾环节”升级为“主战场”

第四，多智能体协作会像今天的微服务一样普及

第五，`Everything After Code`会成为新一轮基础设施机会

第六，软件工程会更像“持续调教系统”，而不是“一次性交付项目”

这件事对普通开发者意味着什么？

1. 把隐性知识写回仓库

2. 把“验证”前置到和“生成”同等重要的位置

3. 关注开源世界里新的“工程底座”机会

最后一句

参考资料

Week3

[具身智能-365]：LeRobot 与 ROS2 的关系，正如 PyTorch 与 Linux 在 AI 系统中的关系。

2025届必备的降AI率平台解析与推荐

2025届学术党必备的AI辅助论文网站解析与推荐

论文辅导机构哪家好且靠谱？2026专业参考｜正规机构实用梳理

05-消息中间件篇

一个足够震撼的行业信号

什么是 Harness Engineering？

为什么它会在 2026 年突然变得重要？

三家公司，给了我们三个关键判断

1. OpenAI：软件工程正在从“写代码”变成“设计反馈闭环”

2. Anthropic：真正拉开差距的，是Planner + Generator + Evaluator这类结构

3. LangChain：只改 Harness，不换模型，成绩也能大幅提升

Harness Engineering 会怎样改写未来软件工程？

第一，工程师的角色会整体上移

第二，代码库会从“代码容器”变成“组织知识底座”

第三，测试与验证会从“收尾环节”升级为“主战场”

第四，多智能体协作会像今天的微服务一样普及

第五，Everything After Code会成为新一轮基础设施机会

第六，软件工程会更像“持续调教系统”，而不是“一次性交付项目”

这件事对普通开发者意味着什么？

1. 把隐性知识写回仓库

2. 把“验证”前置到和“生成”同等重要的位置

3. 关注开源世界里新的“工程底座”机会

最后一句

参考资料

Week3

[具身智能-365]：LeRobot 与 ROS2 的关系，正如 PyTorch 与 Linux 在 AI 系统中的关系。

2025届必备的降AI率平台解析与推荐

2025届学术党必备的AI辅助论文网站解析与推荐

论文辅导机构哪家好且靠谱？2026专业参考｜正规机构实用梳理

05-消息中间件篇

2. Anthropic：真正拉开差距的，是`Planner + Generator + Evaluator`这类结构

第五，`Everything After Code`会成为新一轮基础设施机会