news 2026/5/5 21:43:09

写代码不再是主角:Harness Engineering,正在重塑软件工程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
写代码不再是主角:Harness Engineering,正在重塑软件工程

如果你最近还在纠结“哪个模型更强”,那你可能只看到了上半场。

真正决定下一代软件工程效率的,不只是模型参数,不只是 prompt,也不只是 IDE 里的代码补全,而是一整套围绕模型展开的工程控制层:任务拆解、上下文组织、工具调用、沙箱隔离、测试验证、评审回路、知识沉淀、运行时观测、失败恢复与安全治理。

这套东西,现在有了一个越来越多人开始使用的名字:Harness Engineering

一个足够震撼的行业信号

2026 年 2 月 11 日,OpenAI 发布文章《Harness engineering: leveraging Codex in an agent-first world》。文中提到,他们用 Codex 构建并交付了一个真实可用的内部 beta 产品:整个代码库约 100 万行代码、约 1500 个 PR,在实验阶段“0 行人工手写代码”,整体开发时间约为纯手写的 1/10。

这段信息真正值得所有开发者重视的,不只是“AI 会写代码”这件事本身,而是背后的角色变化:当工程师的主要工作不再是逐行编写代码,而是设计环境、表达意图、建立反馈闭环,软件工程就已经进入了一个新的阶段。

换句话说,人类工程师并没有消失,但工作的重心,正在整体上移一层。

什么是 Harness Engineering?

如果用一句更好理解的话来解释:

Harness Engineering 不是让模型更聪明,而是让模型在真实工程环境里更可靠。

它关心的不是“这句 prompt 怎么写更优雅”,而是下面这些更工程化的问题:

  • 模型有没有足够好的任务入口与上下文地图?

  • 它能不能安全地调用仓库、浏览器、终端、测试、监控等工具?

  • 它写完之后,谁来验收,怎么验收,失败后怎么回滚?

  • 它能不能跨长任务保持一致性,还是跑着跑着就“脑雾”了?

  • 它产生的知识,能不能沉淀回仓库,成为下一轮 agent 的燃料?

  • 它的权限、密钥、数据边界,是否被严格约束?

OpenAI 的做法很典型:把AGENTS.md从“百科全书”降级成“目录”,把真正的知识库结构化放进仓库;把 UI、日志、指标都变成 agent 可读、可验证的反馈信号;甚至用一个持续运行的 “doc-gardening” agent 去修复过期文档。

这已经不是传统意义上的“AI 辅助编程”,而是在搭建一个面向 AI 的工程操作面板。

为什么它会在 2026 年突然变得重要?

因为模型变强之后,瓶颈转移了。

过去,软件工程的大头在“写出来”。今天,越来越多团队发现,真正拖慢交付速度的,是写完之后的那一长串事情:测试、验证、安全、发布、回归、治理、可观测性、成本控制。

这也是 Harness 这家公司在 2025 年到 2026 年反复强调的关键词:Everything After Code

它的判断很直接:AI 正在大幅提升代码生成速度,但测试、安全、部署与治理,反而会因为变更量暴涨而成为更大的瓶颈。于是,未来的软件工程竞争,不再只是“谁写得快”,而是“谁能把 AI 生成的东西稳定送上生产环境”。

这点和 OpenAI、Anthropic、LangChain 的观察,实际上正在汇流成同一个结论。

三家公司,给了我们三个关键判断

1. OpenAI:软件工程正在从“写代码”变成“设计反馈闭环”

OpenAI 在 2026 年 2 月的文章里最核心的经验,不是某个模型技巧,而是工程方法变化:

  • 工程师通过 prompt 驱动 agent,而不是亲手改每一行代码

  • PR 审查、修复、回归、合并,可以越来越多地由 agent 对 agent 完成

  • 仓库里的文档、计划、架构说明、质量评分,正在变成 agent 的“系统记忆”

  • UI、日志、指标、追踪系统,也要变成 agent 可验证的反馈信号

这意味着,未来优秀工程师的护城河,不只是代码能力,而是把知识、规则、验证与协作流程编码成可执行系统的能力。

2. Anthropic:真正拉开差距的,是Planner + Generator + Evaluator这类结构

2026 年 3 月 24 日,Anthropic 在《Harness design for long-running application development》中明确写到:Harness design 是 agentic coding 前沿表现的关键。

他们给出的一个重要启发是,多智能体分工开始变得像真实软件团队:

  • Planner负责把一句模糊需求扩展成产品规格

  • Generator负责分阶段构建

  • Evaluator负责像 QA 一样点击、验证、打分、找缺陷

更有意思的是,Anthropic 给出了一个非常现实的结论:Evaluator并不是永远都要有,但当任务刚好超出模型“单兵作战”能力边界时,它会带来非常明显的提升。

这对未来软件工程的影响很大。因为它说明,团队的价值不再只是“有没有更强模型”,而是“能不能为不同复杂度的任务,设计合适的 agent 组织结构”。

3. LangChain:只改 Harness,不换模型,成绩也能大幅提升

2026 年 2 月 17 日,LangChain 发文介绍,他们只调整了 coding agent 的 harness,没有换模型,就把 Terminal Bench 2.0 的成绩从 52.8 拉到 66.5,排名从 Top 30 进入 Top 5。

这组数据非常有穿透力。

它告诉我们,未来软件工程不会只卷底模,也会开始卷:

  • system prompt 设计

  • tools 选择

  • middleware 与 hooks

  • self-verification 机制

  • trace 分析与错误归因

  • memory 与 context delivery

也就是说,模型能力会越来越像“基础设施”,而 harness 设计会越来越像“应用层差异化能力”。

更值得开发者注意的是,LangChain 这里讨论的并不是纸上谈兵,而是围绕deepagents-cli、trace、sandbox orchestration 这些可落地、可复用、也更接近开源生态的工程能力展开。

Harness Engineering 会怎样改写未来软件工程?

如果把时间拉长到未来 3 到 5 年,我的判断是,它至少会带来六个变化。

第一,工程师的角色会整体上移

未来的高价值工程师,会更像:

  • AI 任务设计师

  • 工程流程编排师

  • 验证系统设计者

  • 知识与规范的产品经理

  • 安全与权限边界的架构师

写代码仍然重要,但它会更像“交给 agent 执行的局部动作”,而不是人类最主要的产出方式。

第二,代码库会从“代码容器”变成“组织知识底座”

OpenAI 的经验已经很说明问题:如果知识只存在于 Slack、会议记录或人的脑海里,对 agent 来说就等于不存在。

所以未来的 repo 会越来越像一个活的系统:

  • 代码是实现层

  • AGENTS.md是导航层

  • docs/是知识层

  • plan、ADR、quality score、runbook 是决策层

  • test、trace、metrics、screenshots 是验证层

一个对 agent 友好的仓库,很可能也会对新同事更友好,对组织传承更友好。

第三,测试与验证会从“收尾环节”升级为“主战场”

AI 最擅长的是快速生成,最不擅长的是天然怀疑自己。

所以未来团队的关键能力,会越来越体现在:

  • 是否能把“验收标准”写得可执行

  • 是否能让 agent 自动运行测试、截图、查日志、读指标

  • 是否能在退出前强制自检

  • 是否能把失败反馈变成下一轮迭代信号

一句话,没有验证闭环的 AI 编程,只是更快地产生不确定性。

第四,多智能体协作会像今天的微服务一样普及

PlannerBuilderReviewerQAReleaseSRESecurity,这些角色未来很可能都会有对应的 agent。

Harness 公司在其平台里已经把这种方向产品化了:DevOps、SRE、AppSec、Test、FinOps 等专用 agent,通过统一的知识图谱与编排层协作。这背后释放出的信号是,未来的软件工程,不只是“一个超级模型干所有事”,而是一群有边界、有上下文、有权限控制的 agent,在同一工程系统里协同工作

第五,Everything After Code会成为新一轮基础设施机会

如果 AI 让代码产能暴涨,那么测试、部署、安全、回滚、观测、成本治理,就会成为更值钱的基础设施层。

这也是为什么我判断,未来最有价值的一批开源项目,很可能不再只是“另一个聊天 UI”或“另一个模型壳”,而是:

  • agent sandbox

  • trace 与 eval 平台

  • execution plan 与 context management 工具

  • policy-as-code 与权限控制层

  • repo knowledge graph

  • 面向 agent 的 CI/CD、QA、observability 组件

谁能把这些能力做成稳定、好用、开放的底座,谁就更可能卡住下一代软件工程入口。

第六,软件工程会更像“持续调教系统”,而不是“一次性交付项目”

OpenAI 提到,他们一度每周五要花 20% 的时间清理 “AI slop”,后来才把“黄金原则”编码进仓库,用后台任务持续做清理。

这件事很重要。它说明未来软件工程不是“交给 agent 之后就自动变好”,而是会进入一个新的长期状态:

  • 持续观察 agent 的失败模式

  • 持续把经验写进规则、文档、技能与脚本

  • 持续删除已经过时的 harness 假设

  • 持续重构 agent 看得懂、也能继续维护的代码库

换句话说,未来的软件工程,会更像经营一个会自我放大的系统。

这件事对普通开发者意味着什么?

不是每个人都要明天就组一支多智能体团队,但现在就有三件事值得开始做。

1. 把隐性知识写回仓库

架构原则、验收标准、运行手册、常见坑、测试方式,不要只留在聊天记录里。对未来的 agent 来说,这些内容必须是可发现、可版本化、可链接的。

2. 把“验证”前置到和“生成”同等重要的位置

让 agent 先写测试、跑测试、截屏、查日志、读指标,再决定是否结束任务。谁先把验证体系搭好,谁就更能真正用好 AI 编程。

3. 关注开源世界里新的“工程底座”机会

接下来值得重点关注的,不一定是“最会写代码的模型”,而是那些能让模型更稳定、更安全、更可审计地参与软件交付的开源项目与协议,比如 sandbox、trace、eval、MCP、agent runtime、repo memory、quality gates 等方向。

如果你在做效率工具、开发者平台或开源基础设施,这不是一个旁观赛道,而很可能就是接下来几年最值得下注的新入口。

最后一句

如果说过去十年软件工程的关键词是 Cloud、DevOps、Platform Engineering,那么接下来几年,一个很可能频繁出现的新词,就是 Harness Engineering。

它本质上代表的是一场角色迁移:

从“人类亲自完成大部分实现”,转向“人类设计系统,让 AI 在系统中持续产出可信结果”。

下一代最强的工程团队,不一定是写代码最快的团队,而是最会设计这套系统的团队。

而下一波真正值得关注的效率工具、开源项目,可能也不会只是“更聪明的模型壳”,而是帮助我们把 AI 变成真正工程生产力的那层 harness。


参考资料

  • OpenAI,Harness engineering: leveraging Codex in an agent-first world(2026-02-11)
    https://openai.com/index/harness-engineering/

  • Anthropic,Harness design for long-running application development(2026-03-24)
    https://www.anthropic.com/engineering/harness-design-long-running-apps

  • Anthropic,Scaling Managed Agents: Decoupling the brain from the hands(2026)
    https://www.anthropic.com/engineering/managed-agents

  • LangChain,Improving Deep Agents with harness engineering(2026-02-17)
    https://www.langchain.com/blog/improving-deep-agents-with-harness-engineering

  • Harness,Harness AI: The Platform for Everything After Code(2025-08-26)
    https://www.harness.io/blog/announcing-harness-ai

  • Harness,Accelerating Our Mission to Bring AI to Everything After Code(2025-12-11)
    https://www.harness.io/blog/240m-financing-to-bring-ai-to-everything-after-code

  • Harness AI product page
    https://www.harness.io/products/harness-ai

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 3:27:53

Week3

一、shell脚本1、监控指定名称进程脚本#!/bin/bash # 检查服务器进程服务 # 版本号:v1# 日志配置 mkdir -p /var/log/process_monitor LOG_FILE"/var/log/process_monitor/process_$(date %Y%m%d).log"# 日志输出 exec >> "$LOG_FILE" 2>&1# …

作者头像 李华
网站建设 2026/4/17 23:27:23

2025届必备的降AI率平台解析与推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 知网 AI 检测系统凭借对文本统计特征加以分析以及通过模式识别来判定内容来源。为能够切实有…

作者头像 李华
网站建设 2026/4/17 10:09:50

2025届学术党必备的AI辅助论文网站解析与推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 对于学术写作范畴而言,AI论文的相关工具正一步步地变成研究者的辅助得力工具&…

作者头像 李华
网站建设 2026/4/17 12:11:58

论文辅导机构哪家好且靠谱?2026专业参考|正规机构实用梳理

对于科研人、高校学生及青年学者而言,论文写作与发表是学术成长路上的重要课题,无论是学位论文的完成,还是期刊论文的投稿,难免会遭遇选题迷茫、框架混乱、查重不达标、投稿无门等痛点。靠谱的论文辅导机构,能有效梳理…

作者头像 李华
网站建设 2026/4/17 21:28:59

05-消息中间件篇

文章目录一、RabbitMQ1. RabbitMQ如何保证消息不丢失?2. RabbitMQ消息的重复消费问题如何解决?3. 那你还知道其他的解决方案吗?4. RabbitMQ中死信交换机了解吗?(RabbitMQ延迟队列有了解过吗?)5.…

作者头像 李华