news 2026/5/1 20:36:10

别再只学LLM了!Agent才是大模型的终极形态,小白必看!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
别再只学LLM了!Agent才是大模型的终极形态,小白必看!

新年第一天,大清早起来看见微博时间线上 AI 自媒体引用业内名人的观点,大意是,未来将会是 “定义问题的人 > agent >验收结果的人”,中间过程全部交给 agent。

这个 agent 制霸的未来,我现在完全没有体感。但 agent 作为单词在微博时间线上倒是越来越频繁出现。之前我在犬校发起过讨论,有什么大家印象深刻的 agent?一是 AI Coding,二是 manus,没有三。不编程的话,似乎压根接触不到 agent 这道未来之光。

按我的理解,agent 和 LLM 最大的区别是,agent 任务导向,LLM 回答导向。这意味着 agent 的设计目标是为人类完成具体任务,甚至是替代人类完成具体任务;而 LLM 更多的时候是人类完成任务的效率提升工具,是一个中间流程。

那么从商业上来讲,LLM 更接近千人千面的对个人提效,agent 更接近对 “有共性的任务” 提效。显然 agent 距离商业价值更近,因为对人力成本的缩减很容易量化评估。

agent 目前的定义是:

  1. 自主规划
  2. 长期记忆
  3. 调用工具

自主规划并非 agent 的专利。深度思考,Deep Research 都涉及自主规划。agent 的自主规划更多体现在 “根据每一步的执行反馈,实时重构下一步的计划”,在不确定性中自主寻找完成任务的路径。

由于 agent 多半被设计为长期执行,因此持久化的长期记忆成为了标配,区别于 LLM 上下文容易丢失的短期记忆。长期记忆也为 agent 保存了更多 “经验” 可调用,有可能 “交付质量越用越高”。

最后,执行任务的过程和结果都会调用更多工具,而不仅仅是在对话界面输出多模态,这样才能替代人类,端到端地完成任务。

这样看起来,agent 的确很棒,我的疑惑是,为什么我对 agent 的感知如此弱?agent 在微博时间线上的高频提及,并没有转化为 AI Coding 之外的广泛服务。那么 Notion 公司内部使用的 600 多个 agent 又是什么?

以上是我的信息渠道封闭,接触不到 agent?还是 agent 在落地过程中存在大量的卡点?

我抛出这些问题,跟 Gemini 聊了很长时间,总结如下:

一、C 端通常容错率很低,C 端 agent 目前主要是 AI Coding 和 Deep Research。AI Coding 的结果可验证,而 Deep Research 跑在了大模型的长板上。只有当验收成本显著低于执行成本时,agent 才有意义。由于 agent 在大多数 C 端场景下的验收成本过高,导致雷声大,雨点小。

二、目前最常被使用的 agent 主要在 B 端,和过去的 RPA 流程自动化相似,过去的脚本处理规则确定的结构化数据,现在的 Agent 处理语义模糊的非结构化意图。关键约束是 B 端存在大量重复的标准化任务,导致 AI 处理这些任务的收益极大,足够覆盖验收成本。与之相比,C 端 agent 在非标任务上出错一次用户就炸毛了——每天点一杯冰美式这点点事情我自己做就好!

目前的 Agent 能力处于尴尬的 “80分陷阱”——它能做对 80% 的事情,但为了防止 20% 的错误,人类需要花费 100% 的精力去检查,导致“雇佣”一个 Agent 还不如自己做来得快。

你提到:“未来将会是 ‘定义问题的人 > agent > 验收结果的人’,中间过程全部交给 agent。” 这个公式非常对,但目前的卡点在于 “验收结果” 这一步。现在的情况是:“定义问题的人 > Agent 做了一顿操作 > 验收的人累死了”。

直到 Agent 的稳定性从 80% 提升到 99%,人类敢于 “不验收” 或者 “抽检” 的时候,你对 Agent 的体感才会迎来爆发。

Gemini 的以上表达未必十分精准,意会就好。

我对此的观点是:agent 的确是未来,这个未来在 C 端还有多久到来,目前完全看不清楚,因为 C 端重复的标准化任务并不多。在大多数 C 端场景下:

  • 达到用户能接受的容错率相当漫长。
  • agent 的新体验替换旧体验,对于低频的非标任务,并没有带来足够的增量价值以克服使用惯性。
  • agent 创造的收益无法覆盖验收成本。

犬校同学 Stove3 对此也有自己的看法。👇

从我在客服领域的感受来看,这里或许可以复用俞军老师的新旧体验差公式(VNOS)来解释:

Agent 相当于具体场景的综合解决方案,AI 在客服领域的替代率还很低,主要原因在于:售后诉求都是强目的性的(或者说,用户需求被规训得都很标准化了),很少需要什么自助规划甚至泛化。过去大量服务场景都已经被高度标准化、自助工具化了(什么商品、什么用户、什么问题,用什么方案/流程处理,需要用户提供什么,平台如何一步一步回应/升级),通过嵌入 AI 提升体验的空间很小。而那些非标长尾的场景,又往往触及业务流程边界(需要更高级的人工客服介入,case by case 协商/解决),AI 现阶段创造的价值极有限。

但这不是 AI 的问题,是过去一层一层基建叠得太扎实了,导致:a 用户的体验基线、b 业务的成本基线、c 各自的容错空间和替换成本,这三者都被压缩到了极致,如果不是 10 倍新体验,旧体验很难被替换。

犬校的一张帖子曾经聊到美国 AI 客服渗透率不高,我之前浅浅调研下来也是这样,各大电商的 AI 主要还是在意图识别和情绪安抚上尝试比较多。在垂直解决方案上,含 AI 量几乎都是 0。新一些的电商平台多是转到自助工具(类似国内电商),而老牌电商(亚马逊、沃尔玛)识别意图后甩给人工客服,就连自助化比例都很低。从这里也能看到历史的押韵——起家于纯人工时代(Web 甚至电话)的老牌电商,都还没跨过自助化、智能化,这和新平台嵌入不进 AI 多么相似。

那么,为什么意图识别和情绪安抚却可以用 AI 来替换呢?

因为相较过去基于关键词和语义训练的智障级体验,LLM 是碾压式的存在——就算一时没法用 agent 承接,也有了 10 倍的提升。

我对 Stove3 的以上观点完全赞同。

关于 Agent,首先要在人类能承受验收成本的基础上,接近或超过人类的交付质量。其次,考虑到 token 成本和替换成本,对人力的节约得创造显著的商业价值。同时满足这两点,很难是传统 C 端产品服务升级。因为传统 C 端产品里 “重复的标准化任务并不多”,非标任务的容错率很难达到用户预期。Agent 更适合拓展 C 端的新大陆,尤其是出于人力成本限制,过去「无法想象」的高价值场景,比如自动生成会议纪要,自动生成播客,自动筛选资讯。用好 AI 的长板:低成本完成大量重复的标准化任务。

如果死磕低频的非标任务,比如 “帮我点一杯冰美式”,则是传统范式下生搬硬套的路径依赖,一群老古董的死脑筋。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/26 7:14:09

不同类型的代理服务器解析

代理的差异各不相同 - 尤其是住宅代理和数据中心代理之间。这意味着重新路由和 IP 隐藏的方法因代理类型而异。住宅代理会为每个来自物理设备的连接分配一个新 IP。而数据中心代理服务则从数据中心获取 IP。也就是说,它们不会为每个请求分配新 IP。以下是不同类型的…

作者头像 李华
网站建设 2026/4/26 21:04:10

【网络安全】DDoS攻击详解

一、DDoS是什么? 首先DDoS的缩写是(Distributed Denial of Service,简称DDoS),即分布式拒绝服务,是指黑客将多台计算机联合起来作为攻击平台,通过远程连接,利用恶意程序对一个或多个…

作者头像 李华
网站建设 2026/5/1 7:53:34

‌如何平衡代码与生活?开发者的时间管理革命

在软件测试领域,从业者们每日与代码为伴,却常陷入“24/7待机”的泥潭——繁复的测试用例、紧迫的发布周期和永无止境的bug修复,让个人生活沦为牺牲品。根据2025年全球开发者调查报告,超过70%的测试工程师报告工作与生活严重失衡&a…

作者头像 李华
网站建设 2026/4/16 10:17:28

2026年新角色:AI安全工程师的崛起与机遇

引言:测试工程师的AI化生存 2026年AI渗透率达87%的产业环境中(Gartner最新数据),传统软件测试正面临范式重构。当ChatGPT-5成为基础开发工具,当自动驾驶系统通过OTA每秒更新决策模型,测试工程师的核心使命…

作者头像 李华
网站建设 2026/4/28 5:31:45

软件测试工程师的LinkedIn个人品牌术:吸引猎头的终极指南

在当今数字化招聘时代,LinkedIn已成为猎头搜寻人才的首要平台。对于软件测试工程师而言,构建强大的个人品牌不仅能提升职业可见度,还能在竞争激烈的市场中脱颖而出。数据显示,85%的猎头通过LinkedIn筛选候选人,而测试工…

作者头像 李华
网站建设 2026/4/21 23:48:44

需要真正具备解决商业级问题能力的Java商城源码

真正具备解决商业级问题能力的Java商城源码。 一、商业级Java商城源码的核心特征 分层架构与设计模式 // 示例:订单服务的领域驱动设计 Service public class OrderDomainService { // 领域服务处理核心业务逻辑 public Order createOrder(CreateOrderCommand comma…

作者头像 李华