又一年结束了,手里的项目又到了总结的时候,最近总结的时候总会发现,很多项目,无论我们是否有意识地去往Agent模式去设计,都会逐渐朝着Agent这个模式去演进,逐渐形成了Agent的样子,这似乎是一个很有意思的现象,因此我进行了深入的思考和探讨吧,从而逐步发现了大模型系统中长期设计的一些经验,特此和大家一起探讨。
先提前说一下,我这里所谓的Agent,是这么一个概念。下面的内容来自某AI APP的回复。
在大模型(Large Language Models, LLMs)场景下,Agent(智能体)是指一种能够自主感知环境、推理决策、执行动作并达成目标的软件实体。它通常以大语言模型为核心“大脑”,结合工具调用、记忆机制、规划能力等模块,实现更复杂、动态和交互式的任务处理。
在这里,往往包含感知、推理、规划、行动、记忆、反馈、迭代中的若干个关键步骤,合理配合,形成一个完整的系统以完成特别地复杂任务。
- 方法论
- 大模型能力边界的发现和探索
- 大模型的难题
- Agent共识
- 历史的重演和新生
- 范式层面的共通点
- 对话
- 搜索
- 小结
- 后面我们该怎么做
- 后记
一、方法论
方法论角度,在品尝过新鲜感和惊喜感后,真正用起来后,随着我们对一个工具的逐渐熟悉,我们往往能够发现一个工具的能力边界,了解它的局限性,甚至是他的缺点,毫无疑问这是一个非常常见的路径了,在此基础上,我们便会就这个问题提出改良的方式,而改良的方式粗暴地分,可以分为内部和外部。
- 通过调整内部的结构,优化构造方式,来实现这个工具的改良。
- 通过引入新的工具配合,把问题交给更加适合的部分。
两者并无实质的优劣,对研究者而言前者无疑是最酷的,在更远的未来也无疑是更为强大的,毕竟谁都希望自己的东西变得更强更全面,但要想更快、更可控、更稳定地解决这个问题,让他更快落地,后者肯定是一个更合适的方案。一个很简单的例子,对于一个很难的业务,多人的团队合作,每人各司其职,会比单兵作战更加稳妥,便是这个原因。
早在chatgpt刚出来的时候,我对大模型的技术就保持一个很冷静谨慎的态度,在当时的视角下,先后写过好几篇文章来讲述大模型可能的发展方向和应用思路,重在强调,大模型的出现不代表能做所有事,而是能在一个系统内发挥很大的作用,或者说,可以尝试围绕他去做很多工作,一再强调,很多事并非光靠大模型就足以完成。
现在视角下,很多内容其实都已经应验了,在大模型做的并不好的领域,我们确实做了很多工作,24年的RAG,25年升级的Agent概念,都在印证着这一点。
二、大模型能力边界的发现和探索
下面我来复盘一下,大家整个研究的推进过程。
下面会分几个阶段,但阶段之间并不是完全隔离的,而是缓慢地切换变换的。
第一阶段。大模型刚出来的时候,大家总会觉得非常惊艳,很多功能看起来确实能完成的不错,通过简单的描述,他就能把问题的答案娓娓道来,内容翔实可靠。这个时间点,大家普遍沉浸在新技术的新鲜感里,大家的体验都不算深,所以并没有发现他所存在的问题。
第二阶段。随着深入使用,配合交叉验证,大家开始发现,大模型生成的内容也不完全可靠,会有幻觉,会有错误,不听指令地乱来,问题的解决不尽如人意,尤其是一些专业的领域或者特定的模式,大家开始去定位,并尝试多种解决方案来解决问题。
- 刚开始,大家更多是没学到的问题,于是非常惯性的思维便是,重点训练,于是通用的基座升级、轻量化微调(如lora)便非常流行,24年左右便涌现了大量基座模型的尝试。
- 除此以外,从prompt到更为复杂的prompt工程开始出现,开始尝试拆分任务,逐个完成。
- 对于一些机器成本或者场景要求高的,蒸馏的方案也开始流行。
第三阶段。众多解决方案里,大家开始发现共性的问题与共性的解决方案,并将方案的实施进行进一步的细化和升级。
- 24年后期,大家会发现多家厂商的开源模型方案开始收敛,很多方案已经形成了共识,差异在数据层面的工作会更多,当然了,类似PPO、DPO、GRPO之类的方案大家提的也就更多了(此前,更多可能就是RLHF了)。
- 大家在场景用的时候总会发现,大模型的效果不足,更多是因为大模型对他们的知识不熟悉,于是,“外挂知识库”成了很好的应对方式,把知识查出来告诉大模型,那大模型自然就会回答了,RAG这个模式便出现了,并被广泛认可和采纳。
- 当然,也有很多早期到模型解决的并不好的问题,随着大模型微调技术的提升而被解决,而并非被拆解出去了,典型的,例如数据计算、代码生成,尽管时至今日这些方向仍有提升空间,但我们不可否认,相比24年整年,2025年12月的现在这些方面确实做的好很多了。
第四阶段,大模型开始稳固自己的地位,系统功能开始分化细分,形成比较固定的框架或者说模式。
- 此后,Agent经过多方的探索和总结,感知、推理、规划、行动、记忆、反馈之类的组件被建立,内部或许有大模型的身影,也或许并不会有,大家对“大模型”的执念,已经远不如之前那么深了。
- 作为比对,大家不为人知的角落,RAG提的人越来越少了,但他其实并未消失,Agent还有大量的RAG过程,他在被路由或者function call触发后,仍旧会查询,然后交给决策或者总结模块使用,仍旧大量存在他的身影,换个名字或者形式罢了。
三、大模型的难题
时至今日,大模型基座的发展已经逐步收敛了,尽管还有更新更强的基座出来,但大家或多或少也会发现,他目前也就在大家预期的几个方向越做越好,所谓的新能力并不多,换而言之,大家对他的定位是逐步明确的。与之对应,他在落地过程暴露的问题也逐步形成了共识。在[心法利器[119] | 大模型落地困境讨论与解决思路]这篇文章里,我阐述了目前大模型目前落地所存在的,难以解决的客观问题。
- 高机器成本。训练和部署的机器成本高。
- 算法效果差异。榜单和论文的效果与实际落地效果之间存在差异。
- 性能耗时。高耗时要求的场景下,大模型生成的速度还是很墨迹,举几个例子吧,例如搜推场景的高qps要求,再例如电话对话、视频对话场景会有明显卡顿。
- 可更新性。需要频繁更新的领域,例如电商销售经常有商品上下架,泛娱乐场景有音乐、电影之类的物料更新,时事新闻场景,我们不可能通过改变大模型本身来实现更新。
- 垂直领域的深入知识。在百科科普层面,大模型确实有很扎实的能力,但是深入到场景内,很专业的知识,大模型做的仍然不够,再进一步垂直下,到公司、团队下的知识,大模型压根不可能知道,例如某个团队的负责人是谁,这纯粹就是信息差导致的,而并非大模型本身的问题。
- AIGC内容安全。大模型结果的不可控性,容易在尤其是金融、医疗、政治、法律等敏感场景生成很多不可控的内容。
- 特征处理能力。在我的实践中,大模型对面板数据的理解,尤其是数值的理解能力还有待加强。
这些大模型目前的固有难题,让他自己无法独立成为一个系统的核心,我们需要围绕他做很多工作来辅助。
四、Agent共识
围绕大模型的工作很多,Agent就是众多工作下大家探索得到的共识。我来举几个例子。
- 要做个公司内部的业务问题助手,大模型对公司业务显然不了解,那就搞个知识库辅助一下,RAG便有了,所谓的Retrieval Agent也就有了。
- 客服场景担心大模型生成的内容并不合适,所以在生成内容后接了一个回复质检,这便是Recheck,如果再接一个修复,ReAct便形成了。
- 考虑到大模型可能并不能承接全部流量(例如因为成本问题),上游要做个分流,只有特定的问题才能进来,这便是Planner的雏形。
- 为了提升精准度,对问题进行拆解,不同的问题有不同的处理方式,例如不同的prompt,查不同的数据库表,于是Router和Planner都有了,这些处理方式被封装,子Agent/Tools/Function Call就有了。
- 考虑对话过程需要记录用户的个性化偏好,或者是历史多轮信息,于是Memory就有了。
可见,日常的问题和应对方式,在大家的探索下,形成了范式,或许各个场景有各自的思路,并不全都需要,但这些尝试的拼接组合,放在一起,真的就是Agent的模式,这毫无疑问就是共识。
五、历史的重演和新生
细想起来,整个迭代探索过程就是在历史重现。我的视角回忆一下bert的更迭情况。
- bert刚出来的时候,大家也是很兴奋的,经典的“NLP已死”,要变天了的言论也有(大家就说熟悉不熟悉)。
- 与之同质的大量基座模型也在出,比较出的类似roberta、T5、albert。
- 大家逐渐发现了bert的问题,定位也逐渐明确,他更像是一个基础模型,经过不同的魔改和微调策略能适配多种问题,后续Transformers包内便有了类似
BertForSequenceClassification、BertForTokenClassification、BertForMaskedLM,还有类似Simcse之类的向量表征的代表作,基本奠定了这个定位。
大家都会试出他的边界,然后把他用在适合他的位置,相比与早年的fasttext、textcnn之类的流行的模型,还是有全面提升的,而后在搜索、推荐、客服等多个领域都是有应用的。当然,与之对应的,Bert这个级别的模型,做不了现在大模型能做的事,在bert出来后的三年后其实就已经出现了停滞,该探索的都探索的差不多了,时间线大概是,19年Transformer发布(Attention is all you need论文),到了22年左右,开始迷茫,没有新的突破和创新点了,直到23年下半年,才有了chatgpt,带来新的突破。
时间回到现在,大模型走过了和现在类似的路,兴奋狂热的尝试,冷静的探索边界,形成应用范式,而因为大模型自身的综合能力上升了不小的台阶,所以应用上的可操作空间更大,产品和功能也就更加多样化了,算是NLP的一种新生吧。
六、范式层面的共通点
我的大部分工作都是在搜索和对话场景做的,从tf-idf到现在的大模型时代都经历过了,虽说NLP技术已经有了翻天覆地的变化,有关技术的模式也受到了很多挑战,但是兜兜转转,整个框架和模式其实并未被很大程度的撼动,我们来看一下。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。