RAG(检索增强生成)是大模型转化为企业实际需求的有效方案。文章从Naive RAG到Agentic RAG,详细介绍了RAG的演进历程,包括各阶段的核心技术和特点。Naive RAG是最基础的流程链路,但存在准确性问题;Advanced RAG在检索前后增加了优化层;Modular RAG和Self-RAG引入了自我审视和按需检索的能力;GraphRAG则通过知识图谱提升了跨文档关系推理能力;Agentic RAG则是自主决策的智能体,能规划、迭代检索和推理。文章最后强调RAG的未来在于长上下文处理、知识运行时和多模态检索,并指出实际生产场景中的效率、经济效益和需求价值才是关键。
RAG
2020 年,RAG奠基性文献发表——Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks。
在这之后,一方面是大模型(LLM)不断进化,另外一方面是企业落地AI的推进。RAG演变成一场涉及检索架构、推理机制、记忆系统与 Agent 编排的系统性发展。
RAG 从基础的"嵌入查询、取 top-k 块、塞进上下文窗口、生成"流水线演化成一个多阶段、可自我修正、具备规划能力的知识编排系统。
(gpt image2 生成~)
第一代:Naive RAG(2020–2022)
架构形态
Naive RAG 是最简洁的流程链路:
用户查询 → 向量检索(top-k)→ 拼接上下文 → LLM 生成Naive RAG 流程由以下几个关键阶段构成:数据加载(导入所有文档)、数据分割(将大文档切分为小块)、数据嵌入(用嵌入模型将数据转为向量)、数据存储(将向量存入向量数据库以便搜索)。查询时,用同一嵌入模型将用户输入编码为查询向量,再与数据库中的所有向量进行相似度匹配,找出最近邻。
奠基
AI 系统与外部知识的交互方式,为知识密集型任务落地可行性打下基础。
大模型训练时自有知识库与外部知识库融合,能显著提升 AI 在这类任务上的表现。
局限性
Naive RAG 的简洁性使其易于起步,但也限制了它扩展和企业环境下持续交付准确结果的能力:由于仅根据相似度得分检索文档,存在相当大的准确性问题。
另外,整个流程链路是线性的、静态的、无反馈的。不支持在检索失败时自我修复、固定长度切块会割裂跨段落的上下文关联,导致检索到的块在语义上是孤立的碎片、嵌入模型的语义鸿沟则使专有名词、型号、缩写等词汇型查询容易漏检…
第二代:Advanced RAG(2023–2024 初)
为了提升 RAG 模型的整体效果与可持续性,检索系统从 Naive RAG 演进到了 Advanced RAG 和 Modular RAG,这其实是企业实践后对性能、成本和效率综合需求推动下的改进。
Advanced RAG 的核心理念是在检索前后各加一层优化:
[预检索优化] → 向量/混合检索 → [后检索优化] → 生成预检索优化
查询改写与扩展:用户的原始查询往往简短、模糊,与文档中的表述存在语义距离。查询改写通过 LLM 将问题转化为更利于检索的表述;多查询扩展则生成多个视角的变体查询,并行检索后融合结果,扩大召回面。
HyDE(假设文档嵌入):用"问题向量"检索"答案向量",两者在语义空间中天然存在偏移;先让 LLM 生成一段假设性答案文档,再用该文档的向量去检索。
语义化分块:将固定长度切块替换为基于语义边界的切块,在段落、句群、话题转折处切分,而非机械地按字符数截断,使每个 chunk 在语义上更为自洽。
后检索优化
混合检索(Hybrid Search):纯向量检索无法做到对词汇精确匹配。混合检索将稠密向量检索与 BM25 稀疏检索结合,通过倒数排名融合(RRF)合并结果集,既覆盖语义相似性,也覆盖关键词匹配。
重排序器(Reranker):双编码器(bi-encoder,有些叫双塔)在检索阶段只能做近似匹配;交叉编码器(cross-encoder)则对每对查询-文档(query-doc成对出现)进行联合注意力计算,精度显著更高。成熟的检索系统可以组合使用多种方案:用蒸馏双编码器做第一阶段检索,交叉编码器对 top 候选重排,语义缓存跳过重复工作,ColBERT 类模型在延迟预算紧张时作为备选。
上下文压缩:不是把整个 chunk 塞进上下文,而是先提取 chunk 中与当前问题最相关的句子,再填入提示词,减少噪声的同时节省了上下文窗口空间。
第三代:Modular RAG 与自校正 RAG(2023–2024)
Advanced RAG 仍然是线性的。第三代的核心是让 RAG 系统具备了自我审视的能力(Agent的思路和反馈思路)。
Modular RAG 乐高化的检索架构
Modular RAG 将范式从静态、顺序的流水线转变为具备组合智能的动态目标导向系统。在这一架构中,RAG 过程被分解为专门的、可互换的模块:查询规划器、检索器、重排序器、答案生成器,由一个中央 Agent 或控制器编排。系统不再是固定的流水线,而是可以根据查询类型动态路由的模块组合。
Self-RAG 让模型自己决定何时检索
Self-RAG 训练模型按需决定何时检索,而不仅仅是检索什么,通过引入特殊的反思令牌(reflection tokens)来评估检索的必要性和质量。这使检索频率更合理,避免了"总是检索"带来的延迟浪费,也避免了"从不检索"带来的幻觉风险。
CRAG 为错误的检索结果设计纠错策略
CRAG 的核心目标是通过增强自动自我修正能力和对检索文档的高效利用,提升生成过程的鲁棒性。CRAG 引入了一个轻量级的检索评估器,对检索文档的相关性进行评分,并据此触发不同动作:正确则直接使用,错误则触发网络搜索兜底,模糊则对文档进行分解-重组以提取精华。
FLARE 与 Adaptive RAG
FLARE 主动预判未来内容,在长文生成过程中每当模型对即将输出的内容感到不确定时就触发检索。Adaptive RAG 则是一种基于分类器的方案,根据预测的查询复杂度将其路由至单步、迭代或无检索的不同管道。
第四代:GraphRAG 与结构化知识检索(2024)
向量检索的本质是"找相似",但有一类问题解决不了:跨文档的关系推理。"因为孤立的向量 chunk 之间没有任何连接。
GraphRAG 全局检索
GraphRAG 通过利用 LLM 生成的知识图谱,大幅提升了 LLM 在分析复杂信息时的问答能力。借助 LLM 生成的知识图谱,GraphRAG 大幅改善了"检索"环节,用更高相关性的内容填充上下文窗口,同时为每个生成的响应提供可溯源的来源依据。
GraphRAG 结合了文本抽取、网络分析与 LLM 摘要,构成一个端到端系统。
LightRAG 与图谱检索生态
LightRAG 通过双层检索和图增强索引提升了可扩展性;
GRAG 引入软剪枝技术以减轻检索子图中无关实体的影响,并采用图感知提示调优帮助 LLM 理解拓扑结构;
StructRAG 通过动态选择最优图模式来匹配特定任务。
局限性
高质量的知识图谱与对检索内容的合理重排序,对性能提升有正向作用。然而结构化知识检索并非银弹:GraphRAG 方法在简单问答场景下并不优于 Naive RAG,其优势主要体现在复杂多跳推理和全局主题分析上。知识图谱的构建本身依赖 LLM 的信息抽取质量,若抽取错误,图谱中的噪声会直接污染下游检索。
第五代:Agentic RAG(2025–2026)
Agentic RAG 是工程上的一次混搭,AI的事情那就AI来处理:谁来决定检索什么、何时检索、检索多少次?
从管道到智能体
Agentic RAG 系统不再是固定的顺序流水线,而是自主的、能够制定决策的智能体,在循环中规划、检索、推理、批判、改写、反思,最后输出结果。
Agentic RAG 能够规划、迭代检索、用分支逻辑推理、批判自身输出、从过去的失败中学习,并在每一步经济性地决定使用哪个模型。它们是真正意义上的自主信息系统。
关键技术组件
有状态图编排:LangGraph 将整个 RAG 系统建模为有向循环图(DCG),支持条件分支、持久化检查点和人在回路(human-in-the-loop)中断点。"检索-评估-再检索"的循环得以优雅地表达为图中的环路。
多工具调用与动态路由:Agentic RAG 中的智能体可以像调用函数一样调用不同的检索工具:向量数据库、SQL 数据库、网络搜索、REST API,并根据返回结果动态决定下一步行动。不同类型的查询被路由至最合适的数据源。
多层记忆系统:RAG 的三个核心特性是推理(Reasoning)、记忆(Memory)和多模态(Multimodality),前两者与 Agent 系统天然紧密关联。Agentic RAG 区分短期记忆(对话上下文)、长期记忆(跨会话偏好)和知识记忆(外部文档索引),多层协同避免重复检索已知信息。
RAG 的未来
长上下文
很多模型已经支持百万级 token上下文窗口,而大推理模型进一步推动了解决极复杂任务的可能性。
然而很多大模型在处理极长或噪声极多的输入上下文时依旧存在很多问题,实际有效上下文长度远不如宣传的那样,往往无法有效提取关键信息,而大推理模型在处理无关或冗余内容时会产生过多推理开销。
RAG 的价值依旧存在,节省上下文空间和精确控制信息质量一直是大模型和企业实际需求的必选项。
知识运行时
传统的 RAG 基本模式是"检索文档、填充上下文、生成答案",实际场景下更多企业部署把 RAG 视为知识运行时:一个将检索、验证、推理、访问控制和审计追踪作为集成操作统一管理的编排层。
类比 K8s管理应用工作负载的方式,知识运行时将对信息流实施检索质量门控、来源验证和治理控制,嵌入每一次操作之中。
这个背后驱动是Demo 与真实生产价值之间存在巨大落差。
多模态 RAG
文本已不再是唯一的检索单元。现实需求下的数据多样化,图像、表格、流程图等都是检索的对象。多模态 RAG 将视觉编码器引入检索管道,使系统能够处理视觉信息与文本信息的联合查询。
RAG在不断发展,与围绕LLM的其他技术一样;语义相似性和精准匹配之间本来就不可能是相等性质;追求绝对的准确性、速度、成本可能是个伪命题。
无论哪一代RAG,无论哪一种RGA,都不是简单的好坏、过时与不过时,Demo始终是Demo,实际生产场景中检索效率、经济效益、需求价值才是关键因素。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2026 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要《AI大模型入门+进阶学习资源包》,下方扫码获取~
① 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
② 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
③ 大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
④ AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
⑤ 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
⑥ 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
以上资料如何领取?
为什么大家都在学大模型?
最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!
不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。