对于刚入门大模型、从事RAG应用开发的小白和程序员来说,分块(chunking)是RAG系统搭建中最基础也最关键的一步——选对分块策略,能直接提升RAG检索的准确性,让大模型回复更贴合需求、更连贯流畅。本文详细拆解RAG应用的5种核心分块策略,讲清每种方法的原理、优缺点及适用场景,搭配直观示意图,小白也能快速理解、直接套用,建议收藏备用!
先给大家梳理下RAG应用的典型工作流程,帮小白快速建立认知:
简单来说,RAG的核心逻辑是:将大模型无法直接记忆的附加信息(如文档、数据)转换成向量形式存储,当有用户查询传入时,先匹配出与查询最相似的向量信息,再将这些相关信息和原始查询一起提交给LLM,最终让大模型生成更精准、有依据的回复。
而我们日常处理的附加文档,往往体积庞大、内容繁杂,远超嵌入模型的输入大小限制,因此RAG工作的第一步,就是对这些大型文档进行分块——也就是将文档划分成更小、更易处理、更贴合模型输入要求的片段。
这一步看似简单,却直接决定了后续检索的效率和准确性,进而影响大模型最终的回复质量。很多小白搭建的RAG系统效果不佳,核心问题往往就出在分块策略的选择上。下面就给大家详细讲解5种最常用的RAG分块策略,结合优缺点和实操提示,帮大家快速选对适合自己场景的方法。
一、固定大小分块(小白入门首选,最简单易实现)
固定大小分块是最直观、最易上手的分块方式,也是小白入门RAG时最常使用的方法。它的核心逻辑很简单:提前设定好固定的字符数、词数或token数(比如每块500token),然后将整个文档按照这个预设大小,均匀分割成等长的片段。
实操小提示(小白必看) 由于这种方法是“硬切割”,很容易打断文档的语义流(比如把一句话、一个完整观点从中间切开),因此建议在两个连续的分块之间,保留一部分重叠内容(如图中蓝色部分),这样能有效避免重要信息被拆分,减少检索时的语义断层。
优缺点总结 ✅ 优点:实现难度极低,代码量少,小白也能快速上手;所有分块大小统一,便于后续进行批处理操作,提升处理效率。 ❌ 缺点:最大的问题是语义断裂——硬切割很容易将完整的句子、观点拆分到多个分块中,导致检索时无法匹配到完整的相关信息,进而影响大模型回复的连贯性。
适用场景:适合快速搭建RAGdemo、测试系统基础功能,或处理无明显逻辑结构、内容零散的简单文档(不推荐用于对回复准确性要求高的场景)。
二、语义分块(兼顾流畅性,检索准确性更高)
语义分块是针对固定大小分块的“语义断裂”问题优化的方法,核心是围绕“语义完整性”进行分块,而非单纯追求大小统一,适合对回复连贯性有要求的场景。
核心实现步骤(程序员可直接参考)
- 先将文档拆分成最小的有意义单元(比如句子、短句片段);
- 为每个最小单元生成对应的嵌入向量;
- 从第一个单元的嵌入向量开始,依次计算当前单元与下一个单元嵌入向量的余弦相似性;
- 若两个单元的余弦相似性较高(说明语义关联紧密),则将它们合并成一个分块;
- 当余弦相似性出现显著下降时(说明语义断层,进入新的话题),停止合并,开始新的分块,重复上述过程。
以下是语义分块的输出示例,能清晰看到分块边界与语义话题完全匹配:
优缺点总结 ✅ 优点:能完美保持语言的自然流畅性,保留完整的观点和语义,避免固定大小分块的“硬切割”问题;每个分块的语义信息更完整,能显著提升检索准确性,让LLM生成的回复更连贯、更有依据。 ❌ 缺点:对余弦相似性的阈值设置依赖性强——不同类型的文档(如技术文档、散文),合适的阈值不同,需要反复调试才能达到最佳效果;实现难度略高于固定大小分块。
适用场景:处理有明确语义逻辑、对回复准确性和连贯性要求高的文档(如技术手册、论文、长文本问答场景),是大多数实际RAG项目的优选策略。
三、递归分块(平衡语义与大小,实用性强)
递归分块是一种“折中方案”,结合了固定大小分块的“大小限制”和语义分块的“语义完整性”,核心逻辑是“先按语义拆分,再按大小调整”,实用性极强,适合大多数复杂文档场景。
核心实现步骤 1. 第一步,优先按照文档的固有分隔符(如段落换行、句号、分号)进行分块,确保每个初始分块都能保留完整的语义(比如一个完整段落、一个完整观点); 2. 第二步,检查每个初始分块的大小(token数/字符数),若分块大小超过预设的限制(如超出嵌入模型输入上限),则将该分块再次拆分; 3. 重复第二步,直到所有分块的大小都符合预设限制,不再进行进一步拆分。
以下是递归分块的输出示例,能清晰看到“先按段落拆分,再调整大小”的逻辑:
如图所示:首先按照段落分隔符,将文档拆分成两个初始分块(紫色标注部分);随后发现第一段的大小超出预设限制,便将其进一步拆分成更小的分块,第二段大小符合要求,不再拆分。
优缺点总结 ✅ 优点:兼顾语义完整性和大小合理性,既能避免固定大小分块的语义断裂,又能避免语义分块可能出现的分块过大问题;适配大多数类型的文档,实用性强,实现难度适中。 ❌ 缺点:相比固定大小分块,实现和计算复杂度略有增加;拆分过程中,若分隔符不清晰,可能会出现少量语义拆分不完整的情况。
适用场景:大多数实际RAG项目(尤其是处理既有逻辑结构、又有大篇幅内容的文档,如技术文档、博客文章、报告),是小白和程序员都能轻松驾驭的“万能策略”。
四、基于文档结构的分块(贴合文档逻辑,结构清晰)
基于文档结构的分块,核心是“顺势而为”——充分利用文档本身固有的结构(如标题层级、章节划分、段落标记、列表等),将文档按照这些结构边界进行分块,让分块与文档的逻辑部分完全对齐。
比如我们常见的技术文档,会有“一级标题→二级标题→三级标题→段落”的结构,基于文档结构的分块,就会以标题、章节为边界,将每个章节、每个小节的内容作为一个独立的分块,确保分块的逻辑与文档本身的逻辑完全一致。
以下是基于文档结构的分块输出示例,能清晰看到分块与标题、段落结构完全匹配:
优缺点总结 ✅ 优点:分块逻辑清晰,与文档本身的结构、逻辑高度契合,检索时能快速定位到具体章节和内容;能最大程度保留文档的结构完整性,适合需要精准定位特定章节信息的场景。 ❌ 缺点:对文档结构的依赖性极强——仅适用于结构清晰的文档(如规范的技术手册、论文、报告),若文档无明确标题、章节划分(如零散的笔记、无结构的对话记录),则无法使用;分块大小可能差异极大,部分分块可能超出模型token限制。
实操小技巧:若文档结构清晰但部分章节过大,可将这种方法与递归分块结合使用——先按文档结构拆分,再对过大的分块进行递归拆分,兼顾结构完整性和大小合理性。
五、基于LLM的分块(语义最精准,代价略高)
前面四种分块方法,要么依赖固定规则,要么依赖简单的相似度计算,而基于LLM的分块,相当于“让专业人士来做拆分”——直接利用LLM的上下文理解能力,通过提示词引导LLM生成语义独立、有意义的分块,是语义准确性最高的分块策略。
核心实现逻辑(程序员实操提示) 通过编写精准的提示词,告知LLM分块的要求(如“将以下文档拆分成语义独立、大小不超过500token的分块,确保每个分块保留完整的观点,不拆分完整句子”),然后将需要分块的文档传入LLM,让LLM直接输出生成的分块结果。
这种方法的核心优势的是,LLM能超越前四种方法的简单启发式规则(如固定大小、分隔符、相似度),真正理解文档的上下文、语义逻辑和核心观点,从而生成最贴合语义的分块——哪怕文档结构混乱、语义复杂,也能精准拆分。
优缺点总结 ✅ 优点:语义准确性最高,能完美保留文档的核心观点和语义逻辑,适配所有类型的文档(包括无结构、语义复杂的文档);无需手动设计拆分规则、调试阈值,节省开发时间。 ❌ 缺点:计算开销最高——每一次分块都需要调用LLM,尤其是处理大量文档时,会产生较高的API费用;受LLM上下文窗口限制,无法直接处理超大型文档(需先进行初步粗拆分)。
适用场景:对分块语义准确性要求极高、文档结构复杂或无结构(如用户对话记录、杂乱笔记、复杂论文),且预算充足的RAG项目(不推荐小白入门时优先使用,成本较高)。
总结(小白&程序员必看)
以上5种分块策略,没有绝对的“最好”,只有“最适合”。结合小白入门和实际项目需求,给大家整理了快速选型建议,收藏起来直接套用:
- 小白入门、快速搭demo:优先选「固定大小分块」,简单易实现;
- 大多数实际项目、兼顾效果与难度:优先选「递归分块」,平衡语义与大小;
- 对回复连贯性、准确性要求高:选「语义分块」,适配技术文档、论文;
- 文档结构清晰(有标题、章节):选「基于文档结构的分块」,可结合递归分块优化;
- 语义要求极高、预算充足:选「基于LLM的分块」,适配复杂无结构文档。
分块策略的选择,直接决定了RAG系统的最终效果。建议大家在实际开发中,结合自己的文档类型、需求优先级(效果/成本/难度),多尝试、多调试,找到最适合自己的分块方式。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2026 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要《AI大模型入门+进阶学习资源包》,下方扫码获取~
① 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
② 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
③ 大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
④ AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
⑤ 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
⑥ 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
以上资料如何领取?
为什么大家都在学大模型?
最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!
不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。