news 2026/4/16 8:41:25

【必收藏】小白也能懂!RAG技术如何解决大模型“幻觉“问题

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【必收藏】小白也能懂!RAG技术如何解决大模型“幻觉“问题

RAG(检索增强生成)技术旨在解决大模型存在的"幻觉"问题,通过"检索+生成"两阶段流程提升回答准确性。它将用户问题转化为向量,从外部知识库检索相关片段,再结合检索信息生成回答。与传统数据库不同,向量数据库通过文本向量化表示,支持基于语义相似度的检索,解决了关键词匹配无法捕捉上下文关联的问题。RAG过程包括问题向量化、检索相关内容、重排序、整合信息并生成回答,使大模型输出更加相关和准确。

写在前面

在讲RAG之前,我们先说一个大模型的普遍现象,大家应该都用过大模型了,比如 ChatGPT、DeepSeek、豆包、文心一言等等…

那么大家在用的时候其实会发现,有时候大模型会乱回答,一本正经地胡说八道,语义不同,前言不搭后语。

举个例子:你问大模型,美国成立时间。大模型可能会回答:美国成立在1997年,距离现在已有400年的历史…

这种现象叫hallucination,幻觉。大模型本质的就是不断的预测下一个生成的文字应该是什么,而选择预测概率中最大的一个。

每个词预测的结果

产生幻觉的原因有很多,比如训练大模型本身的数据问题、过拟合、微调引起的知识丧失、推理机制的不完善等等

而我们要说的RAG就是为了降低大模型出现幻觉的概率,下面开始我们今天的主题。

RAG简介

RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合信息检索与文本生成的技术,旨在提升大语言模型在回答专业问题时的准确性和可靠性。

核心原理‌‌为检索+生成两阶段流程 :

  • 检索阶段‌:将用户的问题转化为向量,从外部知识库或私有文档中(向量数据库)快速检索相关片段。
  • 生成阶段‌:将检索到的信息输入大模型,生成结合上下文的具体回答‌。

这样说可能比较生硬,打个比方:LLM在考试的时候面对陌生的领域,只会写一个解字(因为LLM也只是局限于特定的数据集进行训练),然后就准备放飞自我了,而此时RAG给了亿些提示,让LLM懂了开始往这个提示的方向做,最终考试的正确率从60%到了90%!

LLM+RAG

简单来说就是大家的开卷考试!!那么问题来了,LLM开卷考试的话,这个卷是啥呢?这里就涉及到向量数据库了。

为什么是向量数据库?传统数据库为啥不行?

向量数据库

向量数据库是通过存储文本的向量化表示,支持基于语义相似度的快速检索解决了传统关键词匹配无法捕捉上下文关联的问题‌。

如果使用传统数据库(如MySQL)结合关键词检索,但无法实现语义理解,可能导致漏检或误检‌。 举个例子,同一个query进行搜索:“2024年腾讯的技术创新”。

  • 向量数据库能匹配到语义相近但未包含关键词“腾讯”的文档(如“WXG的研发进展”)
  • 传统数据库只能匹配到包含关键词的


那向量数据库是怎么知道语义相似的?

我们先明白向量数据库存储的是向量,不是文本,文本是大家能看懂的文字,而向量是一串浮点型数据。那么当所有的文本都成了浮点型数据后,计算机可以通过数学公式(比如余弦相似度),量化语义相似性。

传统数据库用原始文本检索,则无法处理同义词、多义词、语境差异等语义问题(例如“苹果”可能指水果或公司)‌,所以很多传统搜索都会进行query改写这一步,来让搜索的输入query更精确。当然不仅仅是文本,万物皆可embedding,图片、videos、音频等等…

RAG 过程

RAG过程

回到最开头的例子:

  1. 当用户对大模型提问,“美国的成立时间”
  2. 此时会通过embeding模型将文本转成向量
  3. 再到向量数据库中搜索语言相近的内容
  4. 向量数据库会给出一个TopK,例如 Top100
  5. 接着在进行过重排序模型,再筛选出Top N,例如 Top10
  6. 将搜索到的内容和用户所搜索的query词"美国的成立时间"整个成一个prompt一起给LLM
  7. LLM基于这些输入内容和自身内容进行输出。

这样就可以有效的控制大模型输出尽可能的相关并且语义相通的内容

那么向量数据库如何构造呢?

其实很简单:

  1. 将文章进行分片成多组chunk,也就是大量文本分解为较小段
  2. 进行向量化
  3. 存到向量数据库

那这里为什么要进行chunking呢?

chunking是为了把相同语义的 token 聚集在一起,不同语义的 token 互相分开,在长文档中各个片段的语义可能存在较大差异,如果将整个文档作为一个整体进行知识检索,会导致语义杂揉,影响检索效果。 将长文档切分成多个小块,可以使得每个小块内部表意一致,块之间表意存在多样性,从而更充分地发挥知识检索的作用。

所以如果我们的块太小会导致错过真正的相关内容,太大则可能导致搜索结果不准确

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

为什么要学习大模型?

我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。

大模型入门到实战全套学习大礼包

1、大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!


2、大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

3、AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

4、大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

5、大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

适用人群

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/12 6:22:15

构建AI智能体必看:10条核心法则,从架构到细节,建议永久收藏

文章分享了构建高质量AI智能体的十条核心法则:避免为AI而AI,采用小巧专业的解耦架构,强制结构化输出,解释任务背景而非仅指令,优先编排而非完全自治,注重提示词工程而非微调,完善工具描述&#…

作者头像 李华
网站建设 2026/4/15 20:32:34

MCP IP冲突检测实战:3步快速定位并解决IP地址冲突问题

第一章:MCP IP冲突检测概述在现代数据中心网络架构中,MCP(Multi-Cloud Platform)环境下的IP地址管理变得愈发复杂。由于虚拟机、容器和跨云实例的动态分配特性,IP冲突已成为影响系统稳定性和网络通信的关键问题之一。I…

作者头像 李华
网站建设 2026/4/15 4:17:49

Java Stream流与Guava工具类详解

一、Java Stream流全面解析1.1 Stream流概述Stream是Java 8引入的API&#xff0c;用于以声明式方式处理数据集合。它允许以类似SQL语句的方式对数据进行操作&#xff0c;支持顺序和并行处理。java// Stream与传统集合操作对比 List<String> names Arrays.asList("A…

作者头像 李华
网站建设 2026/3/30 3:22:32

MCP必知的Azure Stack HCI网络配置实战(专家级部署方案泄露)

第一章&#xff1a;MCP必知的Azure Stack HCI网络架构核心原理 Azure Stack HCI 是微软推出的超融合基础设施解决方案&#xff0c;其网络架构设计直接影响系统性能、可扩展性与安全性。理解其核心网络原理是实现高效部署与运维的关键。 网络平面划分原则 Azure Stack HCI 要求…

作者头像 李华