本文详细介绍了在Mac上搭建本地RAG知识库问答系统的完整流程,包括部署Gemma-3-1b对话大模型和Qwen3-Embedding-0.6B向量大模型,通过Ollama和llama.cpp实现模型量化与转换,使用Milvus构建向量数据库,最终实现一个完全本地运行、隐私安全的RAG系统。教程提供了详细的资源评估、模型选择和部署步骤,适合开发者参考实践。
今天带大家全流程体验一下如何搭建一个基于本地部署“对话大模型 + 向量大模型”的 RAG 知识库问答系统。本地大模型使用的是Gemma-3-1b,向量模型使用Qwen3-Embedding-0.6B。
全程一共分三大步,我们开始。
本地大模型部署
因为参数越多的大模型消耗的资源越大,所以需要先对 Mac 做一个资源评估。这里我使用Apple Silicon(即现有市场上已推出的 M1、M2、M3、M4 系列)的 Mac 作为示例。
Mac 本地部署资源评估
在 Mac(Apple Silicon)上部署本地大模型时,计算内存需求的核心在于理解统一内存(Unified Memory架构。与 PC 的显卡(VRAM)和内存(RAM)分离不同,Mac 的 GPU 直接使用系统内存。
以下是 Gemini 给出的详细计算方法、配置建议和典型示例:
一、 核心计算公式
计算大模型占用内存的基本公式为:
Memory(GB)≈P×Q/8×1.2
- •(Parameters):模型的参数量(单位:B,即十亿)。
- •(Quantization):量化位数。常见的量化位数包括:
- •16-bit (FP16/BF16):原始精度,无损,每个参数占 2 字节(Bytes)。
- •8-bit (INT8):中等精度,每个参数占 1 字节。
- •4-bit (Q4_K_M):本地部署主流选择,每个参数约占 0.5 到 0.6 字节。
- •(Overhead):约 20% 的额外开销。用于系统预留、KV Cache(上下文缓存)以及模型运行时的中间激活值。
二、 Mac 配置选择逻辑
由于 macOS 系统本身和日常应用(如浏览器)会占用 4GB-8GB 内存,计算时需扣除这部分。
| 内存容量 | 建议部署的最大模型规模 | 典型推荐量化 |
|---|---|---|
| 8GB | 1.5B - 3B | Q4_K_M / Q8_0 |
| 16GB | 7B - 8B | Q4_K_M |
| 32GB | 14B - 20B | Q4_K_M / Q5_K_M |
| 64GB | 32B - 34B (高精度) / 70B (极致压缩) | Q4_K_M |
| 96GB+ | 70B 以上 | Q4_K_M 或更高 |
三、 具体举例计算
示例 1:Llama 3 - 8B(主流均衡型)
如果使用常用的 4-bit 量化:
- •参数量 (): 8
- •位宽 (): 4
- •计算:
- •要求: 8GB 内存的 Mac 可以运行,但剩余空间不多;16GB 内存运行非常流畅。
示例 2:DeepSeek-V3/R1 - 70B(高性能型)
如果使用 4-bit 量化(Q4_K_M):
- •参数量 (): 70
- •位宽 (): 4
- •计算:
- •要求: 至少需要64GB 统一内存的 Mac(如 M2/M3 Max 或 Ultra)。虽然 48GB 勉强能加载,但系统剩余内存不足会导致严重的交换频率,大幅降低速度。
常用模型下载渠道
只是为了体验下全流程,所以没必要搞一个参数量很大的模型浪费我们宝贵的 Mac 资源,我们用Gemma-3-1b来体验一下。
首先分别看下不同渠道下的模型信息。
- • Hugging Face https://huggingface.co/models
可以看到模型信息标注的是 BF16 的原始精度,按照上面 Gemini 给的资源评估公式,每个参数对应 2 个字节,大约 2GB 的模型大小。 - • 魔搭社区 https://modelscope.cn/models
可以看到魔搭上的这个 Gemma-3-1b 的 GGUF 格式的模型所对应的原始模型就是上面 Hugging Face 的那个,下面提供了很多不同级别量化压缩版本的 GGUF 格式模型。 - • Ollama https://ollama.com/search
可以看到 Ollama 的模型是经过了 Q4_K_M 的量化压缩,大小 815MB。
OK,接下来选择通过 Ollama 命令行去安装。
通过 Ollama 安装Gemma 3:1b
ollama run gemma3:1b ```安装好后,打开 Ollama 客户端可以看到后面的模型下载提示就没有了。  OK,到这里我们的本地对话大模型 **Gemma 3** 就部署好了。 本地向量模型部署 ======== 接下来通过一种更进阶一些的方式,通过先从魔搭社区下载原始向量模型到本地,然后再对原始模型进行量化压缩成 GGUF 格式,最终导入 Ollama 中。 通过魔搭社区本地部署 **Qwen3-Embedding-0.6B** ----------------------------------- 为了方便下一步演示如何将原始模型转换为 GGUF 格式,这一步选择安装原始的。 ```plaintext # 安装 ModelScope,这里我使用的清华源,下载速度可以快一点pip install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple# 下载模型到指定文件夹modelscope download --model Qwen/Qwen3-Embedding-0.6B --local_dir ~/local_llm/Qwen/Qwen3-Embedding-0.6B将原始模型转 GGUF 格式
通过以上命令部署好原始的向量模型之后,这一步需要把原始的模型通过llama.cpp进行一定程度的量化压缩变成 GGUF 格式。
关于 GGUF 格式,可以理解为专为个人电脑或者开发者为了易于本地部署而进行一定量化压缩后特别省资源的一种格式。
首先将 llama.cpp 从 GitHub 克隆到本地,并进行相应的本地依赖安装(建议部署本地 Python 虚拟环境防止依赖冲突)。
git clone https://github.com/ggerganov/llama.cpp.gitcd llama.cpp pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple接下来,可以进入 llama.cpp 根目录,执行以下脚本即可。
# 对将原始模型采用Q8_0 (8-bit)量化等级进行压缩python convert_hf_to_gguf.py ~/local_llm/Qwen/Qwen3-Embedding-0.6B --outtype q8_0 --verbose --outfile Qwen3-Embedding-0.6B.gguf# 当然也可以不进行压缩,无损格式压缩python convert_hf_to_gguf.py ~/local_llm/Qwen/Qwen3-Embedding-0.6B --outtype f16 --verbose --outfile Qwen3-Embedding-0.6B.gguf ``` 可以看到终端右侧是原始向量模型的大小统计,左侧采用的 Q8\_0 (8-bit) 量化等级进行压缩,模型大小从 1.1G 压缩到了 633.2MB。 将 GGUF 模型导入 Ollama 中 -------------------- 下一步就可以导入到 Ollama 中使用了。 首先在刚刚量化压缩好的 GGUF 格式的大模型同目录下创建一个模型对应的 Modelfile 文件,然后通过 Ollama 终端就可以导入了。 ```plaintext vim Qwen3-Embedding-0.6B.modelfile## 编辑内容如下from ~/ai/llama.cpp/Qwen3-Embedding-0.6B.gguf ``````plaintext ollama create Qwen3-Embedding-0.6B -f Qwen3-Embedding-0.6B.modelfile本地向量数据库搭建
还有关键的一步,因为向量模型需要对原始语料进行索引,切片存到数据库中,这里本地向量数据库服务使用开源版本的 Milvus。
pip install -U milvus-lite总结
到这里,一套完全运行在本地、隐私安全、且资源占用可控的 RAG 知识库系统就搭建完成了。
虽然我们用的模型参数不大,但麻雀虽小,五脏俱全,它完整演示了从模型部署、量化、到向量检索的全链路。
Vibe Coding 的时代,写代码不再是门槛,想法和实践才是。希望这篇教程能让你感受到本地 AI 的魅力,快去试试看吧!
AI时代,未来的就业机会在哪里?
答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具,到自然语言处理、计算机视觉、多模态等核心领域,技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。
掌握大模型技能,就是把握高薪未来。
那么,普通人如何抓住大模型风口?
AI技术的普及对个人能力提出了新的要求,在AI时代,持续学习和适应新技术变得尤为重要。无论是企业还是个人,都需要不断更新知识体系,提升与AI协作的能力,以适应不断变化的工作环境。
因此,这里给大家整理了一份《2026最新大模型全套学习资源》,包括2026最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题、AI产品经理入门到精通等,带你从零基础入门到精通,快速掌握大模型技术!
由于篇幅有限,有需要的小伙伴可以扫码获取!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 大模型项目实战
学以致用,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
5. 大模型行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
为什么大家都在学AI大模型?
随着AI技术的发展,企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。
同时很多人面临优化裁员,近期科技巨头英特尔裁员2万人,传统岗位不断缩减,因此转行AI势在必行!
这些资料有用吗?
这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
大模型全套学习资料已整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费】