news 2026/6/11 9:38:51

一张图看懂AI工程全貌:7大模块、50+核心概念、5层技术栈,小白也能轻松入门并收藏学习

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
一张图看懂AI工程全貌:7大模块、50+核心概念、5层技术栈,小白也能轻松入门并收藏学习

本文将AI工程拆解为7大模块,涵盖Transformer、Prompt工程、Agent架构、RAG等核心概念,并给出关键论文、选型决策和模块间关联,旨在帮助读者建立系统化的AI工程认知框架。通过本文,读者可以了解AI工程的发展历程、核心技术和应用场景,为进一步学习和实践AI工程打下坚实基础。

写在前面

最近在研究怎么把一个agent(不局限于某个类型的小龙虾)养成有记忆,会思考,能反思,可自进化的专家。其中,涉及到很重要的一部分内容,就是领域知识的积累。所以就把AI工程相关的知识给做了个搜索,归纳和总结,先分享出来,后续基于这个地图,我再一一展开进行学习及实践。

下面开始正文(5000字左右,建议先收藏有时间细读)

一张图看懂 AI Engineering 全貌——7 大模块、50+ 核心概念、5 层技术栈,帮你建立系统化的 AI 工程认知框架。

前言:为什么需要一张 AI 工程知识图谱

过去两年,AI 领域的论文数量呈指数增长,新框架每周冒出来,新概念层出不穷。很多同学的感受是:

  • 学不完:今天学 RAG,明天出 GraphRAG,后天又来 Agentic RAG
  • 连不上:Transformer、Prompt Engineering、Agent、MCP 之间是什么关系?
  • 用不对:知道概念但不知道什么时候用、怎么选型

知识图谱解决的就是"连不上"的问题——不是教你每个概念的细节,而是帮你建立概念之间的连接关系,形成一张可导航的地图。

本文将 AI 工程拆解为 7 大模块,每个模块给出核心概念、关键论文、选型决策和模块间关联,最终形成一张完整的知识图谱。

一、知识图谱总览

二、模块 1:基石与里程碑

  1. 核心时间线

  1. 必读论文 Top 5(入门优先级排序)
  • Attention Is All You Need (2017) — Transformer,所有大模型的祖先
  • GPT-3 (2020) — 涌现能力,In-Context Learning
  • InstructGPT (2022) — RLHF 对齐三阶段
  • Chain-of-Thought (2022) — 让模型一步步思考
  • ReAct (2022) — Agent 架构的理论基础
  1. 关键术语速查

三、模块 2:大模型架构与训练

  1. Transformer 核心结构

  1. Self-Attention 直觉类比:
  • Q(Query)= “我在找什么”
  • K(Key)= “我是什么”(被搜索的标签)
  • V(Value)= “我的内容”(实际信息)

就像在图书馆:Q 是你的问题,K 是书名,V 是书的内容。根据问题与书名的匹配度,决定花多少注意力在每本书上。

  1. 训练三阶段

核心公式:数据质量 >> 数据数量。宁可 1 万条高质量,不要 100 万条低质量。

  1. 高效微调方法选型

  1. 推理优化

  1. 模型选型决策树

你的场景:

├── 通用对话/创作 → GPT-4o / Claude Sonnet├── 复杂推理/数学 → o3 / DeepSeek-R1├── 代码生成 → Claude Opus 4├── 超长文档 → Gemini 2.0 (1M 窗口)├── 本地部署/隐私 → Llama 3.1 / Qwen 2.5├── 中文场景 → Qwen 2.5 / DeepSeek└── 成本敏感 → DeepSeek-V3

四、模块 3:Prompt 工程

  • Prompt 的本质

完整的 Prompt = 角色 + 上下文 + 指令 + 输入 + 输出格式 + 约束

同一个模型,Prompt 不同,输出质量可以差 10 倍。

  • 核心模式

  • CoT 的变体进化
Zero-Shot CoT → "Let's think step by step" ↓Few-Shot CoT → 给带推理过程的示例 ↓Self-Consistency → 多次采样取一致性最高的答案 ↓Tree of Thoughts → 树状搜索多条推理路径
  • System Prompt 架构设计

一个优秀的 System Prompt 应该是分层的:

System Prompt = 身份层 (我是谁) + 灵魂层 (我怎么思考) + 知识层 (我知道什么) + 记忆层 (我经历过什么) + 工具层 (我能做什么)
  • Prompt 注入防御

  • 2026 前沿:Prompt Bloat 问题
MCP 工具数量爆炸 → 工具描述塞满 context → LLM 工具选择准确率下降。

解法:RAG-as-Routing,用语义检索预筛选工具(top-k),只把相关工具注入 Prompt。实测 prompt token 降低 60%+。

五、模块 4:Agent 架构

  1. Agent = LLM + 记忆 + 工具 + 规划

  1. Agent 核心循环
Perceive (感知) → Think (思考) → Act (行动) → Observe (观察) → 循环
  1. 五大设计模式

模式 1:ReAct(最广泛使用)

Thought → Action → Observation → Thought → Action → …

简单直观,但串行执行,没有全局规划。

模式 2:Plan-and-Execute

制定完整计划 → 逐步执行 → 根据中间结果 Replan

有全局视角,适合复杂任务。

模式 3:Reflexion

执行 → 自我评估 → 存储反思 → 下次避免同类错误

持续自我改进。

模式 4:Multi-Agent

Orchestrator ├── Researcher → 信息收集 ├── Writer → 内容生成 └── Reviewer → 质量检查

—— 分工协作,适合复杂工作流。

模式 5:Tool-Use Agent

LLM 决定何时调用什么工具。模型不是"执行"工具,而是生成工具调用的 JSON 描述,由外部系统执行。

  1. 记忆系统设计

  1. Agent 框架选型

  1. 2026 关键洞察

Agent 系统工程三角:编排 + 记忆治理 + 工具可靠性,决定 Agent 能否真正落地。

六、模块 5:上下文工程与 RAG

  1. 核心矛盾:“看到” ≠ “记住”

Lost in the Middle 问题:模型对上下文开头和结尾更敏感,中间部分容易被忽略。即使窗口有 200K,实际有效利用的可能只有 50-70%。

  1. 上下文工程原则
上下文 = System Prompt (固定层) + User Profile (半固定层) + Retrieved Knowledge (动态检索层) + Conversation History (对话层) + Current Query (当前输入层)

5 条黄金法则:

  • 最相关的信息放在开头和结尾
  • System Prompt 越精简越好
  • 动态检索胜于静态塞入
  • 摘要压缩胜于直接截断
  • 结构化(Markdown/JSON)胜于纯文本
  1. RAG 完整流程
离线:文档 → 解析 → 清洗 → 分块 → Embedding → 向量数据库在线:查询 → Query Embedding → 向量检索 → 重排序 → 拼 Prompt → 生成
  1. 1 分块策略选型

最佳实践:块大小 256-1024 Token,重叠 10-20%。

  1. 2 向量数据库选型

  1. 3 高级 RAG 技术矩阵

2026 前沿:Agentic RAG

RAG 正在从"检索工具"升级为"Agent 基础设施":

架构选型:

  • 简单问答 → Agentic RAG(成本低)
  • 跨实体全局推理 → GraphRAG(不可替代)

七、模块 6:Skills、MCP 与工具链

  1. MCP = AI 的 USB 接口

MCP (Model Context Protocol) = Anthropic 提出的开放协议,让 AI 模型标准化地连接外部工具和数据源。

MCP Client (AI应用) ←─MCP协议─→ MCP Server (工具提供方) Claude/Cursor/CodeBuddy GitHub/Slack/数据库/文件系统
  1. Skill vs Prompt vs Tool

2026 关键洞察:RAG-MCP

MCP 工具超过 30 个后,必须启用 RAG-based Skill Router,否则工具选择准确率崩溃:

八、模块 7:评估与安全

  1. 成本计算公式

月成本 = 日均请求数 × 平均 Token 数 × Token 单价 × 30

例:10000 请求/天 × 2000 Token × $0.003/1K × 30 = $1,800/月

  1. Agent 评估维度

  1. 安全红线

九、跨模块关联:知识图谱的关键边

知识图谱的价值不在于节点(单个概念),而在于边(概念间的关系)。

关键关联 1:Transformer → Prompt → Agent

Transformer 的 Self-Attention 机制 → 使得模型能理解长距离依赖 → 使得 CoT (链式思考) 成为可能 → 使得 ReAct (推理+行动) 成为可能 → Agent 架构的基础

关键关联 2:Embedding → RAG → Agent

Embedding 将文本映射到向量空间 → 使得语义检索成为可能 → RAG 用 Embedding 检索相关知识 → Agent 用 RAG 扩展知识边界 → Agentic RAG 让 Agent 自主决定检索策略

关键关联 3:MCP → Skill → Agent

MCP 统一工具接口 → Skill 封装为可复用能力单元 → Agent 通过 Skill 调用工具 → RAG-MCP 解决工具选择问题

关键关联 4:记忆 → 上下文 → 压缩

长期记忆(文件/向量库) → 上下文窗口有限(200K) → 需要压缩(摘要/截断/检索) → 迭代式摘要 + Handoff 框架 → 记忆的 CRUD + 遗忘机制

十、学习路线图

  1. 入门路线(2-3 周)

  2. 3Blue1Brown 神经网络视频 → 建立直觉

  3. Jay Alammar “The Illustrated Transformer” → 理解 Transformer

  4. 精读模块 1-3(基石 + 架构 + Prompt)→ 打基础

  5. 动手写 Prompt,跑通 CoT / Few-Shot

  6. 进阶路线(4-6 周)

  7. 搭建一个 ReAct Agent(LangChain/LangGraph)

  8. 实现一个 RAG 系统(Chroma + OpenAI Embedding)

  9. 精读模块 4-6(Agent + RAG + MCP)

  10. 读 Chip Huyen《AI Engineering》

  11. 深入路线(持续)

  12. 精读 ReAct / RAG / CoT 原始论文

  13. 研究 Hermes Agent 源码(上下文压缩 + 记忆系统设计)

  14. 关注 2026 前沿:Agentic RAG / GraphRAG / 推理模型

  15. 关注 arXiv cs.CL 每月热门论文

十一、2026 趋势总结

十二、推荐资源

结语

AI 工程不是一堆孤立概念的堆砌,而是一棵从 Transformer 根基长出的知识树:

  • Transformer 是根——Self-Attention 机制让一切成为可能
  • Prompt 是干——用自然语言操控模型
  • Agent 是枝——从被动回答到主动行动
  • RAG 是叶——突破知识边界
  • MCP 是果——让 AI 真正连接世界

记住这张图,你就不会在 AI 工程的知识海洋中迷路。

最后

如果说程序员已经是高薪职业,那么干AI的程序员,就是高薪中的高薪。

现在的市场,已经用数据给程序员指明了方向:学AI大模型,就是冲刺高薪的最优解!

看着身边越来越多的同行转型大模型、拿到高薪offer,很多人心里都动了心,但真正的难题来了:零基础小白不知道从哪入门?有基础的程序员找不到系统学习路径?实战项目练手无门?面试不知道考什么?

别慌!今天就给大家整理了一份【2026年最新版】AI大模型免费学习资源包,覆盖从入门到实战、从理论到面试、从基础到进阶的全流程,所有资料均已整理归档,无冗余、无套路,免费分享给每一位想抓住AI风口的程序员和小白!

👇👇扫码免费领取全部内容👇👇

1、大模型系统化学习路线

2、大模型学习书籍&文档

3、AI大模型最新行业报告

4、大模型项目实战&配套源码

5、大模型大厂面试真题

四阶段精细化学习规划(附时间节点,可直接照做)

结合上述资源,给大家整理了一份可直接落地的四阶段学习规划,总时长约2个月,小白可循序渐进,程序员可根据自身基础调整节奏,高效掌握大模型核心能力,快速实现从“入门”到“能落地、能面试”的跨越。

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

👇👇扫码免费领取全部内容👇👇

6、这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/11 9:33:52

ProperTree:跨平台Plist编辑器,轻松管理OpenCore和Clover配置

ProperTree:跨平台Plist编辑器,轻松管理OpenCore和Clover配置 【免费下载链接】ProperTree Cross platform GUI plist editor written in python. 项目地址: https://gitcode.com/gh_mirrors/pr/ProperTree ProperTree是一款基于Python和Tkinter开…

作者头像 李华
网站建设 2026/6/11 9:31:51

我们正处在 AI 的1997年

Benedict Evans花了几十年时间观察技术浪潮的到来、达到顶峰并重塑一切。他目睹了PC时代让位于互联网,互联网让位于移动互联网,现在他正以同样的审慎、不带感情色彩的目光注视着AI。他的结论既非乌托邦也非反乌托邦——而是更难让人安坐的结论&#xff1…

作者头像 李华
网站建设 2026/6/11 9:24:41

AI动态简报之算力基建篇(2026.06.10)

⚡ 第1条:NVIDIA Blackwell一芯难求 — HBM产能被锁定到2028年,交货周期创历史最长核心信息:据TrendForce最新数据显示,2026年Blackwell方案将占英伟达高端GPU出货量的71%,但供应紧张程度已达Ampere/Hopper架构周期以来…

作者头像 李华
网站建设 2026/6/11 9:24:38

数据库索引优化:B+ 树与 LSM 树的选型决策与工程实践

数据库索引优化:B 树与 LSM 树的选型决策与工程实践一、索引选型的两难:为什么"加索引"不是性能优化的万能药 数据库索引是查询性能优化的标准手段,但索引选型远非"加个 B 树索引"那么简单。B 树索引适合点查和范围查询&…

作者头像 李华
网站建设 2026/6/11 9:24:21

开放麒麟双系统,读取window硬盘 命令

在开放麒麟(OpenKylin)操作系统中,如果你想从双系统环境中访问Windows系统中的磁盘(通常称为“银盘”),你可以使用以下几种方法来实现:1. 使用文件管理器最简单的方法是通过文件管理器&#xff…

作者头像 李华
网站建设 2026/6/11 9:24:09

别再手动调参了!用C语言给Arduino写个PID自整定库(附完整代码)

用C语言为Arduino打造智能PID自整定库:从理论到实战在创客和嵌入式开发领域,PID控制算法就像是一位不知疲倦的调节大师,默默工作在温控系统、平衡车、无人机等无数设备中。但让许多开发者头疼的是,传统PID需要反复手动调整三个关键…

作者头像 李华