news 2026/4/16 0:53:19

AI-大语言模型LLM-Transformer架构3-嵌入和位置编码

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI-大语言模型LLM-Transformer架构3-嵌入和位置编码

目的

为避免一学就会、一用就废,这里做下笔记

说明

  1. 本文内容紧承前文-Transformer架构1-整体介绍和Transformer架构2-自注意力,欲渐进,请循序
  2. 本文重点介绍Transformer架构中的嵌入和位置编码,它们在编码器堆栈和解码器堆栈中都有用到

一、嵌入-Embedding

与Transformer架构1-整体介绍中讲的一样,这里的Embedding,实际上是三个动作:

  • 分词Tokenize:将“我爱中国的山川湖海”拆分成[“我”,“爱”,“中国”,“的”,“山”,“川”,“湖”,“海”]
  • 编码Encoding:将分词后的每个词,对照词表(类似机器能理解的新华字典),一个个翻译成机器能处理的数字编码,如1代表中文的“我”,71代表中文的“爱”,编码后形成[1,71,102,99,210,211,212,213]这样的序列
  • 嵌入Embedding:嵌入是为了将数据向量化。向量化本质是通过嵌入模型,用高维向量(如1024维)充分表征每个词的语义(如“我”的多重含义、“我”的词性是名词、“我”一般用作主语或宾语等),且语义相似的两个向量余弦距离也更近。编码后的序列经向量化后是一个二维矩阵(矩阵1024列,代表嵌入模型的维度;矩阵8行,代表token的个数)

为什么嵌入后的向量,能充分表征原始token,能理解深层语义?
数据科学家负责给出理论解释,工程师则从实践结果验证猜想,这里不深究

不同类型的嵌入比较

嵌入类型特点优点缺点典型应用
词嵌入为每个词学习固定向量简单高效,捕获词汇语义无法处理一词多义,OOV问题(超出词表范围)Word2Vec, GloVe, 文本分类
子词嵌入基于子词(BPE/WordPiece)单位解决OOV,捕获形态学,共享表示序列变长,需分词器BERT, GPT系列,机器翻译
字符嵌入基于字符级别的最小单位完全无OOV,完美形态学处理序列很长,训练困难,语义稀疏Char-CNN, ByT5, 形态丰富语言
段落嵌入为文档/段落学习整体表示文档级语义理解,信息聚合丢失细节信息,粒度较粗Doc2Vec, 文档检索,段落分类
实体嵌入为知识图谱实体学习表示融合结构化知识,关系编码需要外部知识库,数据依赖知识图谱补全,推荐系统
多模态嵌入跨模态统一表示空间模态对齐,跨模态检索/生成对齐难度大,数据要求高CLIP, DALL-E, 视觉问答
上下文嵌入动态生成,依赖上下文环境处理一词多义,深度语境理解计算量大,需完整前向传播BERT, ELMo, 所有预训练模型
稀疏嵌入高维稀疏表示(如哈希嵌入)内存效率高,快速检索精度较低,哈希冲突问题大规模推荐系统,广告召回
图嵌入为图节点学习向量表示捕获结构信息,关系感知依赖于图质量,动态图难处理Node2Vec, GNN, 社交网络分析

:现代大模型主要采用上下文嵌入(如Transformer架构)和子词嵌入(BPE/WordPiece),因其在语义表示和泛化能力上的综合优势。

二、位置编码-Position Encoding

为什么需要位置编码

  • 嵌入后的每个向量,只有单个词的信息。而语言的信息,不仅存在于每个词中,还存在每个词出现的顺序/位置中。
  • 后续的自注意力本身是排列等变的:输入序列重排时,输出也相应重排,缺乏位置信息。
  • 因此位置编码用来填补这个空白,它为嵌入后的数据注入位置信息,使Transformer能够处理自然语言中的顺序依赖关系

什么是位置编码

对比理解:
嵌入是一种编码手段,它将人类理解的语句转换成浮点数矩阵(一组向量),该矩阵包含了原始语句的每个词的语义信息;
位置编码也是类似的编码手段,它将人类理解的语句的位置信息转换成相同大小的浮点数矩阵,该矩阵包含了原始语句中,每个词的顺序信息。
因此嵌入后的矩阵+位置编码后的矩阵=包含原始语句完整语义的矩阵

不同类型的位置编码比较

编码类型特点优点缺点典型应用
正弦余弦预定义三角函数,无需训练无限外推能力,参数效率高,相对位置编码灵活性差,无法自适应数据原始Transformer,ViT
可学习嵌入每个位置学习一个向量自适应数据,灵活性高长度固定,无外推能力,增加参数量BERT,RoBERTa,GPT-2
相对位置编码相对距离而非绝对位置更好的泛化,适合长序列实现复杂,需要训练偏置参数T5,DeBERTa,Transformer-XL
旋转编码通过旋转操作融入位置信息保持相对位置特性,优秀外推数学复杂,计算量稍大LLaMA,PaLM,ChatGLM
线性偏置在注意力分数加线性衰减偏置极简设计,强大外推能力表达能力受限,过于简单BLOOM,ALiBi系列
层次编码多粒度位置编码适合文档级任务,层次感知实现复杂,多组参数Longformer,BigBird

:现代大模型多采用相对位置旋转位置编码,因其在长序列处理和外推能力上的优势。

为什么位置编码和嵌入后的矩阵相加后,transformer能同时理解到位置和语义信息?

这可以分解为两个问题:1、为什么矩阵合并后信息没有丢失?2、为什么用加法?

1、为什么矩阵合并后信息没有丢失?**

矩阵合并后,原始语义信息和位置信息都溶解在合并后的矩阵里,无法反向提取出来,好像反而会导致信息的丢失,其实不然。
以位置信息为例,Transformer能理解位置信息,不是因为能从加法和中"反向取出"位置编码,而是因为:

  • 位置信息已"溶解"在所有后续计算中,特别是注意力机制中,位置的影响会自然显现

  • 位置编码的特定设计使其在注意力计算中产生可识别的模式

  • 模型通过训练学会了识别这些模式,而不是反向提取

2、为什么用加法?

加法被选择,不是因为它是理论上最优的,而是因为它是实践中最佳的平衡点:

  • 计算效率:O(d)复杂度,最简单快速

  • 梯度友好:不会导致梯度消失/爆炸

  • 信息保存:基本保持语义信息的完整性

  • 足够表达:结合注意力机制,能学习复杂模式

  • 实验验证:在各种任务上表现优异

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/28 5:23:54

【课程设计/毕业设计】基于SpringBoot+Vue的个人身心健康管理小程序的设计与实现【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/16 13:33:13

会议热点扫描|智慧教育顶级会议AIED 2025的研究热点可视化分析

对智慧教育领域的前沿方向进行跟踪是建设教育强国的关键。本文通过图文并茂的方式介绍了AIED 2025的研究热点,帮助读者了解和跟踪智慧教育的前沿研究方向。 本推文的作者是黄星宇,审校为邱雪和许东舟。 一、会议介绍 AIED(International Co…

作者头像 李华
网站建设 2026/4/14 23:04:20

测试报告与Jira工单联动自动关闭已修复Bug

一、背景与价值:为何必须实现自动化关闭?‌在传统测试流程中,测试人员完成回归验证后,需手动登录Jira、查找对应工单、切换状态、填写关闭理由——这一过程重复、低效且易出错。尤其在高并发迭代场景下,每日处理数十甚…

作者头像 李华
网站建设 2026/4/16 13:30:08

Java中读写锁的应用场景是什么?

大家好,我是锋哥。今天分享关于【Java中读写锁的应用场景是什么?】面试题。希望对大家有帮助;Java中读写锁的应用场景是什么?它能显著提高并发吞吐量,因为它允许:多个线程同时持有读锁(读-读并发…

作者头像 李华
网站建设 2026/4/16 13:37:10

AI模型增强技术大比拼:RAG与微调优劣势全解析,收藏备用

本文深入对比了NLP领域两种主流模型增强技术:RAG与微调。RAG通过外部知识库动态检索信息,适应性强但计算开销大;微调则通过特定数据集优化模型参数,任务专精度高但灵活性较低。文章详细分析了两者在准确性、适应性、资源消耗和推理…

作者头像 李华