Transformer核心组件功能对照表-编程阁

Transformer核心组件功能对照表

模块名称	所属位置	核心功能	关键作用
Input Embedding	输入侧前置	将离散的输入词（如英文单词）映射为固定维度的向量。	把人类可理解的文字转化为模型能处理的数值化语义表示。
Output Embedding	输出侧前置	将已生成的目标词（如已翻译的中文词）映射为向量，通常与Input Embedding共享权重。	保证输入、输出的语义空间一致，减少参数数量，提升语义对齐效果。
Positional Encoding	输入/输出侧前置	通过三角函数或可学习参数，为词向量加入位置信息。	弥补Transformer无循环结构的缺陷，让模型捕捉序列的顺序依赖（如“我吃饭”和“饭吃我”的区别）。
Multi-Head Attention（自注意力）	编码器内部第一层	并行计算多个注意力头，让每个位置关注输入序列的所有位置。	捕捉输入序列内部的全局语义依赖（如长句中“主语”和“宾语”的关联）。
Add & Norm	编码器/解码器子层后	先做残差连接（子层输入+子层输出），再做层归一化。	缓解梯度消失问题，稳定训练过程，加速模型收敛。
Feed Forward	编码器/解码器内部第二层	对每个位置的向量做独立的非线性变换（通常是两层全连接+ReLU）。	增强模型的特征表达能力，捕捉更复杂的语义模式。
Masked Multi-Head Attention（掩码自注意力）	解码器内部第一层	与自注意力类似，但会遮挡未来位置的信息（生成第3个词时，只能看前2个词）。	保证生成的自回归性，避免模型“偷看”未来信息，符合人类逐词生成的逻辑。
Encoder-Decoder Attention（编解码注意力）	解码器内部第二层	以编码器输出为Key/Value，解码器当前状态为Query，计算注意力。	实现输入与输出的语义对齐（如翻译时“英文单词”与“中文单词”的对应），让生成的内容更贴合输入语义。
Linear（线性层）	输出层	将解码器的输出向量映射到整个目标词表的维度。	将特征向量转化为词表概率分布的对数形式。
Softmax	输出层	将线性层的输出转为0-1之间的概率分布。	得到每个词的生成概率，选择概率最高的词作为下一个生成结果。

导师推荐！8款AI论文平台测评：本科生写论文怎么选？

导师推荐！8款AI论文平台测评：本科生写论文怎么选？ 2026年AI论文平台测评：为何要关注这些工具？ 随着人工智能技术的不断进步，越来越多的本科生开始借助AI论文平台提升写作效率与学术质量。然而，面…

李华

吐血推荐9个一键生成论文工具，专科生毕业论文轻松搞定！

吐血推荐9个一键生成论文工具，专科生毕业论文轻松搞定！ AI 工具如何助力论文写作，专科生也能轻松应对随着人工智能技术的不断发展，越来越多的 AI 工具开始进入学术领域，为学生和科研人员提供便捷的支持。对于专科生而…

李华

Prompt 模板库详解

1. 它是什么可以把 Prompt 模板库理解为一本“高效沟通的常用话术手册”。在人与AI（如大型语言模型）的协作中，一个清晰、具体的指令（即Prompt）直接决定了输出结果的质量。 Prompt 模板库就是一群经验丰富的人&#…

李华

编剧爆款密码：跟着创一AI的剧本原石，创作不踩雷

作为写了 4 年短剧的编剧，2026年的行业竞争让我陷入到了双重焦虑：一方面是 “无米下锅”，每天对着空白文档发呆，刷遍各大平台去找灵感，却越看越迷茫，不知道下一个爆款选题到底在哪里；另一方面是…

李华

GitHub 热榜项目 - 日榜(2026-01-31)

GitHub 热榜项目 - 日榜(2026-01-31) 生成于：2026-01-31 统计摘要共发现热门项目： 14 个榜单类型：日榜本期热点趋势总结本期GitHub热榜显示AI应用开发持续火爆，焦点从单一模型转向智能化代理体系和工具链整合。以OpenCla…

李华

供应链漏洞致英国皇家邮政被“洞穿”：黑客泄露144GB数据，直指供应商Spectos

英国百年邮政机构皇家邮政集团（Royal Mail Group）近日遭遇重大数据泄露事件，144GB内部文件、客户信息和营销数据遭窃。网络犯罪论坛Breach Forum用户"GHNA"率先公开了这起入侵事件。 144GB数据遭泄露据Hackread.com研究团队确认…

李华