news 2026/4/16 15:02:16

Transformer核心组件功能对照表

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Transformer核心组件功能对照表

Transformer核心组件功能对照表

模块名称所属位置核心功能关键作用
Input Embedding输入侧前置将离散的输入词(如英文单词)映射为固定维度的向量。把人类可理解的文字转化为模型能处理的数值化语义表示。
Output Embedding输出侧前置将已生成的目标词(如已翻译的中文词)映射为向量,通常与Input Embedding共享权重。保证输入、输出的语义空间一致,减少参数数量,提升语义对齐效果。
Positional Encoding输入/输出侧前置通过三角函数或可学习参数,为词向量加入位置信息。弥补Transformer无循环结构的缺陷,让模型捕捉序列的顺序依赖(如“我吃饭”和“饭吃我”的区别)。
Multi-Head Attention(自注意力)编码器内部第一层并行计算多个注意力头,让每个位置关注输入序列的所有位置。捕捉输入序列内部的全局语义依赖(如长句中“主语”和“宾语”的关联)。
Add & Norm编码器/解码器子层后先做残差连接(子层输入+子层输出),再做层归一化。缓解梯度消失问题,稳定训练过程,加速模型收敛。
Feed Forward编码器/解码器内部第二层对每个位置的向量做独立的非线性变换(通常是两层全连接+ReLU)。增强模型的特征表达能力,捕捉更复杂的语义模式。
Masked Multi-Head Attention(掩码自注意力)解码器内部第一层与自注意力类似,但会遮挡未来位置的信息(生成第3个词时,只能看前2个词)。保证生成的自回归性,避免模型“偷看”未来信息,符合人类逐词生成的逻辑。
Encoder-Decoder Attention(编解码注意力)解码器内部第二层以编码器输出为Key/Value,解码器当前状态为Query,计算注意力。实现输入与输出的语义对齐(如翻译时“英文单词”与“中文单词”的对应),让生成的内容更贴合输入语义。
Linear(线性层)输出层将解码器的输出向量映射到整个目标词表的维度。将特征向量转化为词表概率分布的对数形式。
Softmax输出层将线性层的输出转为0-1之间的概率分布。得到每个词的生成概率,选择概率最高的词作为下一个生成结果。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 4:33:37

导师推荐!8款AI论文平台测评:本科生写论文怎么选?

导师推荐!8款AI论文平台测评:本科生写论文怎么选? 2026年AI论文平台测评:为何要关注这些工具? 随着人工智能技术的不断进步,越来越多的本科生开始借助AI论文平台提升写作效率与学术质量。然而,面…

作者头像 李华
网站建设 2026/4/16 12:56:57

吐血推荐9个一键生成论文工具,专科生毕业论文轻松搞定!

吐血推荐9个一键生成论文工具,专科生毕业论文轻松搞定! AI 工具如何助力论文写作,专科生也能轻松应对 随着人工智能技术的不断发展,越来越多的 AI 工具开始进入学术领域,为学生和科研人员提供便捷的支持。对于专科生而…

作者头像 李华
网站建设 2026/4/15 20:23:10

Prompt 模板库详解

1. 它是什么 可以把 Prompt 模板库理解为一本“高效沟通的常用话术手册”。在人与AI(如大型语言模型)的协作中,一个清晰、具体的指令(即Prompt)直接决定了输出结果的质量。 Prompt 模板库就是一群经验丰富的人&#…

作者头像 李华
网站建设 2026/4/16 12:27:13

编剧爆款密码:跟着创一AI的剧本原石,创作不踩雷

作为写了 4 年短剧的编剧,2026年的行业竞争让我陷入到了双重焦虑:一方面是 “无米下锅”,每天对着空白文档发呆,刷遍各大平台去找灵感,却越看越迷茫,不知道下一个爆款选题到底在哪里;另一方面是…

作者头像 李华
网站建设 2026/4/15 11:35:48

GitHub 热榜项目 - 日榜(2026-01-31)

GitHub 热榜项目 - 日榜(2026-01-31) 生成于:2026-01-31 统计摘要 共发现热门项目: 14 个 榜单类型:日榜 本期热点趋势总结 本期GitHub热榜显示AI应用开发持续火爆,焦点从单一模型转向智能化代理体系和工具链整合。以OpenCla…

作者头像 李华