happyllm:task5(搭建一个Transformer)-编程阁

1.Embedding 层:将自然语言序列转为机器能够处理的向量。输入的自然语言序列后,把每个词（或者子词）转换成一个固定长度的数字向量。
例子(有一本 “词 → 向量”的大字典：字典里有几万个词，每个词对应一个独一无二的编号（比如“我”是0，“喜欢”是1）。输入句子“我喜欢你”时，先查字典得到编号序列 [0, 1, 2]。)
Embedding 层内部存着一个巨大的表格（可训练的矩阵），根据编号取出对应的向量行。
最终输出一个形状为 (句子长度, 向量维度) 的数字矩阵，供神经网络处理。

2.位置编码:输入序列的顺序是重要的信息，可以利用。(位置编码就像给每个词贴上“第几排第几座”的座位号，防止模型认错顺序)
注意力机制的问题：它看不出词和词的先后顺序。在它眼里，“我喜欢你”和“你喜欢我”的单词集合一模一样，会得出相同的理解。
为了让模型知道每个词在第几个位置，Transformer 引入了位置编码。
根据序列中 token 的相对位置对其进行编码(使用正弦和余弦函数计算不同位置的编码值)，再将位置编码加入词向量编码中。

3.一个完整的Transformer

输入 → 经过 Tokenizer 变成编号序列。
Embedding 层 → 查表变成词向量矩阵。
位置编码 → 给词向量加上位置。
Encoder 堆叠：多层自注意力模块反复融合输入序列的上下文信息，输出一个语义编码矩阵供解码器查阅。
Decoder 堆叠：先用掩码自注意力约束当前生成词只能看到过去内容，再用交叉注意力从编码器输出中提取相关上下文，逐词生成目标序列。
线性层 + Softmax → 把最后输出的向量映射回词表大小的概率分布，选出概率最高的词作为下一个输出。

探索AI：能力、本质、学习与生态系统的全面解析

在科技飞速发展的今天，人工智能（AI）已经逐渐渗透到我们生活的方方面面，从智能家居到自动驾驶，从医疗诊断到金融分析，AI的应用无处不在。然而，对于AI的真正理解，我们仍有许多需要探索…

李华

从float64到float16：一次NumPy数组内存优化的完整实战记录（附性能对比）

从float64到float16：一次NumPy数组内存优化的完整实战记录（附性能对比） 当处理大规模图像数据集时，我遇到了一个棘手的问题——程序频繁抛出MemoryError。作为一个长期与数据打交道的工程师，我决定深入探究这个问题的根…

李华

怎么通过SSH通道连接SQL Server_跳板机安全配置指南

SQL Server通过SSH隧道连接失败的主因是端口转发配置错误或未生效；需正确设置ssh -L本地端口映射、启用目标SQL Server的TCP/IP协议与远程连接、放行防火墙、禁用WinRM冲突服务、使用SQL认证而非Windows认证、配置KeepAlive保活参数，并避免连接字符串中误…

李华

【Java Loom安全转型权威指南】：20年架构师亲授响应式迁移中97%团队忽略的3大线程安全陷阱

第一章：Java Loom响应式转型的安全本质与认知重构Java Loom 的引入并非仅是一次轻量级线程（Virtual Thread）的语法糖升级，而是对JVM并发模型底层安全契约的根本性重定义。传统基于平台线程（Platform Thread&#xff09…

李华

别再死记命令了！通过eNSP抓包，带你真正看懂路由器和三层交换机下发DHCP的全过程

从抓包实战透视DHCP：路由与三层交换机的协议交互差异在华为eNSP模拟器中，当我们第一次看到终端成功获取IP地址时，往往会产生一种"魔法般"的错觉——仿佛设备自动完成了所有复杂工作。但真正理解DHCP协议的精髓，需要穿透…

李华

工业4.0时代，如何为你的5G工厂网络选对PTP时钟？从Grandmaster到边界时钟实战指南

工业4.0时代5G工厂网络的PTP时钟选型实战指南走进任何一座现代化汽车工厂，你会看到机械臂以毫米级精度协同焊接，AGV小车沿着虚拟轨道无缝衔接物料运输，高清质检摄像头在传送带间捕捉微米级缺陷——这些场景背后，是数万台设备的时…

李华