自编基于层结构（Layer）的添加自注意力机制-编程阁

自编基于层结构（Layer）的添加自注意力机制

直接开撕！传统神经网络层结构那套全连接+激活函数的组合拳早就看腻了，今天咱们整点刺激的——给网络层装个自注意力插件。这玩意儿能让网络自己决定哪些信息重要，比无脑全连接不知道高到哪里去了。

先看这个基础层结构怎么改：

class AttentionLayer(nn.Module): def __init__(self, dim, heads=4): super().__init__() self.heads = heads self.scale = dim ** -0.5 # 这个缩放因子千万别忘 self.to_qkv = nn.Linear(dim, dim*3, bias=False) # 输出前再加个全连接 self.proj = nn.Sequential( nn.Linear(dim, dim), nn.Dropout(0.1) )

注意看to_qkv这行，一石三鸟直接把输入转换成查询、键、值三个向量。这里有个骚操作——用单个线性层同时生成QKV，比分开写三个层省事儿多了，实测还能减少参数冲突。

核心计算部分才是重头戏：

def forward(self, x): b, n, _, h = *x.shape, self.heads # 生成QKV并拆分成多头 [重要！] qkv = self.to_qkv(x).chunk(3, dim=-1) q, k, v = map(lambda t: t.reshape(b, n, h, -1).transpose(1, 2), qkv) # 注意力能量计算（矩阵乘法搞起） dots = (q @ k.transpose(-2, -1)) * self.scale attn = dots.softmax(dim=-1) # 信息聚合与还原形状 out = (attn @ v).transpose(1, 2).reshape(b, n, -1) return self.proj(out)

这里有几个坑要注意：1) chunk拆解时维度要对齐；2) 多头reshape的顺序影响计算效率；3) 缩放因子不加模型直接爆炸。建议在调试时先print下各维度变化，别问我怎么知道的。

实际使用时可以像乐高积木一样插入网络：

class SuperNet(nn.Module): def __init__(self): super().__init__() self.layers = nn.Sequential( nn.Linear(256, 512), AttentionLayer(512), # 这里插入！ nn.ReLU(), nn.Linear(512, 10) )

注意输入维度要和注意力层的dim参数对齐。实测在NLP任务中，这种结构对长距离依赖捕捉效果拔群，比单纯堆LSTM省显存不说，在GPU上还能并行加速。

最后说个骚操作：把传统卷积和自注意力混搭使用，前几层用CNN抓局部特征，后面接注意力层搞全局关系。这种组合拳在图像分类任务中效果意外的好，不信你试试？代码改起来也简单，把上面的AttentionLayer直接插到卷积后面就完事。

遇到维度不匹配别慌，记住万能调试三步法：1) print各层输入输出形状；2) 检查矩阵乘法维度对齐；3) 梯度裁剪别超过1e3。自注意力虽好，可不要贪杯哦，head数太多小心显存爆炸！

2026年速通前端面试题1000道，适用于99%的中大厂。少走弯路

整理了2025年最全的Web前端高频面试题，JavaScript、CSS、ES6、vue2、Vue3、React、Node.JS、小程序、HTTP、TypeScript、Webpack、Git、Linux、算法与数据结构、设计模式等等题库共 1000 道，带全部答案，非常齐全！ 因为文件太多&a…

李华

扩散模型实战指南：从零基础到行业应用的完整解决方案

扩散模型实战指南：从零基础到行业应用的完整解决方案【免费下载链接】Awesome-Diffusion-Models 项目地址: https://gitcode.com/gh_mirrors/awe/Awesome-Diffusion-Models 你是否曾为扩散模型的神秘感而却步？或者在实际应用中遇到了各种技术难…

李华

月初面了十多个前端开发，感觉天都塌了...

不是说他们基础不好。相反，很多人对React生命周期、 Vue响应式原理甚至 Webpack配置项都能对答如流。真正让我感到“天塌了”的瞬间，是在连续几个候选人面对同一个看似简单的场景题时，表现出的集体性失语。题目大概是这样的： “…

李华

Tarjan全家桶系列--强联通分量

强联通分量(SCC) 有向图中的一个极大子图，其中任意两个节点 u 和 v 都互相可达（即存在 u→v和 v→u的路径），则这个子图为一个强联通分量 Tarjan 算法基于深度优先搜索（DFS），利用 DF…

李华

手把手教你学Simulink——基于高比例可再生能源渗透的复杂电网建模场景实例：含高比例风电接入的弱电网稳定性分析与仿真

目录手把手教你学Simulink ——基于高比例可再生能源渗透的复杂电网建模场景实例：含高比例风电接入的弱电网稳定性分析与仿真一、背景介绍二、系统结构设计三、建模过程详解第一步：创建新 Simulink 项目第二步：添加主要模块 1. 风电场模型 2. 弱电网模型 3. …

李华

学Simulink--基于高比例可再生能源渗透的复杂电网建模场景实例：新能源高渗透下传统同步机主导系统的动态响应建模

目录手把手教你学Simulink ——基于高比例可再生能源渗透的复杂电网建模场景实例：新能源高渗透下传统同步机主导系统的动态响应建模一、背景介绍二、系统结构设计三、建模过程详解第一步：创建新 Simulink 项目第二步：添加主要模块 1. 新能源发电模型 2. 同步…

李华