预训练模型中的位置编码：绝对位置、相对位置与旋转位置编码-编程阁

点击“AladdinEdu，你的AI学习实践工作坊”，注册即送-H卡级别算力，沉浸式云原生集成开发环境，80G大显存多卡并行，按量弹性计费，教育用户更享超低价。

defrotate_half(x):x1,x2=x.chunk(2,dim=-1)returntorch.cat([-x2,x1],dim=-1)defapply_rotary_pos_emb(q,k,cos,sin):# cos, sin: (seq_len, dim) 预计算好的频率q_embed=(q*cos)+(rotate_half(q)*sin)k_embed=(k*cos)+(rotate_half(k)*sin)returnq_embed,k_embed

其中cos和sin根据位置和频率预计算，形状为(max_seq_len, dim)。

4.5 RoPE的优势

相对位置的内化：内积自然依赖于相对距离，模型对相对位置的感知更加直接。
良好的外推能力：通过调整推理时的频率缩放（如NTK-aware插值），RoPE可有效外推到训练长度数倍的序列。
与自注意力无缝融合：RoPE仅修改了(\mathbf{Q})和(\mathbf{K})的计算方式，不改变Transformer其他部分，易于集成。
保持向量模长：旋转是正交变换，不改变向量范数，有助于训练稳定性。

4.6 RoPE的变体与扩展

线性RoPE：调整频率基数为更大值（如500,000），使高频分量衰减更慢，改善长距离外推。
NTK-aware插值：在外推时，对高频维度进行非线性频率缩放，避免直接插值导致的性能下降。
YaRN：结合NTK插值与温度缩放，进一步提升极长上下文下的外推能力。

5. 位置编码的对比与选型

5.1 核心特性对比表

特性	绝对位置（正弦）	绝对位置（可学习）	相对位置偏置	RoPE	ALiBi
参数学习	无	有	有	无	无
长度外推能力	较弱	差（硬截断）	中等（受裁剪限制）	良好（配合插值）	优秀
对相对距离建模	间接	间接	直接	直接（内积中）	直接（线性偏置）
计算复杂度	低	低	中	中	极低
代表模型	Transformer原论文	BERT, GPT, GPT-2	T5, Transformer-XL	LLaMA, GPT-NeoX, PaLM	BLOOM

5.2 选型建议

NLU任务、训练长度固定：BERT式的可学习绝对位置嵌入足够，简单有效。
需要生成长文本、重视外推：RoPE是当前大模型首选，配合插值技术可外推至32k甚至100k上下文。
极致外推需求、算力受限：ALiBi几乎零成本且外推能力最强，适合长文档建模。
追求可解释性与理论优雅：RoPE通过复数旋转将相对位置编码内嵌，数学形式优美。

6. 代码实践：实现与对比

6.1 正弦绝对位置编码

importtorchimportmathdefsinusoidal_position_encoding(seq_len,d_model):pe=torch.zeros(seq_len,d_model)position=torch.arange(0,seq_len).unsqueeze(1)div_term=torch.exp(torch.arange(0,d_model,2)*-(math.log(10000.0)/d_model))pe[:,0::2]=torch.sin(position*div_term)pe[:,1::2]=torch.cos(position*div_term)returnpe

6.2 RoPE实现（简化版）

classRotaryPositionEmbedding(torch.nn.Module):def__init__(self,dim,max_seq_len=2048,base=10000):super().__init__()inv_freq=1.0/(base**(torch.arange(0,dim,2).float()/dim))t=torch.arange(max_seq_len).float()freqs=torch.einsum('i,j->ij',t,inv_freq)emb=torch.cat((freqs,freqs),dim=-1)self.register_buffer('cos',emb.cos())self.register_buffer('sin',emb.sin())defforward(self,q,k,seq_len):cos=self.cos[:seq_len,:].unsqueeze(0).unsqueeze(0)# (1, 1, seq_len, dim)sin=self.sin[:seq_len,:].unsqueeze(0).unsqueeze(0)q_embed=(q*cos)+(rotate_half(q)*sin)k_embed=(k*cos)+(rotate_half(k)*sin)returnq_embed,k_embed

6.3 ALiBi偏置生成

defget_alibi_slopes(num_heads):# 生成指数递减的斜率returntorch.tensor([2**(-8*i/num_heads)foriinrange(1,num_heads+1)])defapply_alibi(attn_scores,alibi_slopes,seq_len):# attn_scores: (batch, heads, seq_len, seq_len)distance=torch.arange(seq_len).unsqueeze(0)-torch.arange(seq_len).unsqueeze(1)distance=distance.abs().unsqueeze(0).unsqueeze(0)# (1, 1, seq_len, seq_len)alibi_bias=-alibi_slopes.view(-1,1,1)*distancereturnattn_scores+alibi_bias