从PyTorch Geometric实战出发：手把手教你用GAT和GraphSAGE搞定节点分类（附完整代码与调参心得）-编程阁

从PyTorch Geometric实战出发：手把手教你用GAT和GraphSAGE搞定节点分类（附完整代码与调参心得）

当学术论文中的图神经网络公式遇上真实数据集，很多工程师都会遇到这样的困境：明明理解了GAT的注意力机制和GraphSAGE的采样原理，却在PyTorch Geometric（PyG）的具体实现中频频踩坑。本文将带您用Cora数据集完整走通图节点分类的实战流程，对比两种模型的PyG实现差异，并分享从数据加载到超参调优的一线工程经验。

1. 环境配置与数据准备

在开始建模前，需要确保正确安装PyG及其依赖。建议使用conda创建虚拟环境避免版本冲突：

conda create -n pyg python=3.8 conda activate pyg pip install torch torch-geometric torch-scatter torch-sparse -f https://data.pyg.org/whl/torch-1.10.0+cu113.html

Cora数据集是图神经网络领域的"MNIST"，包含2708篇学术论文的引用关系，每篇论文用1433维的词袋向量表示特征，任务是将论文分类到7个类别。PyG内置了该数据集的一键加载接口：

from torch_geometric.datasets import Planetoid dataset = Planetoid(root='/tmp/Cora', name='Cora') data = dataset[0] # 获取图数据对象 print(f'节点数: {data.num_nodes}') # 2708 print(f'边数: {data.num_edges}') # 10556 print(f'特征维度: {data.num_features}') # 1433 print(f'类别数: {dataset.num_classes}') # 7

数据预处理环节需要注意三个关键点：

自循环处理：PyG不会自动添加自循环边，需要手动设置train_loader = DataLoader([data], batch_size=1)或使用AddSelfLoops变换
数据分割：Cora已预设了训练/验证/测试集掩码，通过data.train_mask访问
特征归一化：对稀疏的词袋特征建议使用NormalizeFeatures变换

2. GAT模型实现详解

图注意力网络(GAT)的核心在于多头注意力机制，PyG的GATConv层已经封装了完整实现。下面是一个支持多头的GAT模型定义：

import torch.nn as nn import torch.nn.functional as F from torch_geometric.nn import GATConv class GAT(nn.Module): def __init__(self, in_channels, hidden_channels, out_channels, heads=8): super().__init__() self.conv1 = GATConv(in_channels, hidden_channels, heads=heads) self.conv2 = GATConv(hidden_channels*heads, out_channels, heads=1) def forward(self, x, edge_index): x = F.dropout(x, p=0.6, training=self.training) x = self.conv1(x, edge_index) x = F.elu(x) x = F.dropout(x, p=0.6, training=self.training) x = self.conv2(x, edge_index) return F.log_softmax(x, dim=1)

关键实现细节：

注意力头拼接：第一层输出维度是hidden_channels*heads，第二层需要将多头结果合并
Dropout应用：不仅在网络层间使用，还应对注意力系数进行dropout（通过GATConv的attn_drop参数）
残差连接：深层GAT建议添加跳跃连接避免过平滑

训练过程中发现三个典型问题及解决方案：

问题现象	可能原因	解决方案
验证集准确率波动大	注意力系数不稳定	降低学习率或增加`attn_drop`
测试集表现差	过拟合	增加`hidden_channels`或减少`heads`
训练loss不下降	梯度消失	使用`LeakyReLU`代替`ELU`

3. GraphSAGE实战技巧

GraphSAGE通过邻居采样实现大规模图训练，PyG提供了NeighborLoader进行高效采样。以下是带均值聚合器的实现：

from torch_geometric.nn import SAGEConv from torch_geometric.loader import NeighborLoader class GraphSAGE(nn.Module): def __init__(self, in_channels, hidden_channels, out_channels): super().__init__() self.conv1 = SAGEConv(in_channels, hidden_channels, aggr='mean') self.conv2 = SAGEConv(hidden_channels, out_channels, aggr='mean') def forward(self, x, edge_index): x = self.conv1(x, edge_index) x = F.relu(x) x = F.dropout(x, p=0.5, training=self.training) x = self.conv2(x, edge_index) return F.log_softmax(x, dim=1) # 创建数据加载器 train_loader = NeighborLoader( data, num_neighbors=[15, 10], # 两阶采样数 batch_size=32, input_nodes=data.train_mask )

工程实践中总结的采样策略对比：

固定数量采样：每个节点采样固定数量邻居，适合均匀分布的图
随机游走采样：通过随机游走生成上下文，适合异构图
重要性采样：按度或PageRank加权采样，关键节点更多被保留

在Cora数据集上的实验表明，当使用num_neighbors=[15,10]时，模型能在训练效率和准确性间取得最佳平衡（测试准确率约78%）。值得注意的是，过深的采样（如K>3）会导致准确率下降约5%，这与过平滑现象有关。

4. 超参数调优方法论

两种模型的调优重点有所不同，但都可以遵循以下流程：

学习率预热：初始学习率设为0.01，前5个epoch线性增加到目标值
早停机制：当验证集loss连续10轮不下降时终止训练
网格搜索顺序：
- 先调hidden_dim（范围64-512）
- 再调dropout率（0.3-0.7）
- 最后调attention heads或采样数

实验记录的部分超参组合效果：