稀疏矩阵计算与近内存计算优化实践-编程阁

1. 稀疏矩阵计算与近内存计算技术背景

稀疏矩阵向量乘法（SpMV）作为图计算和科学计算中的基础操作，其性能直接影响着从社交网络分析到推荐系统等众多应用的效率。传统计算架构中，SpMV操作往往受限于"内存墙"问题——处理器需要频繁从内存中读取稀疏矩阵的非零元素和向量数据，导致计算单元大量时间处于等待状态。以典型的图算法PageRank为例，其90%以上的执行时间都消耗在SpMV操作上。

近内存计算（Processing-In-Memory, PIM）技术通过将计算单元直接嵌入内存控制器或DRAM芯片内部，从根本上改变了这一局面。UPMEM PIM系统作为当前唯一商业化量产的DRAM-PIM解决方案，其每个DIMM模块集成多达2048个数据处理单元（DPU），每个DPU具备：

64MB独立MRAM工作内存
24个硬件线程上下文
单周期指令发射的RISC流水线
专用DMA引擎实现与主存的数据交换

这种架构使得SpMV这类内存密集型计算可以完全在内存内部完成，实测带宽可达传统DDR4系统的8倍以上。但要将理论优势转化为实际性能，需要深入理解PIM架构的特性约束。

关键认知：PIM不是简单的"将CPU放入内存"，其编程模型、内存 hierarchy和同步机制都与传统架构有本质区别。直接移植现有算法往往无法发挥硬件潜力。

2. UPMEM PIM架构深度解析

2.1 硬件组成与内存层次

UPMEM PIM系统的每个DPU包含三级存储结构：

MRAM工作内存：64MB容量，延迟约100周期，作为主工作区存放矩阵分区和中间结果
WRAM暂存器：16KB软件管理缓存，用于寄存器和临时变量存储
DMA缓冲区：专用于与主存交换数据的双缓冲区域

这种设计带来两个关键约束：

没有硬件缓存，所有数据局部性需显式管理
DPU间无直接通信，数据交换必须通过主机内存中转

2.2 执行模型特性

每个DPU的24个硬件线程采用"Revolver"调度策略：

每11个周期才可发射同一线程的下条指令
线程间无优先级，严格轮转调度
内存访问延迟可通过线程级并行隐藏

这种设计对SpMV的影响体现在：

// 典型DPU内核线程调度模式 for(int i=0; i<row_len; i+=24) { // 每个线程处理一个非零元素 float val = matrix[i + thread_id]; int col = columns[i + thread_id]; atomicAdd(&output[col], val * input[col]); }

实际测试显示，由于原子操作竞争和线程调度间隔，此类简单实现仅能利用DPU理论算力的15%-20%。

3. 稀疏矩阵格式优化策略

3.1 传统格式在PIM上的适应性分析

我们在UPMEM系统上对比了四种经典稀疏矩阵格式：

格式	存储结构	PIM适配优势	主要缺陷
COO	(行,列,值)三元组	实现简单	合并输出时原子竞争严重
CSR	行偏移+列索引	适合行分割	负载不均衡
CSC	列偏移+行索引	适合SpMSpV	随机写入冲突
ELL	固定行长度	向量化友好	零填充开销大

测试数据显示，在输入向量密度1%时，CSC格式相比COO有1.8倍加速，但随着密度升至50%，优势下降至1.2倍。这表明需要更精细的格式优化。

3.2 CSC-2D混合分区策略

我们提出CSC-2D格式，结合了列分区和二维块划分：

将矩阵划分为KxK的块（K=√DPU数量）
每个DPU负责一个块列中的所有非零元素
在块内部采用CSC存储，保持列局部性

实现代码示例：

void spmv_csc2d(DPU_ARGS) { int block_id = dpu_id / K; int start_col = block_id * (cols / K); for(int c=0; c<cols/K; c++) { if(input[start_col + c] == 0) continue; for(int p=ptr[c]; p<ptr[c+1]; p++) { int row = rows[p]; int target_dpu = (row / (rows/K)) * K + block_id; if(target_dpu == dpu_id) { output[row] += values[p] * input[start_col + c]; } } } }

该策略在2048个DPU上测试，相比原生CSC格式：

BFS算法减少38%的合并开销
在web-Google数据集上达到2.3倍加速

4. 输入密度自适应的SpMSpV优化

4.1 动态内核选择机制

稀疏矩阵稀疏向量乘法（SpMSpV）根据输入向量密度表现出不同特性：

低密度（<1%）：输出稀疏，适合原子更新
中密度（1-30%）：部分稠密，需混合策略
高密度（>30%）：接近SpMV，适合批量处理

我们实现动态调度器：

def select_kernel(input_density): if input_density < 0.01: return AtomicSpMSpVKernel elif 0.01 <= input_density < 0.3: return HybridSpMSpVKernel else: return BatchedSpMVKernel

4.2 密度感知的任务分配

针对不同密度调整DPU负载：

低密度时，采用工作窃取（Work Stealing）平衡负载
高密度时，静态划分保证数据局部性
中间状态使用动态阈值调整：

if(active_columns < THRESHOLD) { enable_work_stealing(); } else { use_static_partition(); }

实测在1%密度下，该策略将DPU利用率从45%提升至72%。

5. 与CPU/GPU的性能对比

5.1 实验配置

测试平台对比：

系统	Intel i7-1265U	RTX 3050	UPMEM-PIM
核心	10核(12线程)	2560 CUDA核心	2048 DPU
内存	64GB DDR4	8GB GDDR6	128GB+2048DPU
峰值算力	647 GFLOPS	9.1 TFLOPS	4.66 GFLOPS

测试数据集选用SNAP标准图数据集：

web-Google (916K节点, 5.1M边)
soc-LiveJournal (4.8M节点, 69M边)
road_usa (24M节点, 58M边)

5.2 性能指标分析

三种系统在不同算法上的表现：

算法	指标	CPU	GPU	UPMEM(仅内核)	UPMEM(总时间)
BFS	时间(ms)	541.1	7.08	76.6	241.1
能效(J)	17.3	0.14	35.6	111.9
SSSP	时间(ms)	1900	12.7	62.7	340
能效(J)	57.2	0.25	29.1	158
PPR	时间(ms)	216	18.2	78.5	196.2
能效(J)	7.25	0.35	36.6	91.0

关键发现：

UPMEM在SSSP上内核加速比达48.8倍，但总时间受限于数据迁移
计算利用率（实际/峰值算力）方面：
- CPU/GPU仅0.01-0.05%
- UPMEM达6.4-31.8%，证明PIM更平衡
能效比在中等规模图上优于CPU

6. 深度性能瓶颈分析

6.1 DPU执行周期分解

使用PIMulator工具采集的DPU流水线状态：

主要瓶颈来源：

内存等待（灰色）：占35-50%周期，因MRAM高延迟
Revolver闲置（浅蓝）：线程调度间隔导致20-30%浪费
寄存器冲突（深蓝）：原子操作引发结构性冒险

6.2 指令混合分析

SpMV与SpMSpV的指令类型分布对比：

指令类型	SpMV占比	SpMSpV(1%)占比	SpMSpV(50%)占比
算术运算	42%	28%	35%
分支	15%	18%	16%
同步	8%	22%	14%
内存访问	35%	32%	35%

可见低密度SpMSpV中同步开销尤为显著，主要来自：

lock mutex[col] // 获取列锁 add output[col], val // 原子更新 unlock mutex[col] // 释放锁

实测显示每个互斥锁操作消耗约150周期。

7. 优化建议与实战技巧

7.1 软件层优化方案

双缓冲DMA重叠计算：

// 流水线化数据传输 for(int i=0; i<iterations; i++) { dma_push(buffer[i%2]); // 上传i批次数据 process_buffer((i+1)%2); // 处理i+1批次 dma_pull(results[i%2]); // 下载i-1批次结果 }

实测可隐藏60-70%的数据传输延迟。

基于密度的动态批处理：

def dynamic_batching(rows): if density(rows) < 0.1: return fine_grain_task(rows) else: return bulk_process(rows)

7.2 硬件改进方向

Revolver流水线优化：
- 增加指令转发通道，减少调度间隔
- 支持非阻塞内存操作
DPU间通信：
- 添加近邻网络支持直接数据交换
- 实现硬件屏障同步
浮点运算单元：
- 添加专用FPU提升计算密度
- 支持SIMD向量化指令

8. 实际部署经验

在部署ALPHA-PIM框架时获得的实战经验：

数据预处理：

# 矩阵分区工具使用示例 ./matrix_partitioner -input web-Google.mtx \ -format CSC-2D \ -dpus 2048 \ -output partitioned/

重要提示：分区时间可能占全流程30%，需离线预处理

性能调优步骤：
1. 使用upmem_profiler采集DPU利用率
2. 调整DPU_WORKLOAD_FACTOR平衡负载
3. 用-DUSE_ATOMIC=0关闭原子操作验证正确性
常见问题排查：
- 症状：DPU利用率低于40%检查：输入数据分区均衡性，使用balance_checker工具
- 症状：结果错误检查：原子操作作用域，建议添加-DDEBUG_ATOMIC标志