AXI DMA驱动开发：手把手教程（从零实现）-编程阁

AXI DMA驱动开发：从零构建高性能数据通路

你有没有遇到过这样的场景？FPGA采集的数据流如洪水般涌来，CPU却在忙于复制内存、处理中断，几乎喘不过气。图像帧开始丢弃，传感器采样出现断层——系统瓶颈不在逻辑设计，而在数据如何高效进出DDR。

这正是AXI DMA存在的意义。它不是简单的“搬砖工”，而是嵌入式系统中实现零拷贝、高吞吐、低延迟数据传输的核心引擎。本文将带你从底层原理到代码实践，一步步搭建一个完整的AXI DMA驱动框架，不跳过任何关键细节。

我们不会停留在“调用API就行”的表面层次，而是深入寄存器、握手机制与内存管理的每一环，让你真正掌握Zynq平台下高性能数据通路的设计主动权。

为什么传统方式扛不住高速数据流？

先来看一个真实痛点：假设你在做一款工业相机，CMOS传感器以120fps输出1080p RGB图像，每秒产生约370MB原始像素数据。如果采用CPU轮询方式读取PL端FIFO：

while (1) { while (!fifo_empty()) { pixel = read_fifo(); buffer[idx++] = pixel; // 每个像素都由CPU搬运 } }

这种PIO（Programmed I/O）模式下，CPU不仅要处理中断上下文切换，还得逐字节移动数据。即使使用memcpy优化，也会因频繁访问非缓存内存而导致总线拥塞。

结果就是：
- CPU占用率飙升至80%以上
- 帧间延迟抖动严重
- 稍有并发任务就会丢帧

出路在哪？答案是——把数据搬运这件事，彻底交给硬件。

AXI DMA 是怎么做到“让CPU解放双手”的？

Xilinx的AXI DMA IP核，本质上是一个运行在PL中的专用协处理器。它的核心思想是：你告诉它“去哪拿数据”、“写到哪块内存”、“多大长度”，然后它自己干完活再喊你。

它长什么样？双通道架构解析

AXI DMA内部包含两个独立通道：

通道	方向	典型用途
MM2S	Memory-to-Stream	把DDR里的配置/视频帧发给FPGA处理
S2MM	Stream-to-Memory	将ADC采样、摄像头数据写回内存

这两个通道可以同时工作，构成全双工通信链路。比如一边上传算法参数（MM2S），一边下载处理结果（S2MM）。

更关键的是，它基于AMBA AXI4协议，支持突发传输（Burst Transfer）、QoS优先级和最大64KB单次传输长度，理论带宽轻松突破1GB/s——这对视频、雷达等大数据量应用至关重要。

握手的艺术：AXI-Stream 如何保证数据不溢出？

DMA能跑得快，离不开前端的数据源遵循标准协议。在Zynq系统中，这个角色通常由AXI-Stream承担。

别被名字吓到，其实它的机制非常直观：主设备说“我有数据”，从设备说“我准备好了”，两者同时点头，才算完成一次有效传输。

// 关键信号三要素 output reg m_axis_tvalid; // 我的数据有效！ input m_axis_tready; // 你准备好接收了吗？ output reg [31:0] m_axis_tdata; // 这是我的数据 output reg m_axis_tlast; // 最后一个了哦

只有当tvalid == 1 && tready == 1时，当前tdata才会被接收方采样。这种握手机制天然支持背压（Backpressure），哪怕下游暂时忙不过来，上游也能自动暂停，避免数据丢失。

举个例子：你的ADC模块每秒生成50M个样本，但DMA正在处理上一帧图像。这时只要S2MM通道没准备好，tready就保持低电平，ADC自然会停下来等待——整个过程无需CPU干预。

实战第一步：为DMA分配一块“安全区”内存

Linux内核管理的是虚拟地址空间，而DMA控制器只能看到物理地址。更要命的是，默认分配的内存虽然虚拟连续，但物理页可能是分散的。一旦DMA跨页跳转，轻则数据错乱，重则系统崩溃。

所以第一步，我们必须拿到一段物理连续且缓存一致的内存区域。

#include <linux/dma-mapping.h> static void *rx_buffer; static dma_addr_t rx_phys_addr; // 分配2MB物理连续内存 rx_buffer = dma_alloc_coherent(NULL, 2 << 20, &rx_phys_addr, GFP_KERNEL); if (!rx_buffer) { dev_err(dev, "Failed to allocate coherent DMA buffer\n"); return -ENOMEM; } printk("Buffer: virtual=%p, physical=%pa\n", rx_buffer, &rx_phys_addr);

这里的关键函数是dma_alloc_coherent()，它不仅帮你搞定物理连续性，还会禁用这段内存的Cache策略，防止CPU和DMA看到不同版本的数据（即缓存一致性问题）。

⚠️ 注意：不要用 kmalloc 或 vmalloc！它们无法保证物理连续。

核心机制揭秘：描述符（BD）是如何驱动DMA工作的？

如果说DMA是一列火车，那么描述符（Buffer Descriptor, BD）就是它的行车路线图。每个BD记录了这次运输的关键信息：

源地址 / 目标地址
数据长度
控制标志（是否首帧、末帧）
下一站指针（用于链式传输）

这些BD组织成环形队列（Ring Buffer），提交给DMA控制器后，它就会按顺序自动执行，直到全部完成。

初始化S2MM通道：从零开始配置BD环

XAxiDma_BdRing *rx_ring = XAxiDma_GetRxRing(&axi_dma); // 设置中断合并：每接收到1帧才触发一次中断 XAxiDma_BdRingSetCoalesce(rx_ring, 1, 0); // 清空旧环并分配新的BD数组 XAxiDma_BdRingFree(rx_ring, rx_ring->MaxNumBd); XAxiDma_Bd *bd_list = XAxiDma_BdRingAlloc(rx_ring, NUM_BDS); if (!bd_list) return -ENOMEM; // 填充每个BD for (int i = 0; i < NUM_BDS; i++) { dma_addr_t buf_addr = rx_phys_addr + i * BUFFER_SIZE_PER_FRAME; XAxiDma_BdClear(bd_list + i); XAxiDma_BdWrite(bd_list + i, XAXIDMA_BD_BUFA_OFFSET, buf_addr); XAxiDma_BdSetLength(bd_list + i, BUFFER_SIZE_PER_FRAME, rx_ring->MaxTransferLen); XAxiDma_BdSetCtrl(bd_list + i, 0); // 清除控制位 XAxiDma_BdSetId(bd_list + i, buf_addr); // ID设为物理地址便于追踪 } // 提交BD到硬件，并启动引擎 XAxiDma_BdRingToHw(rx_ring, NUM_BDS, bd_list); XAxiDma_BdRingStart(rx_ring);

这段代码做了几件重要的事：
1. 使用SetCoalesce(1)实现“每帧中断一次”，避免中断风暴；
2. 构建多个缓冲区轮流接收，形成循环采集模式；
3. 启动后DMA进入自主运行状态，CPU可以去做别的事。

高阶玩法：Scatter-Gather 让系统效率翻倍

普通DMA每次只能处理一个缓冲区，填满就得停下等CPU处理。但在实时系统中，CPU可能正在执行高优先级任务，导致后续数据来不及提交而丢失。

Scatter-Gather模式解决了这个问题。它允许你一次性提交多个非连续缓冲区的描述符，形成链表或环形结构。DMA依次写入各个缓冲，全程无需CPU插手。

循环BD环：实现无限长度数据采集

// 配置为循环模式，最后一个完成后自动回到第一个 status = XAxiDma_BdRingEnableCyclicTransfer(rx_ring); if (status != XST_SUCCESS) { dev_err(dev, "Failed to enable cyclic mode\n"); return -EIO; }

启用该模式后，DMA就像永动机一样持续写入缓冲区。CPU可以在后台慢慢处理已满的帧，完全不用担心新数据覆盖旧数据。

✅ 应用场景：长时间录波、视频录制、传感器日志存储

中断来了怎么办？正确处理完成事件

当DMA完成一个描述符的传输后，会通过IRQ向CPU发出通知。你需要注册中断处理程序来响应：

static irqreturn_t s2mm_irq_handler(int irq, void *dev_id) { XAxiDma_BdRing *rx_ring = (XAxiDma_BdRing *)dev_id; int bd_done_count; XAxiDma_Bd *bd_ptr; // 查询已完成的BD数量 bd_done_count = XAxiDma_BdRingFromHw(rx_ring, XAXIDMA_ALL_BDS, &bd_ptr); if (bd_done_count > 0) { // 遍历已完成的BD，进行数据处理或重新入队 while (bd_done_count--) { dma_addr_t phys_addr = XAxiDma_BdGetId(bd_ptr); void *virt_addr = rx_buffer + (phys_addr - rx_phys_addr); // 通知用户空间数据就绪（可通过等待队列唤醒） wake_up_interruptible(&data_ready_wq); // 处理完毕后释放BD，重新提交以继续接收 XAxiDma_BdRingUnmap(rx_ring, 1, bd_ptr); XAxiDma_BdRingToHw(rx_ring, 1, bd_ptr); bd_ptr = XAxiDma_BdRingNext(rx_ring, bd_ptr); } } return IRQ_HANDLED; }

几个要点：
- 调用BdRingFromHw()获取已完成的BD列表；
- 使用wake_up_interruptible()唤醒阻塞的应用程序；
- 及时将BD重新放回硬件环，否则DMA会在最后一个完成后停止。

开发避坑指南：那些手册不会明说的经验

❌ 坑点1：忘记刷新Cache，读到的是脏数据

即使你成功收到了DMA数据，如果直接在应用层读取，可能会发现内容不对。原因往往是L1/L2 Cache中还存着旧副本。

✅ 正确做法：在CPU访问前同步Cache

// 在中断中通知CPU即将读取DMA缓冲 dma_sync_single_for_cpu(&pdev->dev, buf_addr, size, DMA_FROM_DEVICE); // 用户处理完数据后，准备再次用于DMA接收 dma_sync_single_for_device(&pdev->dev, buf_addr, size, DMA_FROM_DEVICE);

❌ 坑点2：中断太频繁，CPU陷入“中断地狱”

如果你设置成每收到一个字节就中断一次，系统很快会被打断得无法正常运行。

✅ 解决方案：合理配置中断合并（Interrupt Coalescing）

// 每完成10帧或累计时间达1ms才中断一次 XAxiDma_BdRingSetCoalesce(rx_ring, 10, 1000);

根据实际负载调整阈值，在延迟和CPU开销之间取得平衡。

❌ 坑点3：时钟域不匹配，导致握手失败

AXI DMA IP需要接入两个时钟：
-s_axi_lite_aclk：用于配置寄存器（通常来自PS）
-m_axi_mm2s_axi_aclk：用于数据传输（可来自PL自定义时钟）

若这两个时钟频率差异过大或相位不稳定，可能导致数据采样错误。

✅ 建议：尽量使用PS提供的固定时钟（如FCLK_CLK0），或在跨时钟域路径插入CDC FIFO。

综合案例：构建一个图像采集驱动骨架

结合上述所有知识点，我们可以写出一个简化的驱动模板：

static int image_dma_probe(struct platform_device *pdev) { struct axidma_dev *dev; int ret; dev = devm_kzalloc(&pdev->dev, sizeof(*dev), GFP_KERNEL); // 1. 映射DMA寄存器 dev->regs = devm_platform_ioremap_resource(pdev, 0); // 2. 分配DMA缓冲 dev->buffer = dma_alloc_coherent(&pdev->dev, TOTAL_SIZE, &dev->buf_phys, GFP_KERNEL); // 3. 初始化BD环 setup_sg_ring(XAxiDma_GetRxRing(&dev->axi_dma), NUM_FRAMES); // 4. 请求中断 ret = devm_request_irq(&pdev->dev, dev->irq, s2mm_irq_handler, 0, "image_dma", dev); // 5. 启动DMA XAxiDma_BdRingStart(XAxiDma_GetRxRing(&dev->axi_dma)); platform_set_drvdata(pdev, dev); return 0; }

用户空间可通过字符设备接口读取数据：

static ssize_t image_read(struct file *filp, char __user *buf, size_t len, loff_t *off) { wait_event_interruptible(data_ready_wq, atomic_read(&frames_avail) > 0); copy_to_user(buf, current_frame_vaddr, FRAME_SIZE); atomic_dec(&frames_avail); return FRAME_SIZE; }