Netty 堆外内存泄露排查实录：从 DirectByteBuffer 到 Linux 物理内存，我是如何找回丢失的 8GB？-编程阁

标签：#Netty #内存泄露 #JVM调优 #DirectByteBuffer #Linux #故障排查

🚨 一、案发现场：诡异的 OOM

时间：凌晨 03:00
报警：生产环境某 API 网关节点（配置 4C 16G）内存使用率超过 95%，随后服务不可用。
现场：
重启服务后，观察监控，发现内存呈现“线性增长”的趋势，每小时增长约 500MB，直到撑爆物理内存。

JVM 配置：

-Xmx4g -Xms4g -XX:MaxDirectMemorySize=8g

怪象：

使用jstat -gcutil <pid> 1000观察，堆内存 (Heap)使用率非常健康，Old 区长期稳定在 30%。
使用top命令查看，进程的RES (物理内存)却高达 12GB。
计算题：12GB (RES) - 4GB (Heap) - 256MB (Metaspace) ≈7.7GB 的黑洞！

这 7.7GB 到底是啥？直觉告诉我们：Netty 的堆外内存漏了。

🧬 二、嫌疑人画像：JVM 内存布局

在排查前，必须搞清楚 Java 进程的内存由哪几部分组成。

内存分布图 (Mermaid):

显然，我们的嫌疑人锁定在Direct Memory区域。

🔍 三、第一轮排查：NMT 与 Netty 自检

1. 使用 NMT (Native Memory Tracking)

JVM 自带的 NMT 是排查堆外内存的第一把手术刀。
(注意：需在启动参数添加-XX:NativeMemoryTracking=detail)

jcmd<pid>VM.native_memory summary

输出结果（截取）：

Total: reserved=14GB, committed=13GB - Java Heap (reserved=4GB, committed=4GB) - Internal (reserved=8.5GB, committed=8.5GB) <--- 异常点！

NMT 经常把 DirectBuffer 归类为Internal或Other，这确认了是堆外问题，但不知道具体是哪行代码漏的。

2. 祭出 Netty 的核武器：ResourceLeakDetector

Netty 内置了一个极其强大的内存泄露检测器。它利用PhantomReference（虚引用）来追踪ByteBuf是否被垃圾回收，但在回收前没有调用release()。

操作步骤：
修改启动参数，将检测级别调至最高（生产环境慎用，有性能损耗，但为了查 Bug 值得）：

-Dio.netty.leakDetection.level=PARANOID

重启并压测后，日志里出现了令人兴奋的红字：

LEAK: ByteBuf.release() was not called before it's garbage-collected. See https://netty.io/wiki/reference-counted-objects.html for more information. Recent access records: ... Created at: io.netty.buffer.PooledByteBufAllocator.newDirectBuffer(PooledByteBufAllocator.java:331) ... com.company.gateway.filter.AuthFilter.channelRead(AuthFilter.java:45) <--- 凶手！

🕵️‍♂️ 四、抓捕凶手：代码审计

日志明确指向了AuthFilter.java的第 45 行。我们来看代码。

Bug 代码示例：

publicclassAuthFilterextendsChannelInboundHandlerAdapter{@OverridepublicvoidchannelRead(ChannelHandlerContextctx,Objectmsg){ByteBufbuf=(ByteBuf)msg;if(checkToken(buf)){// 校验通过，传给下一个 Handlerctx.fireChannelRead(msg);}else{// ❌ 校验失败，打印日志，直接返回// 致命错误：这里中断了传递，但没有释放 buf！log.warn("Auth failed");// 应该在这里调用 ReferenceCountUtil.release(msg);}}}

原理解析：
在 Netty 中，ByteBuf是引用计数的。

如果是SimpleChannelInboundHandler，它会自动帮你release。
如果是ChannelInboundHandlerAdapter（如上例），你必须手动负责释放。
如果你既不ctx.fireChannelRead(msg)往下传（下游会释放），也不手动release()，这个 DirectByteBuffer 对应的堆外内存就永远不会被归还给操作系统。

修复后的代码：

}else{try{log.warn("Auth failed");}finally{// ✅ 必须手动释放！ReferenceCountUtil.release(msg);}}

🔬 五、深度追问：为什么 GC 没回收它？

很多同学有疑问：“Java 对象回收了，它引用的堆外内存不就自动释放了吗？”

这是一个经典的误区。

DirectByteBuffer 的结构：
它在 Java 堆里只是一个很小的“壳”（Wrapper Object），可能只有几十字节。但它底层引用的 Native Memory 可能高达几 MB。
GC 的惰性：
由于 Java 堆里的这个“壳”太小了，根本触发不了 Young GC，更别提 Full GC。
结果：
JVM 觉得：“堆内存还很空啊，我不急着 GC。”
OS 怒吼：“物理内存都快爆了，你还在睡！”

这就是为什么我们不仅要依赖 GC，更要依赖 Netty 的Reference Counting（引用计数）机制来显式归还内存。

🚀 六、避坑指南与总结

这次 8GB 内存找回之旅，给我们留下了宝贵的经验：

Handler 选择：能用SimpleChannelInboundHandler就别用ChannelInboundHandlerAdapter，除非你非常清楚自己在做什么。
异常路径：90% 的内存泄露都发生在if-else的异常分支或try-catch块中，一定要检查所有路径是否都释放了资源。
监控常驻：

生产环境建议开启-Dio.netty.leakDetection.level=SIMPLE（采样检测）。
关注DirectMemory指标（可通过 Micrometer/Prometheus 监控）。

工具链：

jstat：看堆。
NMT：看 JVM 内部。
Netty Leak Detector：看 ByteBuf。
pmap/gdb：看 Linux 物理内存段（终极手段）。

Next Step:
去检查你项目中所有的 Netty Handler，搜索ChannelInboundHandlerAdapter，看看有没有被吞掉的msg。这可能就是你服务器莫名 OOM 的元凶。

Netty 堆外内存泄露排查实录：从 DirectByteBuffer 到 Linux 物理内存，我是如何找回丢失的 8GB？

🚨 一、案发现场：诡异的 OOM

🧬 二、嫌疑人画像：JVM 内存布局

🔍 三、第一轮排查：NMT 与 Netty 自检

1. 使用 NMT (Native Memory Tracking)

2. 祭出 Netty 的核武器：ResourceLeakDetector

🕵️‍♂️ 四、抓捕凶手：代码审计

🔬 五、深度追问：为什么 GC 没回收它？

🚀 六、避坑指南与总结

OneMore插件终极指南：快速上手与进阶应用全解析

Java 程序员的 Rust 进阶：用 Rust 重写 Spring Gateway 网关的核心过滤器，性能提升 300%

GLM-4.6V-Flash-WEB如何提效？GPU算力适配优化教程

告别手动计算！AI秒出QQ账号估值报告

从0到1：用Qwen2.5-0.5B-Instruct实现你的第一个AI应用

Qwen3-4B避坑指南：vLLM部署常见问题解决方案

🚨 一、 案发现场：诡异的 OOM

🧬 二、 嫌疑人画像：JVM 内存布局

🔍 三、 第一轮排查：NMT 与 Netty 自检

1. 使用 NMT (Native Memory Tracking)

2. 祭出 Netty 的核武器：ResourceLeakDetector

🕵️‍♂️ 四、 抓捕凶手：代码审计

🔬 五、 深度追问：为什么 GC 没回收它？

🚀 六、 避坑指南与总结

OneMore插件终极指南：快速上手与进阶应用全解析

Java 程序员的 Rust 进阶：用 Rust 重写 Spring Gateway 网关的核心过滤器，性能提升 300%

GLM-4.6V-Flash-WEB如何提效？GPU算力适配优化教程

告别手动计算！AI秒出QQ账号估值报告

从0到1：用Qwen2.5-0.5B-Instruct实现你的第一个AI应用

Qwen3-4B避坑指南：vLLM部署常见问题解决方案

🚨 一、案发现场：诡异的 OOM

🧬 二、嫌疑人画像：JVM 内存布局

🔍 三、第一轮排查：NMT 与 Netty 自检

🕵️‍♂️ 四、抓捕凶手：代码审计

🔬 五、深度追问：为什么 GC 没回收它？

🚀 六、避坑指南与总结