news 2026/4/16 12:48:56

Netty 堆外内存泄露排查实录:从 DirectByteBuffer 到 Linux 物理内存,我是如何找回丢失的 8GB?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Netty 堆外内存泄露排查实录:从 DirectByteBuffer 到 Linux 物理内存,我是如何找回丢失的 8GB?

标签:#Netty #内存泄露 #JVM调优 #DirectByteBuffer #Linux #故障排查


🚨 一、 案发现场:诡异的 OOM

时间:凌晨 03:00
报警:生产环境某 API 网关节点(配置 4C 16G)内存使用率超过 95%,随后服务不可用。
现场
重启服务后,观察监控,发现内存呈现“线性增长”的趋势,每小时增长约 500MB,直到撑爆物理内存。

JVM 配置:

-Xmx4g -Xms4g -XX:MaxDirectMemorySize=8g

怪象:

  1. 使用jstat -gcutil <pid> 1000观察,堆内存 (Heap)使用率非常健康,Old 区长期稳定在 30%。
  2. 使用top命令查看,进程的RES (物理内存)却高达 12GB。
  3. 计算题:12GB (RES) - 4GB (Heap) - 256MB (Metaspace) ≈7.7GB 的黑洞!

这 7.7GB 到底是啥?直觉告诉我们:Netty 的堆外内存漏了。


🧬 二、 嫌疑人画像:JVM 内存布局

在排查前,必须搞清楚 Java 进程的内存由哪几部分组成。

内存分布图 (Mermaid):

堆外区 (Off-Heap)

JVM 管理区

Java 进程 (OS 视角)

堆内存 (Heap)

非堆 (Metaspace, CodeCache)

DirectByteBuffer (NIO/Netty)

MappedByteBuffer (mmap)

JNI / Thread Stacks / GC Overhead

glibc 内存分配器 (Arena)

显然,我们的嫌疑人锁定在Direct Memory区域。


🔍 三、 第一轮排查:NMT 与 Netty 自检

1. 使用 NMT (Native Memory Tracking)

JVM 自带的 NMT 是排查堆外内存的第一把手术刀。
(注意:需在启动参数添加-XX:NativeMemoryTracking=detail)

jcmd<pid>VM.native_memory summary

输出结果(截取):

Total: reserved=14GB, committed=13GB - Java Heap (reserved=4GB, committed=4GB) - Internal (reserved=8.5GB, committed=8.5GB) <--- 异常点!

NMT 经常把 DirectBuffer 归类为InternalOther,这确认了是堆外问题,但不知道具体是哪行代码漏的。

2. 祭出 Netty 的核武器:ResourceLeakDetector

Netty 内置了一个极其强大的内存泄露检测器。它利用PhantomReference(虚引用)来追踪ByteBuf是否被垃圾回收,但在回收前没有调用release()

操作步骤:
修改启动参数,将检测级别调至最高(生产环境慎用,有性能损耗,但为了查 Bug 值得):

-Dio.netty.leakDetection.level=PARANOID

重启并压测后,日志里出现了令人兴奋的红字:

LEAK: ByteBuf.release() was not called before it's garbage-collected. See https://netty.io/wiki/reference-counted-objects.html for more information. Recent access records: ... Created at: io.netty.buffer.PooledByteBufAllocator.newDirectBuffer(PooledByteBufAllocator.java:331) ... com.company.gateway.filter.AuthFilter.channelRead(AuthFilter.java:45) <--- 凶手!

🕵️‍♂️ 四、 抓捕凶手:代码审计

日志明确指向了AuthFilter.java的第 45 行。我们来看代码。

Bug 代码示例:

publicclassAuthFilterextendsChannelInboundHandlerAdapter{@OverridepublicvoidchannelRead(ChannelHandlerContextctx,Objectmsg){ByteBufbuf=(ByteBuf)msg;if(checkToken(buf)){// 校验通过,传给下一个 Handlerctx.fireChannelRead(msg);}else{// ❌ 校验失败,打印日志,直接返回// 致命错误:这里中断了传递,但没有释放 buf!log.warn("Auth failed");// 应该在这里调用 ReferenceCountUtil.release(msg);}}}

原理解析:
在 Netty 中,ByteBuf是引用计数的。

  • 如果是SimpleChannelInboundHandler,它会自动帮你release
  • 如果是ChannelInboundHandlerAdapter(如上例),你必须手动负责释放
  • 如果你既不ctx.fireChannelRead(msg)往下传(下游会释放),也不手动release(),这个 DirectByteBuffer 对应的堆外内存就永远不会被归还给操作系统。

修复后的代码:

}else{try{log.warn("Auth failed");}finally{// ✅ 必须手动释放!ReferenceCountUtil.release(msg);}}

🔬 五、 深度追问:为什么 GC 没回收它?

很多同学有疑问:“Java 对象回收了,它引用的堆外内存不就自动释放了吗?”

这是一个经典的误区。

  1. DirectByteBuffer 的结构
    它在 Java 堆里只是一个很小的“壳”(Wrapper Object),可能只有几十字节。但它底层引用的 Native Memory 可能高达几 MB。
  2. GC 的惰性
    由于 Java 堆里的这个“壳”太小了,根本触发不了 Young GC,更别提 Full GC。
  3. 结果
    JVM 觉得:“堆内存还很空啊,我不急着 GC。”
    OS 怒吼:“物理内存都快爆了,你还在睡!”

这就是为什么我们不仅要依赖 GC,更要依赖 Netty 的Reference Counting(引用计数)机制来显式归还内存。


🚀 六、 避坑指南与总结

这次 8GB 内存找回之旅,给我们留下了宝贵的经验:

  1. Handler 选择:能用SimpleChannelInboundHandler就别用ChannelInboundHandlerAdapter,除非你非常清楚自己在做什么。
  2. 异常路径:90% 的内存泄露都发生在if-else的异常分支或try-catch块中,一定要检查所有路径是否都释放了资源。
  3. 监控常驻
  • 生产环境建议开启-Dio.netty.leakDetection.level=SIMPLE(采样检测)。
  • 关注DirectMemory指标(可通过 Micrometer/Prometheus 监控)。
  1. 工具链
  • jstat:看堆。
  • NMT:看 JVM 内部。
  • Netty Leak Detector:看 ByteBuf。
  • pmap/gdb:看 Linux 物理内存段(终极手段)。

Next Step:
去检查你项目中所有的 Netty Handler,搜索ChannelInboundHandlerAdapter,看看有没有被吞掉的msg。这可能就是你服务器莫名 OOM 的元凶。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/13 20:21:22

OneMore插件终极指南:快速上手与进阶应用全解析

OneMore插件终极指南&#xff1a;快速上手与进阶应用全解析 【免费下载链接】OneMore A OneNote add-in with simple, yet powerful and useful features 项目地址: https://gitcode.com/gh_mirrors/on/OneMore 还在为OneNote笔记杂乱无章而烦恼吗&#xff1f;OneMore插…

作者头像 李华
网站建设 2026/4/4 9:30:54

GLM-4.6V-Flash-WEB如何提效?GPU算力适配优化教程

GLM-4.6V-Flash-WEB如何提效&#xff1f;GPU算力适配优化教程 智谱最新开源&#xff0c;视觉大模型。 1. 背景与技术定位 1.1 视觉大模型的演进趋势 近年来&#xff0c;多模态大模型在图文理解、视觉问答&#xff08;VQA&#xff09;、图像描述生成等任务中展现出强大能力。G…

作者头像 李华
网站建设 2026/4/1 14:49:20

告别手动计算!AI秒出QQ账号估值报告

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 开发批量QQ账号评估系统&#xff0c;功能需求&#xff1a;1. 支持同时导入100QQ号 2. 自动分级分类&#xff08;普通/优质/极品&#xff09;3. 生成对比雷达图 4. 导出Excel评估报…

作者头像 李华
网站建设 2026/4/16 12:24:27

从0到1:用Qwen2.5-0.5B-Instruct实现你的第一个AI应用

从0到1&#xff1a;用Qwen2.5-0.5B-Instruct实现你的第一个AI应用 在大模型时代&#xff0c;构建一个属于自己的AI应用不再是遥不可及的梦想。随着阿里云开源 Qwen2.5-0.5B-Instruct 模型的发布&#xff0c;即使是资源有限的开发者&#xff0c;也能快速部署并运行一个高效、响…

作者头像 李华
网站建设 2026/4/9 2:35:02

Qwen3-4B避坑指南:vLLM部署常见问题解决方案

Qwen3-4B避坑指南&#xff1a;vLLM部署常见问题解决方案 1. 引言&#xff1a;为何需要这份避坑指南&#xff1f; 随着轻量级大模型在端侧和边缘设备的广泛应用&#xff0c;Qwen3-4B-Instruct-2507 凭借其40亿参数下的卓越性能、256K超长上下文支持以及出色的推理能力&#xf…

作者头像 李华