OOM内存溢出问题排查：Java和Go实战-编程阁

半夜收到告警：服务挂了，重启后又挂。

一看日志：OutOfMemoryError。

OOM是后端最头疼的问题之一，因为往往不是立刻暴露，而是慢慢积累，突然爆发。这篇整理一下排查思路。

OOM的常见类型

Java OOM

java.lang.OutOfMemoryError: Java heap space # 堆内存不足 java.lang.OutOfMemoryError: GC overhead limit exceeded # GC回收不了内存 java.lang.OutOfMemoryError: Metaspace # 元空间不足（类太多） java.lang.OutOfMemoryError: Unable to create new native thread # 线程太多 java.lang.OutOfMemoryError: Direct buffer memory # 直接内存不足

Go OOM

Go没有显式的OOM错误，但会被操作系统OOM Killer杀掉：

# dmesg查看dmesg|grep-i"out of memory"dmesg|grep-i"oom"# 输出# Out of memory: Killed process 12345 (your_app)

Java OOM排查

第一步：获取堆dump

方式一：JVM参数自动dump

# 启动参数加上-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/var/log/java/heapdump.hprof

OOM时自动生成dump文件。

方式二：手动dump

# 找到进程PIDjps -l# 生成dumpjmap -dump:format=b,file=heapdump.hprof<PID>

方式三：Arthas

# 启动Arthasjava -jar arthas-boot.jar# dump堆heapdump /tmp/heapdump.hprof

第二步：分析堆dump

工具一：MAT（Memory Analyzer Tool）

Eclipse MAT是最强大的堆分析工具。

1. 打开 heapdump.hprof 2. 选择 "Leak Suspects Report"（自动分析可能的泄漏点） 3. 查看 "Dominator Tree"（按内存占用排序） 4. 查看 "Histogram"（按类统计对象数量和大小）

工具二：VisualVM

# 启动VisualVMjvisualvm# File → Load → 选择hprof文件

工具三：jhat（命令行）

jhat -port7000heapdump.hprof# 浏览器打开 http://localhost:7000

常见Java OOM场景

1. 内存泄漏：集合只增不删

// 问题代码publicclassCache{privatestaticMap<String,Object>cache=newHashMap<>();publicvoidput(Stringkey,Objectvalue){cache.put(key,value);// 只增不删，内存迟早爆}}

MAT分析：HashMap占用几个G，里面有几百万个对象。

解决：

用LRU缓存替代
设置最大容量
使用WeakHashMap

// 修复privatestaticMap<String,Object>cache=newLinkedHashMap<String,Object>(10000,0.75f,true){@OverrideprotectedbooleanremoveEldestEntry(Map.Entry<String,Object>eldest){returnsize()>10000;// 超过1万自动淘汰}};

2. 大对象：一次性加载大量数据

// 问题代码publicList<Order>getAllOrders(){returnorderDao.selectAll();// 100万条数据全加载到内存}

解决：分页查询、流式处理

// 修复：流式查询publicvoidprocessAllOrders(Consumer<Order>consumer){try(Stream<Order>stream=orderDao.selectAllAsStream()){stream.forEach(consumer);}}

3. 线程泄漏

// 问题代码publicvoidhandleRequest(){newThread(()->{// 处理逻辑}).start();// 每个请求创建一个线程}

线程多了会报Unable to create new native thread。

解决：使用线程池

privatestaticExecutorServiceexecutor=Executors.newFixedThreadPool(100);publicvoidhandleRequest(){executor.submit(()->{// 处理逻辑});}

4. 连接泄漏

// 问题代码publicUsergetUser(intid){Connectionconn=dataSource.getConnection();// 查询...returnuser;// 没有close，连接泄漏}

解决：用try-with-resources

publicUsergetUser(intid){try(Connectionconn=dataSource.getConnection();PreparedStatementps=conn.prepareStatement("SELECT * FROM users WHERE id = ?")){ps.setInt(1,id);// ...}// 自动关闭}

实时监控

# 查看堆内存使用jstat -gc<PID>1000# S0C S1C S0U S1U EC EU OC OU MC MU ...# 1024.0 1024.0 0.0 512.0 8192.0 4096.0 20480.0 15360.0 ...# 查看GC情况jstat -gcutil<PID>1000# S0 S1 E O M CCS YGC YGCT FGC FGCT GCT# 0.00 50.00 50.12 75.00 95.23 92.12 123 2.345 456 89.123 91.468

O（老年代）持续增长且Full GC后不下降，基本就是内存泄漏。

Go OOM排查

Go没有堆dump这个概念，但有pprof。

第一步：开启pprof

import_"net/http/pprof"funcmain(){gofunc(){http.ListenAndServe(":6060",nil)}()// ...}

第二步：分析内存

方式一：命令行

# 查看当前内存分配go tool pprof http://localhost:6060/debug/pprof/heap(pprof)top10Showing nodes accountingfor1.5GB,90% of1.67GB total flat flat% sum% cum cum% 800MB47.90%47.90% 800MB47.90% main.leakyFunction 400MB23.95%71.86% 400MB23.95% bytes.makeSlice...(pprof)list leakyFunction# 显示代码级别的内存分配

方式二：Web界面

go tool pprof -http=:8080 http://localhost:6060/debug/pprof/heap# 浏览器打开，可视化分析

方式三：对比两个时间点

# 先保存一份curl-o heap1.out http://localhost:6060/debug/pprof/heap# 过一段时间再保存curl-o heap2.out http://localhost:6060/debug/pprof/heap# 对比go tool pprof -base heap1.out heap2.out# 显示增量，更容易发现泄漏

常见Go OOM场景

1. goroutine泄漏

// 问题代码funchandleRequest(chchanint){gofunc(){val:=<-ch// 如果没人发送，永远阻塞process(val)}()}

goroutine不退出，内存持续增长。

检测：

# 查看goroutine数量curlhttp://localhost:6060/debug/pprof/goroutine?debug=1|head-1# goroutine profile: total 10234# 数量一直涨就是泄漏

解决：用context控制生命周期

funchandleRequest(ctx context.Context,chchanint){gofunc(){select{caseval:=<-ch:process(val)case<-ctx.Done():return// 超时退出}}()}

2. slice底层数组未释放

// 问题代码funcgetFirstElement(data[]byte)[]byte{returndata[:1]// 底层数组还是那个大的}// 假设data是1GB，返回的slice虽然只有1字节，但底层数组还是1GB

解决：复制出来

funcgetFirstElement(data[]byte)[]byte{result:=make([]byte,1)copy(result,data[:1])returnresult}

3. time.After泄漏

// 问题代码for{select{case<-ch:// ...case<-time.After(time.Second):// 每次循环创建新timer// ...}}

time.After创建的timer在触发前不会被GC。

解决：复用timer

timer:=time.NewTimer(time.Second)defertimer.Stop()for{select{case<-ch:if!timer.Stop(){<-timer.C}timer.Reset(time.Second)case<-timer.C:timer.Reset(time.Second)}}

4. 字符串拼接

// 问题代码funcbuildString(items[]string)string{result:=""for_,item:=rangeitems{result+=item// 每次都创建新字符串}returnresult}

解决：用strings.Builder

funcbuildString(items[]string)string{varbuilder strings.Builderfor_,item:=rangeitems{builder.WriteString(item)}returnbuilder.String()}

Go内存相关参数

# 设置最大内存限制（Go 1.19+）GOMEMLIMIT=4GiB ./your_app# 设置GC目标百分比（默认100，即内存翻倍时触发GC）GOGC=50./your_app# 更激进的GC

通用排查技巧

1. 看进程内存

# 查看进程内存psaux|grepyour_app# RSS: 物理内存占用# VSZ: 虚拟内存占用# 更详细cat/proc/<PID>/status|grep-E"VmRSS|VmSize|VmPeak"# VmPeak: 峰值虚拟内存# VmRSS: 当前物理内存

2. 看系统内存

# 整体内存使用free-h# 各进程内存排序psaux --sort=-%mem|head-20# 实时监控top# 按M键按内存排序

3. 监控内存变化趋势

# 每秒记录一次RSSwhiletrue;doecho"$(date)$(ps-orss=-p<PID>)"sleep1done>>memory.log

内存持续增长不下降 = 泄漏。

4. OOM Killer日志

# 查看被OOM Killer杀掉的进程dmesg|grep-i"killed process"journalctl -k|grep-i"oom"# 查看OOM Score（分数越高越容易被杀）cat/proc/<PID>/oom_score

预防措施

1. 设置内存限制

Java：

java -Xmx4g -Xms4g -jar app.jar

Go：

GOMEMLIMIT=4GiB ./app

Docker：

services:app:mem_limit:4g

2. 监控告警

# Prometheus告警规则-alert:HighMemoryUsageexpr:process_resident_memory_bytes / 1024 / 1024>3000for:5mlabels:severity:warningannotations:summary:"Memory usage > 3GB"

3. 定期压测

# 压测看内存是否持续增长wrk -t12 -c400 -d30m http://localhost:8080/api/test# 同时监控内存watch-n1"ps -o rss= -p <PID>"

4. Code Review检查点

集合是否有容量限制
资源（连接、文件、流）是否正确关闭
线程/goroutine是否有退出机制
大数据量是否分批处理
缓存是否有淘汰策略

总结

OOM排查步骤：

获取现场：堆dump（Java）、pprof（Go）
分析大对象：找到占用内存最多的对象/函数
定位代码：追溯到具体的代码位置
分析原因：是泄漏还是确实需要这么多内存
修复验证：改代码，压测验证

常见原因：

集合只增不删
资源没关闭
线程/goroutine泄漏
一次性加载大量数据
缓存没有淘汰策略

记住：OOM往往是慢慢积累的。上线后持续观察内存趋势，发现缓慢增长要及时排查，别等爆了再处理。

有问题评论区聊。

OOM内存溢出问题排查：Java和Go实战