当前位置：首页 > 问答 > 正文

JVM内存那些坑又让你懵了？这篇文章帮你理清思路别慌

钊智敏
问答
2026-01-02 02:07:37
3

你是不是有时候会觉得，JVM内存这东西，学的时候好像懂了，一到线上出问题，看着那些监控图表和错误日志，脑袋又“嗡”地一下懵了？别慌，这种感觉太正常了，今天咱们就抛开那些让人头大的专业术语，用大白话把JVM内存里最常见的几个“坑”捋一捋,帮你理清思路。

第一个大坑：OutOfMemoryError，内存不够用了！

这是最经典的一个错误，说白了就是JVM的家当（内存）不够分了，但它还分好几种情况，你得知道是哪间屋子着火了,才能去救火。

Java heap space (堆空间不足)：这大概是最常见的了，堆是干啥的？就是你用new关键字创建出来的那些对象住的地方，好比你的房间，你不停地往里面塞东西（创建对象），又不好好收拾（不及时清理垃圾），总有一天会塞满，东西再多就塞不进去了,这时候就会报这个错。
- 常见原因：最常见的就是内存泄漏，不是说东西真的漏了，而是有些对象你已经不用了（某些缓存里的对象、无效的会话Session），但因为一些错误的引用，垃圾回收器（GC）以为它们还有用，不敢把它们当垃圾收走，结果就是这些“僵尸对象”占着茅坑不拉屎，越积越多，最终撑爆堆内存，还有一种情况是单纯的容量不够，比如你的一次性加载到内存的数据量实在太大,超过了堆的最大值。
- 怎么排查：一般要用到内存分析工具（比如MAT），去dump（可以理解为“拍个快照”）下内存，看看到底是哪些类的对象占用了最多的空间，再顺藤摸瓜找到引用它们的地方,是不是不该引用却引用了。
Metaspace (元空间不足)：这个区域以前叫PermGen（永久代），现在叫Metaspace，它主要存放一些“蓝图”信息，比如类的定义、方法信息、常量池等等，它不是存你new出来的具体对象的，而是存这些对象的“设计图纸”。
- 常见原因：最常见的就是动态生成类搞得太多，比如你用了一些框架，像Spring、Hibernate，或者频繁使用CGLib代理、JSP技术，它们在运行时会动态地创建很多新的类，这些类的“图纸”都会放到Metaspace里，如果停不下来地生成新类，Metaspace就会被撑满，如果应用依赖的Jar包特别多，启动时加载的类自然也多,也可能导致初始的Metaspace不够用。
- 怎么排查：可以看看JVM参数里是不是设置了MaxMetaspaceSize太小了，或者用jstat命令监控一下Metaspace的使用情况,看是不是在持续增长。
Unable to create new native thread (无法创建新本地线程) ：这个错误听起来和内存关系不大，但其实底层也跟内存有关，JVM在创建线程的时候，需要在操作系统层面分配一些内存（主要是线程栈所需的内存），这个内存区域不属于我们常说的Java堆或者Metaspace,而是本地内存。
- 常见原因：要么是你的应用创建的线程数实在太多了（比如代码里有线程池配置不当，或者有线程泄漏），把系统资源耗尽了，要么就是每个线程栈分配的内存（Xss参数）设置得太大，比如设置了2M,那创建几百个线程可能就把整个进程的可用本地内存地址空间占满了。
- 怎么排查：先用命令查一下当前进程到底有多少个线程，如果是Linux系统，可以用 pstree -p [pid] | wc -l 看看，如果线程数确实异常得多,就要检查代码里是不是有地方在疯狂创建线程且不回收。

第二个大坑：GC overhead limit exceeded (GC开销超过限制)

这个错误也很有意思，它不是直接说内存没了，而是说JVM快“累死”了，意思是，垃圾回收器花了大量的时间（比如98%的CPU时间）去进行垃圾回收，但是每次回收完，只能释放出来一点点内存（比如不到2%的堆空间），这就好比一个清洁工，不停地扫地，但刚扫完一小块地，马上又有人扔满垃圾，导致他永远在扫地，正经事（执行你的程序代码）根本干不了，JVM觉得这样下去效率太低了,干脆抛个错误罢工了。

JVM内存那些坑又让你懵了？这篇文章帮你理清思路别慌

常见原因：这通常是内存泄漏的一个晚期症状，因为内存泄漏导致可回收的对象很少,GC拼命工作却收效甚微。
怎么排查：这个错误的排查思路和“Java heap space”很像,重点还是去找内存泄漏的点。

第三个大坑：CPU飙高，但程序卡死

有时候你没看到内存溢出的错误，但程序突然变得巨卡，用监控工具一看，CPU使用率快100%了，而且很可能都是GC线程吃掉的，这其实就是上面“GC开销限制”错误的温和版或者前兆，GC线程为了回收垃圾，疯狂占用CPU资源，导致你的业务线程抢不到CPU时间片,程序自然就响应缓慢甚至无响应了。

常见原因：同样是内存问题引起的，比如存在大量的、不合理的对象创建,或者即将发生内存溢出。
怎么排查：先用top命令找到CPU高的Java进程，再用jstack命令打印这个进程的线程栈信息，看看是不是有很多线程都在做GC相关的工作（比如线程名里带"GC"的），结合jstat命令查看GC的频率和耗时,就能确认是不是GC引起的。

别慌的思路就是：

看错误信息：先分清是哪种OOM，或者是GC问题,对症下药。
看监控：观察内存使用趋势、GC频率和耗时、线程数量等,判断问题是突然发生的还是缓慢增长的。
用工具：善用jstack（看线程）、jmap（dump内存）、jstat（看GC统计）、MAT（分析内存快照）这些工具，它们是定位问题的“CT机”。
想场景：结合最近有没有上线新代码、有没有做活动导致流量暴增、有没有改过JVM参数等,综合判断。

JVM内存问题排查确实需要一些经验，但只要你理解了这几个核心的“坑”和基本的排查方向，下次再遇到的时候，至少知道该从哪里入手，就不会那么慌了，你不是一个人在战斗,这些坑几乎每个Java开发者都踩过。