稳定性专题 | StackOverFlowError 常见原因及解决方法
导读
『StabilityGuide』是阿里多位阿里技术工程师共同发起的稳定性领域的知识库开源项目,涵盖性能压测、故障演练、JVM、应用容器、服务框架、流量调度、监控、诊断等多个技术领域,以更结构化的方式来打造稳定性领域的知识库,欢迎您的加入。
@GitHub :https://github.com/StabilityMan/StabilityGuide
每一个 JVM 线程都拥有一个私有的 JVM 线程栈,用于存放当前线程的 JVM 栈帧(包括被调用函数的参数、局部变量和返回地址等)。如果某个线程的线程栈空间被耗尽,没有足够资源分配给新创建的栈帧,就会抛出 java.lang.StackOverflowError 错误。
线程栈是如何运行的?
首先给出一个简单的程序调用代码示例,如下所示:
public class SimpleExample {
public static void main(String args[]) {
a();
}
public static void a() {
int x = 0;
b();
}
public static void b() {
Car y = new Car();
c();
}
public static void c() {
float z = 0f;
}
}
当 main() 方法被调用后,执行线程按照代码执行顺序,将它正在执行的方法、基本数据类型、对象指针和返回值包装在栈帧中,逐一压入其私有的调用栈,整体执行过程如下图所示:
首先,程序启动后,main() 方法入栈。
然后,a() 方法入栈,变量 x 被声明为 int 类型,初始化赋值为 0。注意,无论是 x 还是 0 都被包含在栈帧中。
接着,b() 方法入栈,创建了一个 Car 对象,并被赋给变量 y。请注意,实际的 Car 对象是在 Java 堆内存中创建的,而不是线程栈中,只有 Car 对象的引用以及变量 y 被包含在栈帧里。
最后,c() 方法入栈,变量 z 被声明为 float 类型,初始化赋值为 0f。同理,z 还是 0f 都被包含在栈帧里。
当方法执行完成后,所有的线程栈帧将按照后进先出的顺序逐一出栈,直至栈空为止。
StackOverFlowError 是如何产生的?
如上所述,JVM 线程栈存储了方法的执行过程、基本数据类型、局部变量、对象指针和返回值等信息,这些都需要消耗内存。一旦线程栈的大小增长超过了允许的内存限制,就会抛出 java.lang.StackOverflowError 错误。
下面这段代码通过无限递归调用最终引发了 java.lang.StackOverflowError 错误。
public class StackOverflowErrorExample {
public static void main(String args[]) {
a();
}
public static void a() {
a();
}
}
在这种情况下,a() 方法将无限入栈,直至栈溢出,耗尽线程栈空间,如下图所示。
Exception in thread "main" java.lang.StackOverflowError
at StackOverflowErrorExample.a(StackOverflowErrorExample.java:10)
at StackOverflowErrorExample.a(StackOverflowErrorExample.java:10)
at StackOverflowErrorExample.a(StackOverflowErrorExample.java:10)
at StackOverflowErrorExample.a(StackOverflowErrorExample.java:10)
at StackOverflowErrorExample.a(StackOverflowErrorExample.java:10)
at StackOverflowErrorExample.a(StackOverflowErrorExample.java:10)
at StackOverflowErrorExample.a(StackOverflowErrorExample.java:10)
at StackOverflowErrorExample.a(StackOverflowErrorExample.java:10)
at StackOverflowErrorExample.a(StackOverflowErrorExample.java:10)
如何解决 StackOverFlowError?
引发 StackOverFlowError 的常见原因有以下几种:
- 无限递归循环调用(最常见)。
- 执行了大量方法,导致线程栈空间耗尽。
- 方法内声明了海量的局部变量。
- native 代码有栈上分配的逻辑,并且要求的内存还不小,比如 java.net.SocketInputStream.read0 会在栈上要求分配一个 64KB 的缓存(64位 Linux)。
除了程序抛出 StackOverflowError 错误以外,还有两种定位栈溢出的方法:
- 进程突然消失,但是留下了 crash 日志,可以检查 crash 日志里当前线程的 stack 范围,以及 RSP 寄存器的值。如果 RSP 寄存器的值超出这个 stack 范围,那就说明是栈溢出了。
- 如果没有 crash 日志,那只能通过 coredump 进行分析。在进程运行前,先执行 ulimit -c unlimited,当进程挂掉之后,会产生一个 core.[pid] 的文件,然后再通过 jstack $JAVA_HOME/bin/java core.[pid] 来看输出的栈。如果正常输出了,那就可以看是否存在很长的调用栈的线程,当然还有可能没有正常输出的,因为 jstack 的这条从 core 文件抓栈的命令其实是基于 Serviceability Agent 实现的,而 SA 在某些版本里有 Bug。
常见的解决方法包括以下几种:
- 修复引发无限递归调用的异常代码, 通过程序抛出的异常堆栈,找出不断重复的代码行,按图索骥,修复无限递归 Bug。
- 排查是否存在类之间的循环依赖。
- 排查是否存在在一个类中对当前类进行实例化,并作为该类的实例变量。
- 通过 JVM 启动参数 -Xss 增加线程栈内存空间, 某些正常使用场景需要执行大量方法或包含大量局部变量,这时可以适当地提高线程栈空间限制,例如通过配置 -Xss2m 将线程栈空间调整为 2 mb。
线程栈的默认大小依赖于操作系统、JVM 版本和供应商,常见的默认配置如下表所示:
JVM 版本 | 线程栈默认大小 | |
---|---|---|
Sparc 32-bit JVM | 512 kb | |
Sparc 64-bit JVM | 1024 kb | |
x86 Solaris/Linux 32-bit JVM | 320 kb | |
x86 Solaris/Linux 64-bit JVM | 1024 kb | |
Windows 32-bit JVM | 320 kb | |
Windows 64-bit JVM | 1024 kb |
提示: 实际生产系统中,可以对程序日志中的 StackOverFlowError 配置关键字告警,一经发现,立即处理。
推荐工具&产品
ARMS —— 阿里云 APM 产品,支持 StackOverFlowError 异常关键字告警
参考文章
- StackOverFlow Error: Causes and Solutions
- The Structure of the Java Virtual Machine
- The StackOverflowError in Java
- JVM源码分析之栈溢出完全解读
作者信息:夏明,GitHub ID @StabilityMan,花名涯海,阿里云 ARMS & EagleEye 技术专家,2016 年加入阿里巴巴,一直从事链路追踪和 APM 监控诊断领域的相关工作。
本文为云栖社区原创内容,未经允许不得转载。
稳定性专题 | StackOverFlowError 常见原因及解决方法的更多相关文章
- Kernel Panic常见原因以及解决方法
Technorati 标签: Kernel Panic 出现原因 1. Linux在中断处理程序中,它不处于任何一个进程上下文,如果使用可能睡眠的函数,则系统调度会被破坏,导致kernel panic ...
- NoSuchMethodError 常见原因及解决方法
相 关 阅 读 导读 『StabilityGuide』是阿里多位阿里技术工程师共同发起的稳定性领域的知识库开源项目,涵盖性能压测.故障演练.JVM.应用容器.服务框架.流量调度.监控.诊断等多个技术领 ...
- .NET 3.5 安装错误的四个原因及解决方法
.net framework 3.5 安装错误的四个常见原因及解决方法,飓风软件站整理,转载请注明. 1.清除所有版本 .NET Framework 安装错误后在系统中遗留的文件: 如果您以往安装过 ...
- MySQL CPU 使用率高的原因和解决方法
用户在使用 MySQL 实例时,会遇到 CPU 使用率过高甚至达到 100% 的情况.本文将介绍造成该状况的常见原因以及解决方法,并通过 CPU 使用率为 100% 的典型场景,来分析引起该状况的原因 ...
- coreseek常见错误原因及解决方法
coreseek常见错误原因及解决方法 Coreseek 中文全文检索引擎 Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和 ...
- Servlet常见错误及解决方法
常见错误及解决方法 1. 404产生的原因为Web服务器(容器)根据请求地址找不到对应资源,以下情况都会出现404的错误提示: 输入的地址有误(应用名大小写不正确,名称拼写不正确) 在web.xml文 ...
- DedeTag Engine Create File False提示的种种原因及解决方法
DedeTag Engine Create File False提示的种种原因及解决方法 第一种情况:站点.文件夹权限不足造成无法建立文件 这种情况的出现,一方面可能是Apache设置的读写权限较严格 ...
- 需要我们了解的SQL Server阻塞原因与解决方法
需要我们了解的SQL Server阻塞原因与解决方法 上篇说SQL Server应用模式之OLTP系统性能分析.五种角度分析sql性能问题.本章依然是SQL性能 五种角度其一“阻塞与死锁” 这里通过连 ...
- Python3 Selenium定位不到元素常见原因及解决办法
Python3 Selenium定位不到元素常见原因及解决办法 一.问题描述 在做web应用的自动化测试时,定位元素是必不可少的,这个过程经常会碰到定位不到元素的情况: 报错信息: no such e ...
随机推荐
- Java笔记 - 异常机制
JAVA异常机制是Java提供的用于处理程序在运行期可能出现的异常事件(如数组下标越界.文件不存在等)的一种机制,使程序不会因为 异常的发生 而 阻断或产生不可预见的结果 .而且还可以将逻辑代码与错误 ...
- Cocos2d-x发布Android.mk 导入所有cpp
#traverse all the directory and subdirectorydefine walk $(wildcard $(1)) $(foreach e, $(wildcard $(1 ...
- 爬虫(二)建立代理ip池
之前我们说网站反爬虫的一个常用方法是检测ip,限制访问频率.所以我们要通过设置代理ip的办法绕过这个限制.有不少提供免费代理ip的网站,像https://www.xicidaili.com/nt/,我 ...
- My solutions to the exercises in "The Boost C++ Libraries"
I like books with excercises, but I also want solutions to see if I got it right. When working throu ...
- 解决element-ui表头错位的问题
经过测试得出: 使用element-ui的表格,并在table中设置固定height会出现表头错位的现象(不知道是什么bug) 解决方案: 将height改为max-height,设置固定高度为最大高 ...
- Luogu P2101 命运石之门的选择(分治+搜索)
P2101 命运石之门的选择 题意 题目描述 在某一条不知名世界线的冈伦今天突然接到了一条\(dmail\),上面说世界线将会发生巨大变动,未来的他无论如何都无法扭转这种变动回到原来的世界线.而世界线 ...
- Android 开发 DNK开发将.c文件打包成os
前言 不废话太多,Java与C之间联系的JNI的概念,这个要了解可以参考下面这个博客: https://www.jianshu.com/p/87ce6f565d37 此博客只说明如何将.C文件通过ND ...
- PageHelper原理
1.要是用pagehelper,首先maven项目,要引入 <dependency> <groupId>com.github.pagehelper</groupId> ...
- Python-爬虫实战 简单爬取豆瓣top250电影保存到本地
爬虫原理 发送数据 获取数据 解析数据 保存数据 requests请求库 res = requests.get(url="目标网站地址") 获取二进制流方法:res.content ...
- python 连接mssql数据库
1.目标数据sql2008 R2 ComPrject=>TestModel 2.安装python 连接mssql 模块 运行 pip install pymssql-2.2.0.dev0-cp3 ...