一.项目架构

  SpringCloud  Dalston.SR1 + SpringBoot 1.5.9 + Mysql +Redis + RabbitMQ

  所有的业务模块的应用服务都部署在同一个服务器,且单实例部署,服务器配置4核32G,

二. 原因分析:

  自己所负责的data模块这两天OOM较多,导致服务重启;

  data服务主要业务是报表相关,数仓对接的业务以及多个外部数据相关的小程序的后台,与数据库的交互比较多,业务逻辑相对其他模块较为简单,

  第一次:2月25日OOM情况:

    由于Redis反序列化失败导致的OOM

  

  第二次:2月26日的OOM情况:

    由于GC无法回收对象导致

   

  第一次发生OOM时,觉得可能就是由于Redis序列化器和反序列化器不一致,原有的JVM参数仅设置时-Xmx:512m -Xms:512m, 老年代:年轻代=2:1 ,老年代大概分配有300M内存

    时候排查问题时,发现Redis的使用都是用自己用RedisTemplate封装的工具类,按道理说不会出现什么问题,并未过多关注;

  第二次发生OOM时,与第一次相距的时间仅为1天,当时就觉得问题不对了,

    1.首先使用jmap -histo:live pid 查看 服务内存活的对象,发现 [C 类型的数组和ConcurrentHashMap对象都存活较多;

         检查代码后发现并未有显示的使用该两类类型,怀疑时String字符串过多导致的;

    2.其次使用JDK自带的分析工具:jmap -dump:format=b,file=文件名 [pid] 导出OOM时的dump日志;

      导出时间非常慢,且占用线上系统的CPU,导致CPU达到100%

    3.使用jstat -gc pid /jstat -gcutil pid 查看gc的状况

      发现gc和fgc的都非常多,特别是fgc已经达到1000多次;

   

  

  初步解决方案:(2月26日)

    最后仍然是重启服务,-添加参数Xmx1024m -Xms:1024m

     然后添加JVM参数(使用jinfo -flag可以在生产环境上直接添加)

     jinfo -flag +HeapDumpBeforeFullGC pid

     jinfo -flag +HeapDumpAfterFullGC pid

     jinfo -flag +HeapDumpOnOutOfMemoryError pid

     jinfo -flag +HeapDumpPath=/home/xxx/xxx pid 添加dump日志的目录(需要提前建好)

     jinfo -flag -XX:+PrintGCDetails pid      开启gc日志

     jinfo -flag -XX:+PrintGCDateStamps -Xloggc:/xxx/xxx  设置gc日志的目录

     修改完成后第二天根据fgc产生的dump日志,加载到jvisualVM里面之后发现也是[C占用内存较多

     下午 2点左右,监控线上服务时发现Old老年代的内存占用为300M,总大小为700M,经过一次FGC之后占用70M,这就比较正常了;

  

  重点来了:

    在2月26日添加完成JVM参数后,第二天同样的接口,FGC之前终于拿到了dump文件,大小是1.4G,接下来就是分析dump文件了,这里我选择了两个工具:

    MAT与Jvisualvm

      在使用体验来说JDK自带的Jvisualvm真的很垃圾,文件打开都要半个小时,果断放弃,转而使用MAT

    导入dump文件以后如图

    

   这里主要是看Leak Suspects:其他的几个指标在此也说明一下:

    1. Histogram可以列出内存中的对象,对象的个数以及大小。
      2. Dominator Tree可以列出那个线程,以及线程下面的那些对象占用的空间。
      3.Top consumers通过图形列出最大的object。
      4.Leak Suspects通过MA自动分析泄漏的原因。

   打开Leak Suspects后可以看到线程堆栈如图

     

    再继续找,找到是否有我们的业务代码。找到如图

     

  这里其实已经定位到具体的业务代码了,但是MAT的强大之处就是可以定位究竟是什么大对象,

  如图,这里已经可以看到了6W多个HashMap被Object[]引用,这里是内存占用的主要原因

   OK,接下来可以取看业务代码了

    

        

  业务代码如下,只展示关键代码,这个接口是报表数据导出的接口,查询mysql后使用HashMap去接收结果集,

   Object[]用于是用于写入报表工具类的入参;

  查看服务器日志后,发现这条SQL有6W多条数据,而且在一分钟之内有人操作导出了两次,导致数据封装到HashMap里面,发生FGC

    

三   最终解决方案: 

  1.加大堆内存 原来由512扩大到1024M;

  2.HashMap改为JavaBean对象去封装结果集,因为HashMap底层是数组,还有其他的引用成员变量,更加有频繁的扩容,

    查资料后发现HashMap在数据量的情况下内存占用比Java对象要大;

  3.导出接口添加限流注解,防止在短时间内多次请求;

  以下是限流代码:使用Guava的限流组件实现,当然也可以基于Redis的实现,或者自己实现一套

  4.由于EasyExcel内存占用少,可以将poi换成阿里的EasyExcel,实现多条数据分页导出;

/**
* @author: Gabriel
* @date: 2020/2/18 12:03
* @description 自定义接口限流注解
*/
@Target({ElementType.TYPE,ElementType.METHOD})
@Retention(RetentionPolicy.RUNTIME)
public @interface RateLimitAnno { /** 每秒放入令牌桶中的token */
double limitNum() default 20;
} /**
* @author: Gabriel
* @date: 2020/2/18 12:07
* @description
*/
@Slf4j
@Aspect
@Component
public class RateLimitAspect { /**
* 用来存放不同接口的RateLimiter(key为接口名称,value为RateLimiter)
*/
private ConcurrentHashMap<String, RateLimiter> map = new ConcurrentHashMap<>(); private RateLimiter rateLimiter; @Autowired
private static ObjectMapper objectMapper = new ObjectMapper(); @Autowired
private HttpServletResponse httpServletResponse; @Pointcut("@annotation(com.gabriel.stage.annotation.RateLimitAnno)")
public void rateLimit() {
} /**
* 环绕通知
*
* @param joinPoint
* @return
* @throws Exception
*/
@Around("rateLimit()")
public Object around(ProceedingJoinPoint joinPoint) throws Throwable {
Object obj = null;
//获取拦截的方法签名
MethodSignature signature = (MethodSignature) joinPoint.getSignature();
Object target = joinPoint.getTarget();
//获取注解信息
Method method = target.getClass().getMethod(signature.getName(), signature.getParameterTypes());
RateLimitAnno annotation = method.getAnnotation(RateLimitAnno.class);
double limitNum = annotation.limitNum();
//获取方法名
String functionName = signature.getName();
//获取类名
String className = signature.getDeclaringTypeName();
signature.getDeclaringTypeName();
if (StringUtils.isNotBlank(className)) {
className = StringUtils.substringAfterLast(className, ".");
}
//拼接类名和方法名,保证key唯一
String joinName = StringUtils.join(functionName, className); //获取rateLimiter
if (map.containsKey(joinName)) {
rateLimiter = map.get(joinName);
} else {
map.put(joinName, RateLimiter.create(limitNum));
rateLimiter = map.get(joinName);
} if (rateLimiter.tryAcquire()) {
obj = joinPoint.proceed();
} else {
System.err.println("接口限流,请求降级。。。。。。。。。。。。。。。。。");
throw new BusinessException(ResultCode.SERVER_ERROR);
}
return obj;
}

  

   

【OOM】记录一次生产上的OutOfMemory解决过程的更多相关文章

  1. [转]线上GC故障解决过程记录

    排查了三四个小时,终于解决了这个GC问题,记录解决过程于此,希望对大家有所帮助.本文假定读者已具备基本的GC常识和JVM调优知识,关于JVM调优工具使用可以查看我在同一分类下的另一篇文章: http: ...

  2. 一次线上GC故障解决过程记录

    排查了三四个小时,终于解决了这个GC问题,记录解决过程于此,希望对大家有所帮助.本文假定读者已具备基本的GC常识和JVM调优知识,关于JVM调优工具使用可以查看我在同一分类下的另一篇文章: http: ...

  3. 【Feign/Ribbon】记录一次生产上的SpringCloudFeign的重试问题

    在上周在的微供有数项目中(数据产品),需要对接企业微信中第三方应用,在使用Feign的去调用微服务的用户模块用微信的code获取access_token以及用户工厂信息时出现Feign重试超时报错的情 ...

  4. 记录一次服务器CPU 100%的解决过程

    昨天客户反馈业务系统很慢,而且偶尔报错. 查看nginx日志: [root@s2 nginx]# tail log/error.log 2017/03/14 12:54:46 [error] 1704 ...

  5. 记录CentOS 7.4 上安装MySQL&MariaDB&Redis&Mongodb

    记录CentOS 7.4 上安装MySQL&MariaDB&Redis&Mongodb 前段时间我个人Google服务器意外不能用,并且我犯了一件很低级的错误,直接在gcp讲服 ...

  6. PermGen space OOM 记录

    前些天线上除出了个OOM问题,今天闲下来记录下: OOM的提示信息是-PermGen space,说明问题出在方法区,方法区存的是什么东西?:类的加载信息.常量.静态变量. 按照方法区的定义:类加载的 ...

  7. 生产上数据库大量的latch free 导致的CPU资源耗尽的问题的解决

    中午的时候,我们生产上的某个数据库,cpu一直居高不下 通过例如以下的sql语句,我们查看当时数据库的等待,争用的情况: select s.SID, s.SERIAL#, 'kill -9 ' || ...

  8. Linux(2)---记录一次线上服务 CPU 100%的排查过程

    Linux(2)---记录一次线上服务 CPU 100%的排查过程 当时产生CPU飙升接近100%的原因是因为项目中的websocket时时断开又重连导致CPU飙升接近100% .如何排查的呢 是通过 ...

  9. 记录一次线上bug

    记录一次线上bug,总的来说就是弱网和重复点击.特殊值校验的问题. 测试场景一:        在3g网络或者使页面加载速度需要两秒左右的时候,输入学号,提交学生的缴费项目,提交完一个 学生的缴费后, ...

随机推荐

  1. 不使用map和set实现LRU——那用List?

    遇到一道面试题,不使用map和set实现LRU,要求get的时间复杂度为O(logn),put的时间复杂度不超过O(n).想到了用ArrayList来实现,保存有序的key.然而牵涉add节点,在保证 ...

  2. 译文《全新首发JDK 16全部新特性》

    封面:洛小汐 译者:潘潘 JDK 8 的新特性都还没摸透,JDK 16 的新特性就提着刀来了. 郑重申明: 第一次冒险翻译专业领域的文献,可想而知,效果特别糟糕.一般翻译文献特别是 技术专业领域 的内 ...

  3. 《从零开始TypeScript》系列 - 基础数据类型

    TypeScript 是 JavaScript 的超集,这里我们只讨论两者中的不同的部分,或者需要注意的部分 数组 Array:在TypeScript中,有两种方式来定义一个数组: 在元素类型后面接上 ...

  4. 通过穷举法快速破解excel或word加密文档最高15位密码

    1.打开文件 2.工具 --- 宏 ---- 录制新宏 --- 输入名字如 :aa 3.停止录制 ( 这样得到一个空宏 ) 4.工具 --- 宏 ---- 宏 , 选 aa, 点编辑按钮 5.删除窗口 ...

  5. 03----python入门----函数相关

    一.前期知识储备 函数定义 你可以定义一个由自己想要功能的函数,以下是简单的规则: 函数代码块以 def 关键词开头,后接函数标识符名称和圆括号  () 任何传入参数和自变量必须放在圆括号中间,圆括号 ...

  6. 测试平台系列(2) 给Pity添加配置

    给Pity添加配置 回顾 还记得上篇文章创立的「Flask」实例吗?我们通过这个实例,给根路由 「/」 绑定了一个方法,从而使得用户访问不同路由的时候可以执行不同的方法. 配置 要知道,在一个「Web ...

  7. 关于win10 编辑文件时权限不足问题

    win10默认是不开启administrator账户的,所以一般是自己创建一个账户,但是此账户,可能会有些文件或文件夹,访问不了,编辑不了,这时候,只需要右键->属性->安全->编辑 ...

  8. WPF 应用 - 拖拽窗体、控件

    1. 拖拽窗体 使用 System.Windows.Window 自带的 DragMove() 方法即可识别窗体拖动. DragMove(); 2. 拖拽控件:复制.移动控件 <Grid> ...

  9. BZOJ_4034 [HAOI2015]树上操作 【树链剖分dfs序+线段树】

    一 题目 [HAOI2015]树上操作 二 分析 树链剖分的题,这里主要用到了$dfs$序,这题比较简单的就是不用求$lca$. 1.和树链剖分一样,先用邻接链表建双向图. 2.跑两遍$dfs$,其实 ...

  10. 初见pyecharts

    pyecharts(可互动的可视化) 模块准备 在Anaconda Prompt中下载pyecharts v1版本(>=python3.6) pip install pyecharts 可视化最 ...