HBase 查询导致RegionServer OOM故障复盘
背景:我司作为某运营商公司的技术咨询公司,发现有第三方开发公司在使用HBase 1.1.2 (HDP 2.4.2.258版本)一段时间使用正常后,从某一天开始报OOM,从而导致RegionServer宕机。
故障排查步骤
- 查看 regionserver的log和stdout。由于是突然宕机,log没有任何error信息,stdout 因为自动拉起以及默认启动脚本是重定向覆盖,所以被洗掉了;而oom dump当时还没开启,无任何明显提示信息。
- regionserver的log中尽管没有发现error信息,但发现了许多warning,
BucketCache: Failed allocation for ${block_id},org.apache.hadoop.hbase.io.hfile.bucket.BucketAllocatorException: Allocation too big size=21342038。这虽然不是错误,但其实是个很有用的提示信息,说明可能存在着有许多大的block,无法写入bucketcache读缓存中。 - 尝试重新拉起regionserver,但由于业务方疏忽,他们表示已停了所有程序,但却依然没完全停止读取hbase程序,因此反复拉起regionserver失败,此时可看到日志
java.lang.OutOfMemoryError: Requested array size exceeds VM limit。 - 根据stacktrace进去读源码,发现是在做rpc fetch data的时候,ByteBufferOutputStream对象时用一个数组cache数据,bytes超过capacity上限后会把当前的capacity乘以2,new一个新的byte数组,把旧的数组内容copy到新的去。这种底层的类似c的写法可以减少对象和随机读内存的开销。但是源码很蠢,分配的上限是Integer.MAX_VALUE,而众所周知,Oracle/OpenJDK 7的数组只允许开到 Integer.MAX_VALUE - 2 ,因为用户一个查询过大,即使内存和网络足够好也会OOM导致RegionServer宕机,这明显是个bug。[HBase 14978] [HBase 14946] 从issue看应该是在1.2.0以后加了对multi的限制,尝试从服务前端避免这种问题发生,但本人尚未仔细阅读1.2.0的源码去确认是否真的修复。
- 由于业务方不知是对自己的数据不熟悉还是其他原因,一直不承认有大数据,于是我们通过反复实验定位找回了查询挂的语句,开了oom dump 获取了宕机前的内存快照。通过对ByteBuffer对象的分析和反二进制化,发现了挂机时其内存吃到了1g,按照capacity翻倍,再翻倍就是2g超出了数组上限,完全符合错误栈信息。
- 从快照里获取了一个看起来比较大的rowkey,get出来整个row有38m。而后我们又写了个scan程序对全表scan并统计size,发现整体几百k以上的数据也不少,还有少部分是10m以上的。在他们的20000/batch 的multi-get的场景,基本很容易挂。拿出数据与业务方对峙后,业务方承认数据可能是存在脏数据,他们之前实际遇到过类似问题。在写入时报了 keyvalue size too large 的问题,但他们毫不在意,把配置的size改成了512m就写入算了。
至此,故障已被成功排查。对于咨询团队来说,主要的任务已经完成了。
附:OOM错误完整 stacktrace
FATAL [IndexRpcServer.handler=5,queue=0,port=60020J regionserver.HRegionServer: Run out of memory; HRegionServer will abort itself immediately
java.lang.OutOfMemoryError: Requested array size exceeds VM limit
at java.nio.HeapByteBuffer.<init>(HeapByteBuffer.java:57)
at java.nio.ByteBuffer.allocate(ByteBuffer.java:331)
at org.apache.hadoop.hbase.io.ByteBufferOutputStream.checkSizeAnd6row(ByteBufferOutputStream.java:74)
at org.apache.hadoop.hbase.io.ByteBufferOutputStream.write(ByteBufferOutputStream.java:112) at org.apache.hadoop.hbase.KeyValue.oswrite{KeyVdlue.java:2881)
at org.apache.hadoop.hbase.codec.KeyValueCodec^KeyVdlueEncoder.writetKeyVdlueCodec.java:60)
at org.apache.hadoop.hbase.ipc.IPCUtil.buildCeilBlock(IPCUti1.java:120) at org.apache.hadoop.hbase.ipc.RpcServer$Call.setResponse(RpcServer.java:384)
at org.apache.hadoop.hbase.ipc.CallRunner.run(CallRunner.java:128)
at org.apache.hadoop.hbase.ipc.RpcExecutor.consumerLoop(RpcExecutor.java:112)
at org.apache.hadoop.hbase.ipc.RpcExecutor$l.run(RpcExecutor.java:92)
at java.lang.Th read.run(Th read.java:745)
相关原理简要分析
bucketcache
参考:HBase BlockCache系列 – 走进BlockCache HBase BlockCache系列 - 探求BlockCache实现机制
BlockCache是Region Server级别的,一个Region Server只有一个Block Cache,在Region Server启动的时候完成Block Cache的初始化工作。读数据时,会先访问blockcache,blockcache没数据则从hdfs读取数据尝试写入读缓存,写失败则会抛warning直接返回数据,否则从读缓存中返回数据。bucketcache是hbase读缓存blockcache的一种实现,听说是由阿里贡献的,其他的还有LRUBlockCache,SlabCache等。大致的发展可以梳理为 LRUBlockCache -> DoubleBlockCache(LRU + Slab) -> CombinedBlockCache(LRU+Bucket)。
bucketcache 可以配置四种模式:none禁用,heap堆内,off-heap堆外,file文件。一般推荐开启,file主要是针对ssd场景,off-heap配置不好会出现另外的direct memory OOM问题,具体计算较复杂,参见Configuring Off-heap Memory (BucketCache) - HortonWorks。
bucketcache实际上和本次故障的直接关系不大,因为通过源码可以发现IPCUtil获取的outputstream只有堆上的ByteBufferOutputStream,只是其warning信息可以帮我们进一步佐证有异常过大数据的猜想。BucketCache的相关调用和实现逻辑可参见HFileReaderV2和BucketCache两个类。
Best Practice
避免此类问题,须注意如下HBase使用技巧:
- 负责入库的需做好数据限制,谨慎修改 keyvalue max size 限制,脏数据或不重要的数据可适当裁剪或丢弃,实在较大的数据考虑存hdfs,hbase存路径去指向文件。
- 读取时需大致估算平均每行数据大小,并适当留出冗余的内存,来决定一个multi get的batch大小。不需要的列字段就尽量不要读,避免oom也可以节省性能。
- column family和qualifier尽可能短而精确,因为每一个keyvalue都会存qualifier。
- 如无必要,表的字段尽量不太太多。
- 动态qualifier慎用,除非你对你自己的数据有足够清楚的上限了解。
- (其他)索引表和数据表尽量分离,不然scan会带来额外不必要的开销。
HBase 查询导致RegionServer OOM故障复盘的更多相关文章
- 公司内部一次关于OOM故障复盘分享
最近笔者有点忙,这次OOM事故发生过去两周前,记得笔者那天正带着家人在外地玩,正中午跟友人吃饭的时候,钉钉连续告警爆表,接着就是钉钉电话(显示广东抬头)一看就知道BBQ了,又一次故障发生了,今天把那次 ...
- 执行SQL查询导致磁盘耗尽故障演示
a fellow in IMG wechat group 2 met an error about running out of disk space when using MySQL ...
- 《MySQL》一次MySQL慢查询导致的故障
本文转载自 http://www.jb51.net/article/70955.htm 我们知道分析MySQL语句查询性能的方法除了使用EXPLAIN 输出执行计划,还可以让MySQL记录下查询超过指 ...
- 一次bug死磕经历之Hbase堆内存小导致regionserver频繁挂掉
环境如下: Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Zookeeper3.4.6 JDK1.7 Ant1.9.5 Maven3. ...
- HBASE 优化之REGIONSERVER
HBASE 优化之REGIONSERVER 一,概述 本人在使用优化regionserver的过程有些心得,借此随笔的机会,向大家介绍我的心得,有些是网上拿来的有些是自己在使用过程自己的经验,希望对大 ...
- 一次线上OOM故障排查经过
转贴:http://my.oschina.net/flashsword/blog/205266 本文是一次线上OOM故障排查的经过,内容比较基础但是真实,主要是记录一下,没有OOM排查经验的同学也可以 ...
- hbase查询基于标准sql规范中间件Phoenix
Phoenix是个很好的hbase 查询工具,在hbase中安装也很简单,可以按照 http://www.cnblogs.com/laov/p/4137136.html 这个连接中进行配置客户端和服务 ...
- 关于运维之故障复盘篇-Case Study
关于故障的事后复盘,英文名 Case Study是非常有必要做的,当然是根据故障的级别,不可能做到每个故障都Case Study,除非人员和时间充足: 文档能力也是能力的一种,一般工程师的文档能力比较 ...
- Android中解决图像解码导致的OOM问题
Android中解决图像解码导致的OOM问题 原文链接:http://blog.csdn.net/zjl5211314/article/details/7042017
随机推荐
- [转] React风格的企业前端技术
亲爱的各位朋友们,大家下午好! 首先祝大家国庆节快乐! 很高兴可以在国庆前夕,可以为大家分享一下React风格的企业前端技术. 谈到前端,可能以前大家的第一感觉就是,前端嘛,无非就是做做页面切图,顶多 ...
- [HNOI2007]梦幻岛宝珠
题解: 一道比较好的题目 首先比较显然的就是我们要按照a*2^b的b的顺序来枚举 那么状态f[i][j]表示当前在b,用了a*2^b 刚开始没想到怎么不同层之间搞 看了题解发现非常简单 由于每一层到最 ...
- 【BZOJ1095】【ZJOI2007】捉迷藏 [动态点分治]
题解: 好像还是比较简单的 对每个重心向下一层重心连边 树高是log的 我们对每一层维护两个信息 1.所有节点到上一层重心的距离 2.所有儿子的1堆的堆顶 另外开个总的堆 维护每一层最长+次长 修改是 ...
- 【Android】 textview 中超出屏幕宽度的字符 省略号显示
当利用textview显示内容时,显示内容过多可能会折行或显示不全,那样效果很不好. 实现如下: <TextView android:layout_width="fill_parent ...
- python 操作mongo
1. 导包: import pymongo 2. 建立连接 client = pymongo.MongoClient("127.0.0.1",27017) 3. 获取数据库 db ...
- UVa-156 Ananagrams 反片语【map】【vector】
题目链接:https://vjudge.net/contest/211547#problem/D 题目大意: 输入一些单词,找出所有满足以下条件的单词:该单词不能通过字母重排,得到输入文本中的另外一些 ...
- 001.CDN概述
一 互联网应用质量概述 1.1 互联网应用质量 互联网应用质量指标--QoE,其主要指标: 服务成功率:指用户所请求的服务成功完成的几率. 服务建立时间:指从服务请求到服务呈现所花费的时间,并且会因为 ...
- Django 学习第九天——请求与响应
一.HttpRequest 对象: 服务器接收到http协议的请求后,会根据报文创建 HttpRequest 对象视图函数的第一个参数是HttpRequest 对象再django.http 模块中定义 ...
- shell script exit if any command fails
dd this to the beginning of the script: set -e This will cause the shell to exit immediately if a si ...
- 无可奈何的开始了jquery的“奇淫技巧”
转载请注明出处: https://home.cnblogs.com/u/zhiyong-ITNote/ 修改一个已有的项目,主要是前端方面,一般的项目后端都是处理好了的,不需要改也不能改,除非特殊需求 ...