记录一次elasticsearch-5.6.4宕机排查经历
犯罪现场~~
es: 三节点,配置相同
内存: 248G
CPU: 没注意看
磁盘: 2T
data: 380G左右
indices: 近9800条
在下才疏学浅,目前跟着大佬学习,这个问题还没解决,大佬猜测是indices数量过高,将es打爆了,由于机器是客户的,indices的删减需要客户方的同意,暂时不确定是否是这个原因导致的,后期成功处理恢复es集群后,再来更新(为什么不看日志?因为日志太大了,108G,不知道应该搜索哪些关键字,有大佬知道,望赐教)
下面分享两个遇到的犯罪现场~~~
客户环境,就不贴ip地址出来了,以node1,node2,node3来代替,不过这个也不重要
犯罪现场一:es重新启动后,无法加入老的集群
'开发说kibana异常,无法访问,于是登录es服务,查看es的状态'
# curl 'http://node1:9200/_cat/nodes'
{"error":{"root_cause":[{"type":"master_not_discovered_exception":"reason":null}],"type":"master_not_discovered_exception","reason":null},"status":503}
`_cat/nodes无法查看到es集群的node信息,只好通过ps查找es的进程,最后发现node1的es进程挂了,因为日志太大,所以无法定位问题,于是重新去启动es的进程(./bin/elasticsearch -d -p ./PID)`
'tailf log/cluster-es.log 看到started,并且ps和ss可以查看到es的进程和端口后,再次执行以上的curl,结果发现还是一样的报错'
# curl 'http://node1ip:9200'
# curl 'http://node2ip:9200'
# curl 'http://node3ip:9200'
发现:
node2和node3的"cluster_uuid"一致,但是node1和node2,node3不一致,看来,node2和node3与node1的爱消失了~~~
解决:
在下才疏学浅,没有妙招,只好将三个节点的es全部kill,然后重新$(./bin/elasticsearch -d -p ./PID)启动es三节点
验证:
# curl 'http://node1ip:9200/_cat/nodes'
等待总是让人抓耳挠腮。。。当然,集群查询正常,此时,发现了新的犯罪现场,请看下一回合~~~
犯罪现场二:indices好大
'es集群虽然暂时正常了,由于kibana显示es集群是red,所以,还是要继续破案'
# curl 'http://node1ip:9200/_cat/indices' | grep green | wc -l
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 1118k 100 1118k 0 0 261k 0 0:00:04 0:00:04 --:--:-- 274k
# curl 'http://node1ip:9200/_cat/indices' | grep red | wc -l
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 1118k 100 1118k 0 0 309k 0 0:00:03 0:00:03 --:--:-- 309k
8124
# curl 'http://node1ip:9200/_cat/indices' | grep yellow | wc -l
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 1118k 100 1118k 0 0 250k 0 0:00:04 0:00:04 --:--:-- 343k
1665
'啊这...8124+1665=9789...由于集群刚刚恢复,数据需要同步,第二天再来查看吧~~~'
# one day过去了~~~果然早起的运维吃爆红,node1还活着,node2和node3殉情了~~~
# curl 'http://hostip:9200/_cat/nodes'
{"error":{"root_cause":[{"type":"null_pointer_exception":"reason":null}],"type":"null_pointer_exception","reason":null},"status":500}
通过日志,看到了几个报错,基本上也就是indices在恢复的时候,又暴毙了吧,只有等客户方沟通结束,删除一些indices后,再做破案吧,破案后,再来更新
截取四段日志做参考吧,希望有大佬可以带我飞~~~
1、fatal error on the network layer
2、[node1] failed to connect to master [node2]
3、MasterNotDiscoveredExcption: null
4、[node1] timed out while waiting for initial discovered state - timeout: 30s
--------------------------------更新与2020年12月13日---------------------------------
最终,在客户方同意下,删除了历史indices,只保留最近一个月的数据,indices从9789所见到了2785;
但是在恢复过程中,es又暴毙了一次,发现客户方没有加内存限制,加了内存限制之后,解决了
记录一次elasticsearch-5.6.4宕机排查经历的更多相关文章
- HBase–RegionServer宕机恢复原理
Region Server宕机总述 HBase一个很大的特色是扩展性极其友好,可以通过简单地加机器实现集群规模的线性扩展,而且机器的配置并不需要太好,通过大量廉价机器代替价格昂贵的高性能机器.但也正因 ...
- elasticsearch介绍集群,模拟横向扩展节点、节点宕机、改变分片
出处:[http://www.cnblogs.com/dennisit/p/4133131.html] ,防楼主删博,故保留一份! elasticsearch用于构建高可用和可扩展的系统.扩展 ...
- Elasticsearch宕机问题
个人博客:https://blog.sharedata.info/ Elasticsearch 突然宕机,每次重启都只生成错误日志报错信息:## There is insufficient memor ...
- 记录一次mysql宕机的解决办法
首先先粘贴出来我的错误信息,如下: 2019-07-16T00:53:18.285919Z 0 [System] [MY-010116] [Server] /usr/sbin/mysqld (mysq ...
- 【JVM】linux上tomcat中部署的web服务,时好时坏,莫名其妙宕机,报错:There is insufficient memory for the Java Runtime Environment to continue.
=========================================================================================== 环境: linu ...
- Vertica节点宕机处理一例
Vertica节点宕机处理一例: 查询数据库版本和各节点状态 常规方式启动宕机节点失败 进一步查看宕机节点的详细日志 定位问题并解决 1. 查询数据库版本和各节点状态 dbadmin=> sel ...
- 由于某IP大频率提交评论导致服务器宕机
早上突然收到dnspod的宕机通知(好久没收到了,有点手足无措). 服务器在上午10:40时达到85%.uptime显示cpu利用率达到35.不宕才怪. 按照之前的经验,应该是触发一个特别耗CPU的处 ...
- ORA-04031错误导致宕机案例分析
今天遇到一起ORACLE数据库宕机案例,下面是对这起数据库宕机案例的原因进行分析.解读.分析过程中顺便记录一下这个案例的前因后果,攒点经验值,培养一下分析.解决问题的能力. 案例环境: 操作系统 ...
- 双十一来了,别让你的mongodb宕机了
好久没过来吹牛了,前段时间一直赶项目,没有时间来更新博客,项目也终于赶完了,接下来就要面临双十一这场惊心动魄的处女秀考验, 我们项目中会有一个wcf集群,而集群地址则放在mongodb中,所以mong ...
随机推荐
- react 网址导航
项目搭建 使用webpack.babel.react.antdesign配置单页面应用开发环境
- IE播放音频踩坑之路---待修改
在其他浏览器都是兼容的!在IE9就是显示一个黑色的框上面有个X 音乐无法播放 要显示播放界面的话,要添加 controls 属性(控件属性)例子:<audio src="xxx.m ...
- js获取相邻节点的value值
document.getElementById('id').nextElementSibling.value或者document.getElementById('id').previousElemen ...
- 贝塞尔曲线(面)二三维可视化(Three+d3)
贝塞尔曲线(面)二三维可视化(Three+d3) 在学完 games101 几何后开始实践,可视化贝塞尔曲线 我想实现三维的贝塞尔曲线,用 threejs,但是 threejs 控制太麻烦了,因此,我 ...
- List转换Map的三种方式
1.for循环 ... 2.使用guava Map<Long, User> maps = Maps.uniqueIndex(userList, new Function<User, ...
- OSI/RM体系结构
OSI/RM体系结构是第一个标准化的计算机网络体系结构. 它是针对广域网通信(也就是不同网络之间的通信)进行设计 的,将整个网络通信的功能划分为七个层次,由低到高分别是物理层(Physical L ...
- VictoriaMerics学习笔记(1):翻译官方广告
先看看VictoriaMetrics官网网站上是如何作(tree)宣(new)传(bee)的: 官方广告 0.(监控领域)最快解决方案 为高性能而设计 便于安装 支持单机和群集版本 1.更高效的存储空 ...
- Servlet程序常见错误
常见错误1:url-pattern中配置的路径没有以斜杠打头. 常见错误2:servlet-name配置的值不存在 常见错误3:servlet-class 标签的全类名配置错误
- Tomcat-如何在IDEA启动部署web模板
IDEA部署工程到Tomcat上运行 1,建议修改web工程对应的Tomcat运行实例名称 2,将需要部署的web工程添加到Tomcat运行实例中,添加或删除 Application context: ...
- Tomcat-IDEA整合Tomcat服务器
Tomcat(IDEA整合Tomcat服务器) 可以加多个版本tomcat