记录一次elasticsearch-5.6.4宕机排查经历

犯罪现场~~

es: 三节点，配置相同

内存: 248G

CPU: 没注意看

磁盘: 2T

data: 380G左右

indices: 近9800条

在下才疏学浅，目前跟着大佬学习，这个问题还没解决，大佬猜测是indices数量过高，将es打爆了，由于机器是客户的，indices的删减需要客户方的同意，暂时不确定是否是这个原因导致的，后期成功处理恢复es集群后，再来更新（为什么不看日志？因为日志太大了，108G，不知道应该搜索哪些关键字，有大佬知道，望赐教）

下面分享两个遇到的犯罪现场~~~

客户环境，就不贴ip地址出来了，以node1,node2,node3来代替，不过这个也不重要

犯罪现场一：es重新启动后，无法加入老的集群

'开发说kibana异常，无法访问，于是登录es服务，查看es的状态'

# curl 'http://node1:9200/_cat/nodes'

{"error":{"root_cause":[{"type":"master_not_discovered_exception":"reason":null}],"type":"master_not_discovered_exception","reason":null},"status":503}

`_cat/nodes无法查看到es集群的node信息，只好通过ps查找es的进程，最后发现node1的es进程挂了，因为日志太大，所以无法定位问题，于是重新去启动es的进程（./bin/elasticsearch -d -p ./PID）`

'tailf log/cluster-es.log 看到started，并且ps和ss可以查看到es的进程和端口后，再次执行以上的curl，结果发现还是一样的报错'

# curl 'http://node1ip:9200'

# curl 'http://node2ip:9200'

# curl 'http://node3ip:9200'

发现:

node2和node3的"cluster_uuid"一致，但是node1和node2，node3不一致，看来，node2和node3与node1的爱消失了~~~

解决：

在下才疏学浅，没有妙招，只好将三个节点的es全部kill，然后重新$(./bin/elasticsearch -d -p ./PID)启动es三节点

验证：

# curl 'http://node1ip:9200/_cat/nodes'

等待总是让人抓耳挠腮。。。当然，集群查询正常，此时，发现了新的犯罪现场，请看下一回合~~~

犯罪现场二：indices好大

'es集群虽然暂时正常了，由于kibana显示es集群是red，所以，还是要继续破案'

# curl 'http://node1ip:9200/_cat/indices' | grep green | wc -l

  %  Total    %  Received   %  Xferd  Average   Speed    Time    Time     Time      Current

                                      Dload    Upload    Total   Spent    Left      Speed

100  1118k  100  1118k      0      0   261k        0   0:00:04  0:00:04  --:--:--    274k

# curl 'http://node1ip:9200/_cat/indices' | grep red | wc -l

  %  Total    %  Received   %  Xferd  Average   Speed    Time    Time     Time      Current

                                      Dload    Upload    Total   Spent    Left      Speed

100  1118k  100  1118k      0      0   309k        0   0:00:03  0:00:03  --:--:--    309k

8124

# curl 'http://node1ip:9200/_cat/indices' | grep yellow | wc -l

  %  Total    %  Received   %  Xferd  Average   Speed    Time    Time     Time      Current

                                      Dload    Upload    Total   Spent    Left      Speed

100  1118k  100  1118k      0      0   250k        0   0:00:04  0:00:04  --:--:--    343k

1665

'啊这...8124+1665=9789...由于集群刚刚恢复，数据需要同步，第二天再来查看吧~~~'

# one day过去了~~~果然早起的运维吃爆红，node1还活着，node2和node3殉情了~~~

# curl 'http://hostip:9200/_cat/nodes'

{"error":{"root_cause":[{"type":"null_pointer_exception":"reason":null}],"type":"null_pointer_exception","reason":null},"status":500}

通过日志，看到了几个报错，基本上也就是indices在恢复的时候，又暴毙了吧，只有等客户方沟通结束，删除一些indices后，再做破案吧，破案后，再来更新

截取四段日志做参考吧，希望有大佬可以带我飞~~~

1、fatal error on the network layer

2、[node1] failed to connect to master [node2]

3、MasterNotDiscoveredExcption: null

4、[node1] timed out while waiting for initial discovered state - timeout: 30s

--------------------------------更新与2020年12月13日---------------------------------

最终，在客户方同意下，删除了历史indices，只保留最近一个月的数据，indices从9789所见到了2785；

但是在恢复过程中，es又暴毙了一次，发现客户方没有加内存限制，加了内存限制之后，解决了

记录一次elasticsearch-5.6.4宕机排查经历的更多相关文章

HBase–RegionServer宕机恢复原理
Region Server宕机总述 HBase一个很大的特色是扩展性极其友好,可以通过简单地加机器实现集群规模的线性扩展,而且机器的配置并不需要太好,通过大量廉价机器代替价格昂贵的高性能机器.但也正因 ...
elasticsearch介绍集群,模拟横向扩展节点、节点宕机、改变分片
出处:[http://www.cnblogs.com/dennisit/p/4133131.html] ,防楼主删博,故保留一份! elasticsearch用于构建高可用和可扩展的系统.扩展 ...
Elasticsearch宕机问题
个人博客:https://blog.sharedata.info/ Elasticsearch 突然宕机,每次重启都只生成错误日志报错信息:## There is insufficient memor ...
记录一次mysql宕机的解决办法
首先先粘贴出来我的错误信息,如下: 2019-07-16T00:53:18.285919Z 0 [System] [MY-010116] [Server] /usr/sbin/mysqld (mysq ...
【JVM】linux上tomcat中部署的web服务，时好时坏，莫名其妙宕机，报错：There is insufficient memory for the Java Runtime Environment to continue.
=========================================================================================== 环境: linu ...
Vertica节点宕机处理一例
Vertica节点宕机处理一例: 查询数据库版本和各节点状态常规方式启动宕机节点失败进一步查看宕机节点的详细日志定位问题并解决 1. 查询数据库版本和各节点状态 dbadmin=> sel ...
由于某IP大频率提交评论导致服务器宕机
早上突然收到dnspod的宕机通知(好久没收到了,有点手足无措). 服务器在上午10:40时达到85%.uptime显示cpu利用率达到35.不宕才怪. 按照之前的经验,应该是触发一个特别耗CPU的处 ...
ORA-04031错误导致宕机案例分析
今天遇到一起ORACLE数据库宕机案例,下面是对这起数据库宕机案例的原因进行分析.解读.分析过程中顺便记录一下这个案例的前因后果,攒点经验值,培养一下分析.解决问题的能力. 案例环境: 操作系统 ...
双十一来了，别让你的mongodb宕机了
好久没过来吹牛了,前段时间一直赶项目,没有时间来更新博客,项目也终于赶完了,接下来就要面临双十一这场惊心动魄的处女秀考验, 我们项目中会有一个wcf集群,而集群地址则放在mongodb中,所以mong ...

随机推荐

Vue系列教程（二）之Vue进阶
一.Vue对象的操作 1. 可以通过一个Vue对象操作另一个Vue对象 var v1 = new Vue({ el: "#app1", data: {title:"hel ...
利用js模拟用户的cookie信息保存
注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6814761849708347907/ 默认已完成爬虫文档<爬虫学习文档顺序> 并简单搭建完展示页面和管 ...
iframe页面总是提示需要重新登录怎么办
原文链接:iframe页面二次登录问题生产问题问题背景由于历史原因,公司内部系统有一些页面是基于iframe嵌入的其他系统的页面,之前一直运行正常,最近不知什么原因接连出现访问所有iframe页 ...
Sentry 企业级数据安全解决方案 - Relay 操作指南
内容整理自官方文档本篇回顾了我们在自托管外部使用 Relay 时的操作指南,即在您的硬件上运行的 Relay 并将事件转发到 sentry.io. 系列 Sentry 企业级数据安全解决方案 - R ...
JUC之线程池基础
线程池定义和方法线程池的工作时控制运行的线程数量,处理过程中将任务放入队列,然后在线程创建后启动这些任务,如果线程数量超过了最大数量,超出数量的线程排队等候,等待其他线程执行完成,再从队列中取出任 ...
Go - 如何编写 ProtoBuf 插件 (三) ？
目录前言演示代码小结推荐阅读前言上篇文章<Go - 如何编写 ProtoBuf 插件 (二) >,分享了基于自定义选项定义了 interceptor 插件,然后在 hell ...
K8s中的volumes-容器数据存放类型及位置
学习对象:kubectl explain pod.spec.volumes.pod.spec.containers.image.volumeMounts 介绍Volumes 容器内部也有自己的空间,但 ...
Ubuntu16桌面版编译OpenCV4的java库和so库
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
进程池与线程池基本使用、协程理论与实操、IO模型、前端、BS架构、HTTP协议与HTML前戏
昨日内容回顾 GIL全局解释器锁 1.在python解释器中才有GIL的存在(只与解释器有关) 2.GIL本质上其实也是一把互斥锁(并发变串行牺牲效率保证安全) 3.GIL的存在是由于Cpyth ...
X-Y问题（X-Y problem）
X-Y Problem 什么是X-Y problem呢? 某人想要解决问题X 他认为Y可能是解决X问题的方法但是他不知道Y怎么做于是他去问别人Y应该怎么做这就产生了一个X-Y problem 也 ...

记录一次elasticsearch-5.6.4宕机排查经历

犯罪现场~~

犯罪现场一：es重新启动后，无法加入老的集群

犯罪现场二：indices好大

记录一次elasticsearch-5.6.4宕机排查经历的更多相关文章

随机推荐

热门专题