工作日记-storm集群业务崩溃和解决方案
背景
昨天公司业务部门报告业务崩溃,查看各个业务节点后,定位问题到storm集群。
打开storm ui查看下任务状态,发现可以加载页面元素,但是无法加载数据,分析是nimbus挂掉了,重启nimbus。本着先恢复业务的原则,我直接通过命令行停止任务后,又重新提交了任务,这个时候访问storm ui发现业务系统已经恢复正常。业务系统虽然恢复了,但是需要找到问题的根本原因,才能确保不再发生。
storm部署情况
公司的生产环境部署的storm集群,其中,zookeeper和nimbus都是单点,supervisor也只部署了一个,每个supervisor开启四个slot,这几个关键组件都部署在了一台物理服务器上。
storm任务,会启动两个worker,一共12个线程,分布在这台物理机上,查看storm ui可以看到,启动了两个worker,端口分别为6700和6701,每一个worker负责六个线程。
问题分析
业务层
查看业务系统日志,发现8月3日9点51开始就不正常了,表现为不生产正确的业务事件。
看8月3号以后的业务日志,没有异常的error,说明问题不是出在业务层,继续看storm层。
storm层
nimbus日志
因为前面已知nimbus因为某种原因挂掉了,所以先看nimbus日志,$STORM_HOME/logs/nimbus.log日志如下:
2020-07-31 10:14:57.523 o.a.s.z.Zookeeper main-EventThread [INFO] active-topology-blobs [startstorm-10-1592659649] local-topology-blobs [startstorm-10-1592659649-stormconf.ser,startstorm-10-1592659649-stormjar.jar,startstorm-10-1592659649-stormcode.ser] diff-topology-blobs []
2020-07-31 10:14:57.620 o.a.s.util timer [ERROR] Halting process: ("Error when processing an event")
java.lang.RuntimeException: ("Error when processing an event")
at org.apache.storm.util$exit_process_BANG_.doInvoke(util.clj:341) ~[storm-core-1.2.3.jar:1.2.3]
at clojure.lang.RestFn.invoke(RestFn.java:423) ~[clojure-1.7.0.jar:?]
at org.apache.storm.daemon.nimbus$nimbus_data$fn__8298.invoke(nimbus.clj:221) ~[storm-core-1.2.3.jar:1.2.3]
at org.apache.storm.timer$mk_timer$fn__6387$fn__6388.invoke(timer.clj:71) ~[storm-core-1.2.3.jar:1.2.3]
at org.apache.storm.timer$mk_timer$fn__6387.invoke(timer.clj:42) ~[storm-core-1.2.3.jar:1.2.3]
at clojure.lang.AFn.run(AFn.java:22) ~[clojure-1.7.0.jar:?]
at java.lang.Thread.run(Thread.java:745) [?:1.8.0_121]
2020-07-31 10:14:57.697 o.a.s.z.Zookeeper main-EventThread [INFO] active-topology-dependencies [] local-blobs [startstorm-10-1592659649-stormconf.ser,startstorm-10-1592659649-stormjar.jar,startstorm-10-1592659649-stormcode.ser] diff-topology-dependencies []
2020-07-31 10:14:57.697 o.a.s.z.Zookeeper main-EventThread [INFO] Accepting leadership, all active topologies and corresponding dependencies found locally.
2020-07-31 10:14:58.106 o.a.s.d.nimbus Thread-7 [INFO] Shutting down master
最后一行,Shutting down master,代表nimbus挂了。
supervisor日志
看supervisor的日志,$STORM_HOME/logs/supervisor.log
查看对应时段的日志信息,可以看到,首先是因为clientsession有87007ms没有接收到server的信息,所以触发了timeout处理机制。
2020-07-31 10:14:20.885 o.a.s.s.o.a.z.ClientCnxn main-SendThread(10.43.4.153:2181) [WARN] Client session timed out, have not heard from server in 87077ms for sessionid 0x105876332810086
第二步kill了worker
2020-07-31 10:14:53.914 o.a.s.d.s.Container SLOT_6702 [INFO] Killing 923112bb-4901-4d63-a93e-900e8fb7110e:0c453b60-2eaf-48ab-8c2a-0f7c267dbad5
第三步修改业务thread的状态
2020-07-31 10:14:54.363 o.a.s.s.o.a.c.f.s.ConnectionStateManager main-EventThread [INFO] State change: SUSPENDED
第四步,重连,发现失败,线程状态修改为LOST
2020-07-31 10:14:56.820 o.a.s.s.o.a.z.ClientCnxn main-SendThread(10.43.4.153:2181) [INFO] Opening socket connection to server 10.43.4.153/10.43.4.153:2181. Will not attempt to authenticate using SASL (unknown error)
2020-07-31 10:14:56.980 o.a.s.s.o.a.z.ClientCnxn main-SendThread(10.43.4.153:2181) [INFO] Socket connection established to 10.43.4.153/10.43.4.153:2181, initiating session
2020-07-31 10:14:57.015 o.a.s.s.o.a.z.ClientCnxn main-SendThread(10.43.4.153:2181) [WARN] Unable to reconnect to ZooKeeper service, session 0x105876332810086 has expired
2020-07-31 10:14:57.021 o.a.s.s.o.a.c.ConnectionState main-EventThread [WARN] Session expired event received
2020-07-31 10:14:57.187 o.a.s.s.o.a.c.f.s.ConnectionStateManager main-EventThread [INFO] State change: LOST
2020-07-31 10:14:57.194 o.a.s.s.o.a.z.ClientCnxn main-EventThread [INFO] EventThread shut down for session: 0x105876332810086
第五步,重连成功后,修改线程状态为RECONNECTED,清理原来worker的信息,并建立新的worker
2020-07-31 10:14:57.241 o.a.s.s.o.a.z.ClientCnxn main-SendThread(10.43.4.153:2181) [INFO] Opening socket connection to server 10.43.4.153/10.43.4.153:2181. Will not attempt to authenticate using SASL (unknown error)
2020-07-31 10:14:57.242 o.a.s.s.o.a.z.ClientCnxn main-SendThread(10.43.4.153:2181) [INFO] Socket connection established to 10.43.4.153/10.43.4.153:2181, initiating session
2020-07-31 10:14:57.245 o.a.s.s.o.a.z.ClientCnxn main-SendThread(10.43.4.153:2181) [INFO] Session establishment complete on server 10.43.4.153/10.43.4.153:2181, sessionid = 0x105876332810095, negotiated timeout = 20000
2020-07-31 10:14:57.277 o.a.s.s.o.a.c.f.s.ConnectionStateManager main-EventThread [INFO] State change: RECONNECTED
2020-07-31 10:15:01.983 o.a.s.d.s.Container SLOT_6700 [INFO] Cleaning up 923112bb-4901-4d63-a93e-900e8fb7110e:f1ede737-d405-44a5-a19e-eb4979cfd338
2020-07-31 10:15:03.183 o.a.s.d.s.Container SLOT_6702 [INFO] REMOVE worker-user 0c453b60-2eaf-48ab-8c2a-0f7c267dbad5
2020-07-31 10:15:03.437 o.a.s.d.s.BasicContainer SLOT_6702 [INFO] Created Worker ID 22b3823d-c03c-4593-aaac-f9ae6f5e4e1d
分析到现在还是没有头绪。
暂时的解决方案
我们只能假设是nimbus异常宕机导致后续的问题。
解决方案是:
引入daemontools监控工具,来监控nimbus和supervisor,在挂掉后自动恢复。
引入新的机器,增加supervisor物理节点,看下是否可以解决问题。
增加物理节点
除了按照常规步骤安装部署以外,启动nimbus和supervisor的时候,需要指定一下hostname的参数,防止出现其他supervisor的机器找不到nimbus主机的问题。
以在10.43.4.153和10.43.4.151上启动两个supervisor,在10.43.4.153上启动nimbus为例
nohup /usr/local/apache-storm-1.2.3/bin/storm nimbus -c storm.local.hostname="10.43.4.153" &
nohup /usr/local/apache-storm-1.2.3/bin/storm supervisor -c storm.local.hostname="10.43.4.153" &
nohup /usr/local/apache-storm-1.2.3/bin/storm supervisor -c storm.local.hostname="10.43.4.151" &
成功部署后,如图所示
部署常见问题:https://www.iteye.com/blog/wangmengbk-2215140
damentools工具部署使用
安装部署
创建
/package
mkdir -p /package
chmod 1755 /package
cd /package
下载 daemontools-0.76.tar.gz
/package
gunzip daemontools-0.76.tar
tar -xpf daemontools-0.76.tar
rm -f daemontools-0.76.tar
cd admin/daemontools-0.76
编辑 src/conf-cc 在最后加入
-include /usr/include/errno.h
编译
package/install
启动
首先在"/etc/init"目录下创建一个svscan.conf文件 ,然后在文件中添加如下内容保存:
start on runlevel [345]
respawn
exec /command/svscanboot
其次分别执行如下两个命令重新加载"/etc/init"目录下的配置文件,执行ps命令查看是否启动成功
[root@rfidweb init]# initctl reload-configuration
[root@rfidweb init]# initctl start svscan
svscan start/running, process 32735
[root@rfidweb init]# ps -ef | grep svs
root 32735 1 0 13:56 ? 00:00:00 /bin/sh /command/svscanboot
root 32737 32735 0 13:56 ? 00:00:00 svscan /service
root 32758 8815 0 13:56 pts/0 00:00:00 grep svs编写脚本
#! /bin/bash
mkdir -p /service/storm/nimbus
touch /service/storm/nimbus/run
chmod +x /service/storm/nimbus/run mkdir -p /service/storm/ui
touch /service/storm/ui/run
chmod +x /service/storm/ui/run mkdir -p /service/storm/supervisor
touch /service/storm/supervisor/run
chmod +x /service/storm/supervisor/run
添加内容:
#! /bin/bash exec 2>&1
exec /usr/local/apache-storm-1.2.3/bin/storm ui
#! /bin/bash exec 2>&1
exec /usr/local/apache-storm-1.2.3/bin/storm nimbus -c storm.local.hostname="10.43.4.153"验证是否生效
ps -ef | grep "nimbus"
然后kill -9
再次ps命令查看pid已经改变
工作日记-storm集群业务崩溃和解决方案的更多相关文章
- storm集群架构
一.storm何许人也? Storm 是Twitter的一个开源框架.Storm一个分布式的.容错的实时计算系统,它被托管在GitHub上,遵循 Eclipse Public License 1.0. ...
- Storm集群组件和编程模型
Storm工作原理: Storm是一个开源的分布式实时计算系统,常被称为流式计算框架.什么是流式计算呢?通俗来讲,流式计算顾名思义:数据流源源不断的来,一边来,一边计算结果,再进入下一个流. 比 ...
- Storm集群安装Version1.0.1开启Kerberos
Storm集群安装,基于版本1.0.1, 同时开启Kerberos安全认证, 使用apache-storm-1.0.1.tar.gz安装包. 1.安装规划 角色规划 IP/机器名 安装软件 运行进程 ...
- storm集群部署和配置过程详解
先整体介绍一下搭建storm集群的步骤: 设置zookeeper集群 安装依赖到所有nimbus和worker节点 下载并解压storm发布版本到所有nimbus和worker节点 配置storm ...
- Storm集群安装部署步骤【详细版】
作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息 网址: http://www.cnblogs.com/panfeng412/archive/2012/11/30/how ...
- Storm集群的安装配置
Storm集群的安装分为以下几步: 1.首先保证Zookeeper集群服务的正常运行以及必要组件的正确安装 2.释放压缩包 3.修改storm.yaml添加集群配置信息 4.使用storm脚本启动相应 ...
- Storm集群部署
一. 说明 Storm是一个分布式实时计算系统,Storm对于实时计算的意义就相当于Hadoop对于批量计算的意义.对于实时性较高的系统Storm是不错的选择.Hadoop提供了map, reduce ...
- Storm集群安装详解
storm有两种操作模式: 本地模式和远程模式. 本地模式:你可以在你的本地机器上开发测试你的topology, 一切都在你的本地机器上模拟出来; 远端模式:你提交的topology会在一个集群的机器 ...
- Storm入门教程 第三章Storm集群安装部署步骤、storm开发环境
一. Storm集群组件 Storm集群中包含两类节点:主控节点(Master Node)和工作节点(Work Node).其分别对应的角色如下: 主控节点(Master Node)上运行一个被称为N ...
- Storm 集群安装配置
本文详细介绍了 Storm 集群的安装配置方法.如果需要在 AWS 上安装 Storm,你应该看一下 storm-deploy 项目.storm-deploy 可以自动完成 E2 上 Storm 集群 ...
随机推荐
- 百度高效研发实战训练营-Step4
百度高效研发实战训练营-Step4 4.1 代码检测规则:Java案例详解 以Java的案例进行代码检查规则解释,代码检测规则可以分为以下十类: 4.1.1 源文件规范 该类规范,主要为从文件名.文件 ...
- WxPython跨平台开发框架之模块字段权限的管理
在我的很多Winform开发项目中,统一采用了权限管理模块来进行各种权限的控制,包括常规的功能权限(工具栏.按钮.菜单权限),另外还可以进行字段级别的字段权限控制,字段权限是我们在一些对权限要求比较严 ...
- Docker Inspect 模板
Docker 使用Go 模板,您可以使用它来操作某些命令和日志驱动程序的输出格式. Docker 提供了一组基本函数来操作模板元素.所有这些示例都使用该docker inspect命令,但许多其他 C ...
- ReactNative开发总结
https://www.jianshu.com/u/b09c3959ab3b ReactNative之项目结构介绍 一.初始化ReactNative工程 自动创建iOS和安卓工程,和对应的JS文件,i ...
- Linux 提权指南
知屋漏者在宇下,知政失者在草野,知经误者在诸子. 导航 壹 - 密码搜寻 贰 - Sudo 命令 叁 - SUID/SGID 特权 肆 - 计划任务 伍 - 文件/目录 陆 - Linux 内核 柒 ...
- Billyboss pg walkthough Intermediate window
nmap ┌──(root㉿kali)-[/home/ftpuserr/nc.exe] └─# nmap -p- -A -sS 192.168.219.61 Starting Nmap 7.94SVN ...
- arthas进行java应用不停服务情况下的class文件热部署更新
我们在工作的过程中会遇到java应用已经部署或升级投入使用,发现某个单元文件有bug需要修正,但是客户的应用目前不能停止,而且不能因为一个非致命的bug来进行整个平台的一次升级.我们需要进行单文件的更 ...
- C#从数据库中加载照片的
从数据库中读取人员照片信息并加载到图片控件的代码 string conn = "Server=192.168.xx.xx;Database=dbName;User ID=sa;passwor ...
- 探索sqlmap在WebSocket安全测试中的应用
探索sqlmap在WebSocket安全测试中的应用 WebSocket与HTTP的区别 WebSocket,对于初次接触的人来说,往往会引发一个疑问:既然我们已经有了广泛使用的HTTP协议,为何还需 ...
- [记录点滴]OpenResty 支持http v2的问题
[记录点滴]OpenResty 支持http v2的问题 0x00 摘要 记录一次OpenResty支持http v2的问题排查. 0x01 问题 错误现象:无法上传图片,后台log是http v2 ...