升级salt导致进程kill问题记录
重启salt-minion导致由salt启动的进程kill问题排查
作者:耀耀
环境
- 服务器系统为centos6及centos7
- 服务器服务进程都是由salt-master操作salt-minion启动
一、起因
- 服务器从salt-2015.5.11升级到2018.03.03版本
- 在升级的过程中导致在centos7上的一些进程被kill了
二、升级脚本(salt.sh)
# cat salt.sh
#!/bin/bash
cd /root && wget -O /root/bootstrap-salt.sh https://bootstrap.saltstack.com && bash /root/bootstrap-salt.sh > /tmp/bootstrap-salt.log
Cenos6=`cat /etc/redhat-release|grep 6`
if [ ! -n "$Cenos6" ];then
systemctl restart salt-minion && echo `ps -ef |grep salt|grep '201'` |cut -d" " -f2|xargs kill -9 {} >/tmp/kill.log
else
/etc/init.d/salt-minion restart && echo `ps -ef |grep salt|grep 'python2.6'` |cut -d" " -f2|xargs kill -9 {} >/tmp/kill.log
fi
二、排查过程
我们在不同的服务器执行了salt.sh之后发现了在centos7上面的一些服务进程被kill了。之后我们排查是否因为这个脚本导致的问题,经过排查后发现bootstrap-salt.sh执行后是不会导致相关进程被kill
我们怀疑是不是
systemctl restart salt-minion && echo `ps -ef |grep salt|grep '201'` |cut -d" " -f2|xargs kill -9 {} >/tmp/kill.log
导致的问题,另外因为我们的进程在被kill -15的时候 会记录日志 我们从日志里发现进程确实是因为kill -15才挂掉的。那我可以认为并不是脚本里的kill -9引起的
以上我们认为有可能systemctl restart salt-minion引起的,接下来我们重复的执行这条命令,发现一个共同的问题就是只有被kill的进程是由salt-minion启动的时候才会挂掉。如果是由手动启动的进程不会因为执行这个命令而挂掉。
用starce可以看出进程的系统调用 执行strace -e signal=SIGTERM -p {pid} 之后重启salt-minion 发现进程是被systemd干掉的
--- SIGTERM {si_signo=SIGTERM, si_code=SI_USER, si_pid=1, si_uid=0} ---
所以这个挂掉的问题 应该是salt-minion和systemd之间的问题
研究了一下systemd的原理 发现systemctl在restart service的时候,有个killmode参数,默认是control-group,会向控制组内的所有进程发送sigterm。而salt的服务配置里就使用的默认参数,由salt-minion启动的进程都在salt这个组里,所以会导致相关进程被kill
ps axwf -eo pid,user,cgroup 可以看一下是不是crgoup一样
三、总结
因为升级salt版本 minion重启的时候会导致由salt启动的进程挂掉的问题 原因是centos7版本进程有systemd来进行管理 远程的master发送命令给对应系统的minion minion作为父进程启动相关服务 相关服务会copy minion的cgroup作为自己的cgroup 当minion重启的时候 因为killmode参数,默认是control-group,所以systemd会找到和salt-minion一样的cgroup进行 并且让他们停止运行。所以说导致服务挂掉,解决的办法是修改/usr/lib/systemd/system/salt-minion.service 增加KillMode=process 会解决这个问题
相关文档
- https://www.jianshu.com/p/44b39aab32d4
- https://xieyugui.wordpress.com/2017/09/13/%E9%87%8D%E5%90%AFsalt-minion%E4%BC%9A%E8%BF%9E%E5%90%8Ckill%E5%85%B6%E4%BB%96%E8%BF%9B%E7%A8%8B/
- https://github.com/saltstack/salt/issues/22993
升级salt导致进程kill问题记录的更多相关文章
- Linux下禁止使用swap及防止OOM机制导致进程被kill掉
首先解释两个概念: swap:在linux里面,当物理内存不够用了,而又有新的程序请求分配内存,那么linux就会选择将其他程序暂时不用的数据交换到物理磁盘上(swap out),等程序要用的时候再读 ...
- [转]Linux下防止进程使用swap及防止OOM机制导致进程被kill掉
首先解释两个概念:swap:在linux里面,当物理内存不够用了,而又有新的程序请求分配内存,那么linux就会选择将其他程序暂时不用的数据交换到物理磁盘上(swap out),等程序要用的时候再读进 ...
- 升级 Elasticsearch 集群数量实战记录
搜索引擎 升级 Elasticsearch 集群数量实战记录 现在线上有一个elasticsearch集群搜索服务有三台elasticsearch实例(es1.es2.es3),打算将其升级为5台(增 ...
- 升级到 ExtJS 5的过程记录
升级到 ExtJS 5的过程记录 最近为公司的一个项目创建了一个 ExtJS 5 的分支,顺便记录一下升级到 ExtJS 5 所遇到的问题以及填掉的坑.由于 Sencha Cmd 的 sencha ...
- linux 杀死进程kill 等用法
kill -9 $(ps -ef | grep process_name | grep -v grep | awk '{print $2}') 稍微解释一下: awk '{print $2} ...
- 升级Windows 10 正式版过程记录与经验
升级Windows 10 正式版过程记录与经验 [多图预警]共50张,约4.6MB 系统概要: 预装Windows 8.1中文版 64位 C盘Users 文件夹已经挪动到D盘,并在原处建立了符号链接. ...
- Linux服务器管理: 系统的进程管理终止进程kill命令
在Linux中如何用kill终止进程: kill -l [root@localhost~]#kill -l 可以看到kill中有很多的 常用: -1 是重启一个进程 -9 是强制杀死进程 ...
- 解决删除/升级Python导致Ubuuntu无法进入桌面的问题
找到问题的原因后于是换个思路,想大概修复了python,Ubuntu进入桌面应该也就没啥问题了.于是重新安装Python发现还是无济于事.也通过/usr/bin/python: can't find ...
- Linux系统网络编程中TCP通讯socket--send导致进程被关闭
https://blog.csdn.net/dsanmux/article/details/52083403 https://blog.csdn.net/u011425939/article/deta ...
随机推荐
- selenium+python unittest实践过程之问题杂集
1.列表选择项后直接获取文本内容获取不到,应该获取选择后显示的button的值 2.取值后的值带有空格,可以使用.strip()删除前后空格,以便断言 3.取值后有些值需要对类型进行转换才能断言成功 ...
- Docker实战(七)之为镜像添加SSH服务
1.基于commit命令创建 Docker提供了docker commit命令,支持用户提交自己对制定容器的修改,并生成新的镜像.命令格式为docker commit CONTAINER [REPOS ...
- java读入和输出
一: 在python里直接使用input函数就可以,在java里,需要使用Scanner类,用System.in进行初始化,获取用户输入可以用nextLine获取字符串,nextInt获取整形数据. ...
- webStorm常用设置之过滤文件夹
webStorm是一款很好用的前端IDE,但是不能否认的是webStorm很重,没有sublime轻便 尤其是项目cnpm后,加载node_modules时的状态,简直想那块豆腐自杀有莫有,就算你耐心 ...
- 实现点击到底部、顶部、指定div功能
顶部: $(".back_top").click(function () { scrollTo(0, 0); }); function goTop() { $('html, bod ...
- CodeIgniter Doctrine2基本使用(二)(转)
CodeIgniter Doctrine2基本使用(二) 继上次写的一篇文章<CodeIgniter Doctrine2基本使用(一)>写到操作实体的之通过Channel这个实体向数据库表 ...
- HBase数据存取流程
一.HBase的特点是什么 1.HBase一个分布式的基于列式存储或者行式存储的数据库,基于hadoop的hdfs存储,zookeeper进行管理. 2.HBase适合存储半结构化或非结构化数据,对于 ...
- Deepin15.8系统下安装QorIQ Linux SDK v2.0 yocto成功完美运行的随笔
2019.2.17日:最终安装成功,完美解决! 2019.2.16日:最终安装未成功,但是过程中排除 了几个bug,前进了几步,仅供参考. 写在最前面,yocto安装是有系统要求的,Deepin 15 ...
- 单片机实现简易版shell的方法和原理
Rt-thread 中有一个完整的finsh(shell )系统,使用串口做命令行输入输出.但是想要用这个炫酷的工具就必须要上rtthread系统,或者花大力气将其移植出来.于是我就自己写了一个类似于 ...
- 5.Control flow statements-流程控制(Dart中文文档)
你可以使用如下流程控制符: if and else for loops while and do-while loops break and continue switch and case asse ...