1.问题由来

近期发现堡垒机环境有如下问题，systemd占用大量cpu：

原文链接：https://www.cnblogs.com/yaohong/p/16046670.html

2.问题定位

2.1.什么是systemd

咋们可以先从systemd这个进程入手分析这个问题：
根据文档《systemd (简体中文)》文档，我们可知如下图信息：
作用：

systemd 会给每个用户生成一个 systemd 实例，用户可以在这个实例下管理服务，启动、停止、启用以及禁用他们自己的单元。

工作原理：

“从 systemd 226 版本开始，/etc/pam.d/system-login 默认配置中的 pam_systemd 模块会在用户首次登录的时候, 自动运行一个 systemd --user 实例。 只要用户还有会话存在，这个进程就不会退出；用户所有会话退出时，进程将会被销毁。”。

根据上面这段话，我们可以猜测：ssh登录时可以创建systemd进程，ssh退出登录时可以销毁systemd --user进程。

怀着这个猜测，我们进行下面的研究分析。

2.2.systemd进程怎么产生的

首先,我们在第一个终端，执行下面的命令创建test3用户:

$ groupadd test3

$ useradd -g test3 -m -d /home/test3 -s /bin/bash test3

$ passwd test3

然后，在第二个终端，执行ssh登录test3

$ ssh test3@172.21.0.46

接着，在第一个终端，执行如下命令过滤新产生的test3 用户的systemd进程

$ top -bc |grep systemd

得到如下图回显，可知：1.9秒前产生了一个pid为19178的systemd --user进程，此进程占用了40.9%的CPU。

于是对接systemd进程创建得出如下结论：
systemd版本大于226（centos7为219、ubuntu1604为229），ssh 登录会产生登录用户对应的systemd进程。

2.3.systemd进程为何没有被销毁

既然ssh登录会产生systemd进程，那退出ssh登录应该会销毁对应systemd进程。
于是，我们在2.2中的第二个窗口执行 exit退出ssh连接。

$ exit

然后，再执行如下命令,发现没有test3用户的systemd进程了。

$ top -bc | grep systemd

至此，我们对systemd进程的退出也有了了解：退出ssh连接即可销毁对应systemd进程。
但，为什么我们看到的腾讯云环境上systemd进程一直没有被销毁？

此时我想到了 非正常退出ssh连接，

如2.1章节，在第二个终端，执行ssh登录test3，再如下图直接点“X”直接关闭窗口，

然后，在第一个终端，执行如下命令过滤新产生的test3 用户的systemd进程

$ top -bc |grep systemd

test3用户的systemd进程还存在，惊讶！！！
于是分别做如下操作对systemd进程关闭做测试，并得出相应结论:

1.xshell连内部vmware上虚拟机环境，点“X”号关闭窗口，对应systemd进程正常销毁；
2.web端连公司堡垒机上的云主机环境，点“X”号关闭窗口，对应systemd进程不能被销毁；
3.web端通过部门内部运维平台连接内部虚拟机环境，点“X”号关闭窗口，对应systemd进程不能被销毁；

于是对于systemd进程销毁得出如下结论：
web端连接的虚拟机终端，直接点“X”号关闭窗口，登录用户对应的systemd进程都不能被销毁，exit命令退出终端登录可以销毁，Xshell无此问题。

2.4.systemd进程吃CPU的原因

关于进程跟踪我们很容易想到strace命令。
我们对2.1章节中创建的test3的systemd进程进行跟踪。

得到如下回显：

看这个进程是在不停的扫描磁盘。

关于这个问题，我在《google-cloud-kuberbetes-run-away-systemd-100-cpu-usage》一文中得到答案：

Docker在17.03和18.09版本之间的变化导致了大量的systemd活动，无论在pod中执行了什么。同时，只要runc发生change，它导致所有mount units被重新加载，作为执行存活探针的一部分。
于是针对这个猜想，我看了下k8s同一集群中systemd正常与异常的节点：
1.正常节点：

# cat /proc/mounts |wc

  120     720   46377

2.异常节点：

# cat /proc/mounts |wc

  1017    6102  341121

于是瞬间也有了结论：
systemd 进程cpu使用率太高是因为mount挂载点太多，mount有更新后，通过dbus通知到systemd重新遍历所有mount，遍历操作比较耗cpu。
同时，既然说到和docker版本有关系，我便针对性找了两个有差异的环境做docker版本对不：

1.ubuntu1604+mount挂载多+systemd正常环境

2.ubuntu1604+mount挂载多+systemd异常环境

由上图我们发行，环境1中mount挂载为1537个，比环境2中mount挂载为1028个更高但是没出现systemd吃cpu问题，可知系统相同情况下和docker版本有关。

对于什么情况下出现systemd占用高，我们得出如下结论：
systemd版本大于226（ubuntu1604为229）+docker版本为19.03.14，无论runc做了什么操作，dbus会通知systemd重新遍历 mount，遍历mout过多（cat /proc/mounts |wc命令查看）会导致systemd进程吃CPU。

三、解决方案

1.不使用web终端连接systemd版本大于226，docker>=19.03.14的环境，可以使用比如xshell连接。
2.针对runc活动导致systemd进程吃CPU问题，google GKE 团队给出如下优化方案：

原文链接：https://www.cnblogs.com/yaohong/p/16046670.html

四、总结

1.systemd进程如何被创建：systemd版本大于226（centos7为219、ubuntu1604为229），ssh 登录会产生登录用户对应的systemd --user进程。
2.systemd进程为何未被销毁：web端连接的虚拟机终端，直接点“X”号关闭窗口，登录用户对应的systemd进程都不能被销毁，exit命令退出终端登录可以销毁，Xshell无此问题。
3.systemd进程为何吃cpu：systemd版本大于226（ubuntu1604为229）+docker版本为19.03.14，无论runc做了什么操作，dbus会通知systemd重新遍历 mount，如果遍历mount过多（cat /proc/mounts |wc命令查看，700个会吃30%CPU，1000个会吃50%左右CPU）就会导致systemd进程吃CPU。

原文链接：https://www.cnblogs.com/yaohong/p/16046670.html

五、参考文档

《systemd (简体中文)》
《google-cloud-kuberbetes-run-away-systemd-100-cpu-usage》

《原文链接：https://www.cnblogs.com/yaohong/p/16046670.html》

systemd --user进程CPU占用高问题分析的更多相关文章

性能分析 | Java进程CPU占用高导致的网页请求超时的故障排查
一.发现问题的系统检查: 一个管理平台门户网页进统计页面提示请求超时,随进服务器操作系统检查load average超过4负载很大,PID为7163的进程占用到了800%多. 二.定位故障根据这种故 ...
排查java进程cpu占用高的问题
一.思路分两步,主要是找出占用cpu高的进程,再找出该进程内到底是哪个线程占用cpu高. 二.找出占用cpu高的进程参考: https://blog.csdn.net/hfhwfw/article ...
偶遇 smon 进程cpu 开销高异常分析
今天突然发现线上一台oracle 数据库 servercpu 跑的非常高.感觉不是非常正常,细致看了下.发现是smon 进程吃掉了一个cpu. 那么这个smon 进程究竟在倒腾啥玩意对smon 进程 ...
CentOS进程资源占用高原因分析命令
1.查看进程的线程:ps -eLf|egrep 'gateserver|UID' 2.跟踪线程调用: strace -p 15530 3.统计线程中函数的调用小号CPU时间:strace -p 1 ...
linux进程资源占用高原因分析命令记录
1.查看进程的线程: ps -eLf|egrep 'gateserver|UID' 2.跟踪线程调用: strace -p 15530 3.统计线程中函数的调用小号CPU时间: strace -p 1 ...
如何在 Linux 中找出 CPU 占用高的进程
1) 怎样使用 top 命令找出 Linux 中 CPU 占用高的进程在所有监控 Linux 系统性能的工具中,Linux 的 top 命令是最好的也是最知名的一个.top 命令提供了 Linux ...
在 Linux 中找出 CPU 占用高的进程
列出系统中 CPU 占用高的进程列表来确定.我认为只有两种方法能实现:使用 top 命令和 ps 命令.出于一些理由,我更倾向于用 top 命令而不是 ps 命令.但是两个工具都能达到你要的目的,所 ...
Linux kswapd0 进程CPU占用过高
图便宜买了个1核1G虚拟机,启动两个jar后cpu飙升直接卡死,查看cpu及内存占用发现kswapd0进程cpu占用一直居高不下,于是查询资料,总结如下. swap分区的作用是当物理内存不足时,会将 ...
Java进程CPU使用率高排查
Java进程CPU使用率高排查生产java应用,CPU使用率一直很高,经常达到100%,通过以下步骤完美解决,分享一下.1.jps 获取Java进程的PID.2.jstack pid >> ...

随机推荐

SQL Server 索引结构
索引是数据库的基础,只有先搞明白索引的结构,才能搞明白索引运行的逻辑本文通过索引表.数据页.执行计划.IO统计.B+Tree 来尽可能的介绍 SQL 语句中 WHERE 部分,和 SELECT 部 ...
Linux mysql8.0.11安装
准备:检查是否已安装过mysql,若有便删除(linux系统自带的) rpm -qa | grep mariadb rpm -e nodeps mariadb-libs-5.5.56-2.el7.x8 ...
[题解]UVA10801 Lift Hopping
链接:http://vjudge.net/problem/viewProblem.action?id=22172 描述:有n部电梯,每部电梯都有不能停下的楼层,要求搭乘电梯从第0层到第k层. 思路:单 ...
linux 平台实现 web 服务器的自动化发布（纯shell 版本，存在ssh 不能自动退出问题，待解决）
转至:https://www.cnblogs.com/vmsky/p/13824172.html 背景说明 1.集团OA系统上线,web App 部署在6台服务器中,因项目初期,每次更新都需要进行大量 ...
『无为则无心』Python日志 — 67、logging日志模块处理流程
目录 1.概括理解 2.详细说明 3.应用示例 1.概括理解了解了四大组件的基本定义之后,我们通过图示的方式来理解下信息的传递过程: 也就是获取的日志信息,进入到Logger日志器中,传递给处理器确 ...
MongoDB数据库的下载安装及配置方法
MongoDB安装与配置步骤 MongoDB数据库之安装篇 # 1 下载MongoDB数据库 1.打开浏览器,登录"https://www.mongodb.com/try/download/ ...
JZ-041-和为 S 的连续正数序列
和为 S 的连续正数序列题目描述小明很喜欢数学,有一天他在做数学作业时,要求计算出9~16的和,他马上就写出了正确答案是100.但是他并不满足于此,他在想究竟有多少种连续的正数序列的和为100( ...
JZ-033-丑数
丑数题目描述把只包含质因子2.3和5的数称作丑数(Ugly Number).例如6.8都是丑数,但14不是,因为它包含质因子7. 习惯上我们把1当做是第一个丑数.求按从小到大的顺序的第N个丑数. ...
Winform调用存储过程
数据表及数据准备: create table Member ( MemberId int primary key identity(1,1), MemberAccount nvarchar(20) u ...
【AI】AI学习方向
df

systemd --user进程CPU占用高问题分析