Linux 系统监控工具 atop
系统监控是运维工作中重要的一环,本文以 atop 工具为例来介绍系统的重要监控项。
atop可以使用yum或apt包管理器进行安装。atop man page 中详细说明了 atop 中各监控项含义及atop命令用法。
如上图所示, atop 的界面分为上半部分的系统监控项和下半部分的进程列表。
atop 每10s更新一次系统监控项以及在这段时间内状态发生变化的进程,按下A键可以查看全部进程。
系统状态
进程
第一行PRC显示总体进程状况:
- sys, user 表示 CPU 在内核态和用户态的运行时间比例
#proc
为当前总进程数,#trun
表示 running 状态线程数#tslpi
表示 sleeping interruptible 状态的进线程数#tslpu
表示 sleeping uninterruptible 状态线程数#zombie
表示僵尸进程数
- clones 表示在监控周期(默认10s)内 clone() 系统调用次数
linux 中进程有两种 sleep 状态:
- interruptible sleep: 进程接收系统信号,可以被系统信号中断
- uninterruptible sleep: 进程不接收系统信号,不可被系统信号中断,包括kill -9 (SIGKILL 信号)。此状态的进程通常在等待系统资源,如磁盘IO或网络IO。
一个进程使用fork创建子进程,如果子进程退出,而父进程并没有调用wait或waitpid获取子进程的状态信息,那么子进程的进程描述符仍然保存在系统中,这种进程称之为僵尸进程。大量僵尸进程可能会占用进程描述符空间导致无法创建进程。
孤儿进程是容易与僵尸进程混淆的一类进程,孤儿进程是父进程终止的进程,它们会被 init 进程接管并不会产生危害。
CPU
在 atop 中每个 CPU 逻辑核心拥有一个 cpu
行表示自身状态, 最前面的 CPU 行则展示系统总览。
- sys 表示CPU在内核态工作时间比例
- user 表示 CPU 在用户态工作时间比例
- irq 表示 CPU 处理系统中断所消耗的时间比例
- idle 表示 CPU 空闲时间比例
CPL 行表示 CPU 负载(CPU Load):
- avg1, avg5, avg15: 过去 1min、5min和 15min 内的平均系统负载
- csw 表示监控周期内上下文切换的次数
- intr 表示监控周期内中断发生的次数
系统负载
CPU 负载或称为系统负载是一个容易被误解的监控项,它的定义为内核运行队列中 running 或 uninterruptible sleep 状态的进程的平均数与CPU计算能力的比值。
系统负载 1.0 说明CPU恰好满载,当系统负载大于1.0时会有进程因为等待CPU而阻塞。在多核系统中,系统负载等于CPU核心数表示恰好满载,如在上图所示双核系统中,load=2说明恰好满载。
上文已经说明,uninterruptible sleep 进程通常是在等待IO, 当网络异常或磁盘故障时会导致大量进程处于 uninterruptible sleep 状态从而导致 Load 急剧上升。
在常见的服务器程序大多数为IO密集型程序,常见的CPU密集型任务包括:
- 大规模的排序计算, 如 mysql filesort
- 大量的正则表达式匹配
- 大量的 Hash Code 计算
- 大规模的加解密或压缩解压计算
当我们发现 CPU 使用率上升时,我们可以优先考虑是否在上述CPU密集型任务。
内存
MEM 行描述内存使用情况:
- tot: 物理内存总量
- free: 空闲内存总量
- cache: 页缓存用量
- buff: 文件系统元数据缓存用量
- slab: 系统内核内存用量
- dirty: 需要写回磁盘的脏页用量,这部分内存使用已包含在cache中
页缓存是 Linux 处理文件IO的机制,由于磁盘的读写速度远远低于内存和CPU的运行速度,因此内核将文件映射为页缓存在内存中,CPU 读取文件时首先访问页缓存,若目标页未被缓存则会产生一个页缺失中断,中断处理器会从磁盘中读取文件加载到内存中,必要时会将不常用的页从内存中逐出。
与读取过程类似,CPU 不会直接写磁盘而是将更改写入相应的页,修改后的页就会成为脏页(dirty page), 脏页的内容会被异步地写入磁盘。
在一些文档中 buff 被笼统地称为文件系统缓存,在 man page 中 buff 的定义为 the amount of memory used for filesystem meta data
即文件系统元数据缓存。
PAG 行表示页缓存的使用情况:
- scan: 当可用内存不足时扫描的页数,这个值过高说明可用内存不足
- stall: 内核紧急将页加载到内存中的次数,这个值过高说明可用内存不足
- steal: 虚拟机相关指标
- swin: 从 Swap 分区将页加载到内存的次数
- swout: 将内存页写入 Swap 分区的次数
scan 和 steal 的解释比较难理解,附上 man page 中的原文:
This line contains the number of scanned pages ('scan') due to the fact that free memory drops below a particular threshold and the number times that the kernel tries to reclaim pages due to an urgent need ('stall')
SWP 行表示 Swap 分区使用状态:
- tot: Swap 分区总大小
- free: Swap 分区空闲空间大小
当物理内存不足时,内核会将进程内存中不常用的页逐出内存写入磁盘中的 Swap 分区,当进程需要读取这些页时再将它们从磁盘中加载到内存。
磁盘
DSK 列描述磁盘使用情况:
- vda: 该列为磁盘设备名,每个设备拥有一行
- busy: 设备处理IO请求的时间占比
- read: 监控周期内读请求数
- write: 监控周期内写请求数
- KiB/r: 每次读请求的平均数据量
- KiB/w: 每次写请求的平均数据量
- MBr/s: 每秒读取的数据量
- MBw/s: 每秒写入的数据量
- avq: io 队列的平均长度
- avio: 单次读写请求需要的毫秒数
网络
网络层通常包含 transport、network、 eth 和 lo 行, 分别表示传输层、网络层、以太网(数据链路层)和本地回环的监控指标。
- tcpi/udpi/ipi: 接收的 tcp/udp/ip 数据包
- tcpo/udpo/ipo : 发出的 tcp/udp/ip 数据包
- tcpao: 主动建立的tcp连接数(active open)
- tcppo: 被动建立的tcp连接数(passive open), 即通过 listen() 建立的连接数
- tcprs: tcp 重传次数
- tcpie: 读取时发生错误的次数
进程列表
进程列表有多个视图分别展示不同方面的数据:
- 默认视图(Generic information): 按G键回到默认视图
- 内存视图(Memory information): 按M键进入内存视图,显示进程的内存占用情况
- 命令行视图(Command Line information): 按C键进入命令行视图,显示进程启动时详细命令行参数
- 调度器视图(Scheduling information): 按S键进入视图,显示线程调度、CPU使用和运行统计
- 磁盘视图(Disk information): 按D键进入视图,显示进程的磁盘IO使用情况
- 网络视图(Network information): 按N键进入视图,显示进程的网络IO使用情况
atop 默认展示过去10s内状态发生变化的进程,按下A键可以查看全部进程。
默认视图
默认视图展示常用的监控项:
- PID: 进程ID
- SYSCPU: 在内核态下使用CPU时间
- USERCPU: 在用户态下使用CPU时间
- VGROW: 过去一个监控周期内进程的虚拟内存空间增长,包括malloc()分配内存、使用共享内存以及free()释放内存造成的空间变化
- RGROW: 过去一个监控周期内进程常驻内存空间(resident memory)增长, 即进程内存空间中驻留在物理内存中未被逐出到SWAP分区的部分。
- RUID, EUID, SUID: 启动进程的UID
- RUID: 登录时的用户ID
- EUID: Effective Uid。通常EUID=RUID, setuid 或 sudo 等指令能以另一个用户身份执行命令,这个被“代理”的用户即为 Effective User。
- EXC: 进程退出时的返回码
- THR: 进程中的线程数
- S: 进程状态,与ps命令的进程描述符相同
简单介绍一下进程状态
- R: Runing
- S: sleeping interruptible 等待某个事件
- D: sleeping non-interruptible 通常在等待IO
- Z: Zombie 僵尸进程
- E: 进程在上个监控周期内退出
- T: TASK_STOPPED 或 TASK_TRACED 状态
- TASK_STOPPED: 进程收到 SIGSTOP 信号进入暂停状态
- TASK_TRACED: 进程进入暂停状态等待跟踪它的进程,比如进程被 gdb 的断点暂停
内存视图
按M键可以进入内存视图查看进程的内存使用情况:
- MINFLT: 进程缺页小错误(minor page fault)的次数
- MAJFLT: 进程缺页大错误(major page fault)的次数
- VSIZE: 虚拟内存空间的总大小
- RSIZE: 常驻内存(resident memory)的总大小
- VGROW: 虚拟内存空间在上个监控周期的增长
- RGROW: 虚拟内存空间在上个监控周期的增长
- MEM: 物理内存使用占比
在 Linux 的内存管理系统中需要读取磁盘才能解决缺页中断称为大错误(Major Page Fault), 不需要读取磁盘可以解决的缺页中断被称为小错误(Minor Page Fault)。
一般情况下 MINFLT 是因为频繁分配/回收大内存块导致的,可以考虑使用内存池优化程序来减少缺页错误; MAJFLT 是由于物理内存不足导致。
调度视图
按S键可以进入调度视图(Scheduling View)查看进程运行和CPU情况:
- TRUN: running 状态的线程数
- TSLPI: sleeping interruptible 状态线程数
- TSLPU: 表示 sleeping uninterruptible 状态进程数
- PILI: 调度策略
- PRI,NICE: 优先级,PRI+NICE越低优先级越高
- CPU: CPU 使用时间占比
监控服务
除了查看当前的状态外,atop 还可以服务方式运行在后台监控并记录系统状态。
使用 service atop start
或 systemctl start atop
命令启动atop监控服务。
atop 默认将数据保存在/var/log/atop
目录下,10 分钟采集一次,保留最近28天的数据。上述配置可以在 /etc/atop/atop.daily
文件中进行修改。
使用 atop -r <filename>
命令读取日志文件。按t键向前翻页,T键向后翻页,b键跳转到指定时间,时间格式为hh:mm。
Linux 系统监控工具 atop的更多相关文章
- 管理员必备的Linux系统监控工具
管理员必备的Linux系统监控工具 #1: top - 进程活动 top提供一个当前运行系统实时动态的视图, 也就是正在运行进程.在默认情况下,显示系统 中CPU使用率最高的任务,并每5秒钟刷新一次. ...
- 【转】管理员必备的Linux系统监控工具
原文连接: 管理员必备的Linux系统监控工具 #1: top - 进程活动 top提供一个当前运行系统实时动态的视图,也就是正在运行进程.在默认情况下,显示系统中CPU使用率最高的任务,并每5秒钟刷 ...
- 系统管理员都要知道的 30 个 Linux 系统监控工具
1. top - 进程活动监控命令 top 命令会显示 Linux 的进程.它提供了一个运行中系统的实时动态视图,即实际的进程活动.默认情况下,它显示在服务器上运行的 CPU 占用率最高的任务,并且每 ...
- 非常实用的Linux 系统监控工具
随着互联网行业的不断发展,各种监控工具多得不可胜数.这里列出网上最全的监控工具.让你可以拥有超过80种方式来管理你的机器.在本文中,我们主要包括以下方面: 命令行工具 网络相关内容 系统相关的监控工具 ...
- 管理员必备的20个Linux系统监控工具
需要监控Linux服务器系统性能吗?尝试下面这些系统内置或附件的工具吧.大多数Linux发行版本都装备了大量的监控工具.这些工具提供了能用作取得相关信息和系统活动的量度指标.你能使用这些工具发现造成性 ...
- linux系统监控工具
Linux性能监控工具 top 提供运行系统的动态实时视图.显示系统摘要信息以及任务列表 uptime 显示系统平均负载 ps.pstree 提供当前进程列表 free 显示系统中空 ...
- 管理员必备的几个Linux系统监控工具
需要监控Linux服务器系统性能吗?尝试下面这些系统内置或附件的工具吧.大多数Linux发行版本都装备了大量的监控工具.这些工具提供了能用作取得相关信息和系统活动的量度指标.你能使用这些工具发现造成性 ...
- linux系统监控工具glances
glances linux系统自带了很多系统性能监控工具,如top,vmstat,iftop等等,还有一款监视工具glances,它能把其他几个监控的指标都集于一身.Glances是一个相对比较新的系 ...
- Linux系统性能监控工具介绍之-tsar
Linux系统性能监控工具介绍之-tsar Linux系统性能监控工具介绍之-tsar 2017-03-02 20:25 175人阅读 评论(0) 收藏 举报 分类: LINUX调优(9) 目 ...
随机推荐
- 删除centos自带的openjdk
[wj@master hadoop]$ rpm -qa | grep javajava-1.7.0-openjdk-1.7.0.191-2.6.15.5.el7.x86_64python-javapa ...
- leetcode腾讯精选练习之两数相加
两数相加 题目: 给出两个非空的链表用来表示两个非负的整数.其中,它们各自的位数是按照逆序的方式存储的,并且它们的每个节点只能存储一位数字.如果,我们将这两个数相加起来,则会返回一个新的链表来表示它们 ...
- CTPN训练自己的数据集过程大白话记录
一.算法理解 此处省略1万字.............. 二.训练及源码理解 配置以下3步: 在utils文件夹和utils\bbox文件夹下创建__init__.py文件 在utils\bbox文件 ...
- 做前端的你还没用这些软件?? out 啦
1. 编辑器 写代码只是生产软件过程中的一环.无论是数据结构.编译原理.操作系统还是组成原理都是编码的重要基础,试问没有学过编译原理的人能够针对性地进行编译优化吗?不懂操作系统的人能玩得转linux吗 ...
- Spring Cloud(二):Web服务客户端之Ribbon
上文介绍了服务如何通过Eureka实现注册,以及如何从Eureka获取已经注册的服务列表.那么拿到注册服务列表后, 如何进行服务调用?一个简单的实现是可以从被调用服务的实例列表中选择一个服务实例,通过 ...
- 一个简易的 LED 数字时钟实现方法
这个应该是已经有很多人做过的东西,我应该只是算手痒,想写一下,所以,花了点时间折腾了这个,顺便把 Dark Mode 的处理也加上了. 首先可以很明确的一点,这个真没技术含量存在,只是需要点耐心. L ...
- 加深对于 MVC、MVP、MVVM 的概念理解
目录 MVC 对 MVC 的误解及缘由 MVP MVVM MVC MVC - 维基百科,自由的百科全书 MVC 是软件工程的一种软件架构模式,它不是具体的技术,而是一种代码分层的理念,主要体现了职责分 ...
- dp-最长回文串
博客 : http://blog.csdn.net/hao_zong_yin/article/details/72730732 问题描述: 求一个序列中的最长回文串,这个串可以不连续 , 如 { 1 ...
- P1559 运动员最佳匹配问题 by hyl 天梦
#include<iostream> using namespace std; int n; int maxx[21][21]; int lie[21]; int aa[21]; int ...
- .NET Core验证ASP.NET密码
.NET Core验证ASP.NET密码 随着.NET Core的持续更新和完善,越来越多的机构已经选择或者升级为.NET Core.但由于技术不完全相同,不可能所有应用/数据库都能无缝迁移,因此AS ...