在linux系统中实现各项监控的关键技术（1）--cpu使用率的计算

http://www.blogjava.net/fjzag/articles/317773.html

proc文件系统

/proc文件系统是一个伪文件系统，它只存在内存当中，而不占用外存空间。它以文件系统的方式为内核与进程提供通信的接口。用户和应用程序可以通过/proc得到系统的信息，并可以改变内核的某些参数。由于系统的信息，如进程，是动态改变的，所以用户或应用程序读取/proc目录中的文件时，proc文件系统是动态从系统内核读出所需信息并提交的。

/proc目录中有一些以数字命名的目录，它们是进程目录。系统中当前运行的每一个进程在/proc下都对应一个以进程号为目录名的目录/proc/pid，它们是读取进程信息的接口。此外，在Linux 2.6.0-test6以上的版本中/proc/pid目录中有一个task目录，/proc/pid/task目录中也有一些以该进程所拥有的线程的线程号命名的目录/proc/pid/task/tid，它们是读取线程信息的接口。

/proc/stat文件

该文件包含了所有CPU活动的信息，该文件中的所有值都是从系统启动开始累计到当前时刻。不同内核版本中该文件的格式可能不大一致，以下通过实例来说明数据该文件中各字段的含义。

cat /proc/stat

cpu 65376847 362756 2405159 10834971593 3765180 93399 2395097 0

cpu0 7680302 5263 111909 1355640955 47680 0 185343 0

cpu1 6527638 2261 327795 1356540189 249151 1 24242 0

cpu2 6239465 47114 200809 1354709532 2153662 3610 317002 0

cpu3 7009912 36126 257576 1356116663 162851 1068 87068 0

cpu4 6028713 1692 197911 1356919175 300788 6821 216076 0

cpu5 7110575 1479 124474 1356297947 92620 4248 39901 0

cpu6 7206763 241427 247384 1355030525 691206 11642 242214 0

cpu7 17573475 27390 937298 1343716603 67218 66006 1283248 0

intr 2466653411 753885765 3 0 4 4 0 0 0 1 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 ……

ctxt 2905526438

btime 1260187150

processes 4266007

procs_running 5

procs_blocked 0

jiffies是内核中的一个全局变量，用来记录自系统启动一来产生的节拍数，在linux中，一个节拍大致可理解为操作系统进程调度的最小时间片，不同linux内核可能值有不同，通常在1ms到10ms之间

user (65376847) 从系统启动开始累计到当前时刻，用户态的CPU时间（单位：jiffies），不包含 nice值为负进程。1jiffies=0.01秒
nice (362756) 从系统启动开始累计到当前时刻，nice值为负的进程所占用的CPU时间（单位：jiffies）
system (2405159) 从系统启动开始累计到当前时刻，核心时间（单位：jiffies）
idle (10834971593) 从系统启动开始累计到当前时刻，除硬盘IO等待时间以外其它等待时间（单位：jiffies）
iowait (3765180) 从系统启动开始累计到当前时刻，硬盘IO等待时间（单位：jiffies）
irq (93399) 从系统启动开始累计到当前时刻，硬中断时间（单位：jiffies）
softirq (2395097) 从系统启动开始累计到当前时刻，软中断时间（单位：jiffies）

stealstolen(0) which is the time spent in other operating systems when running in a virtualized environment(since 2.6.11)

guest(0) which is the time spent running a virtual CPU for guest operating systems under the control of the Linux kernel(since 2.6.24)

CPU时间=user + system + nice + idle + iowait + irq + softirq + stealstolen + guest

“intr”这行给出中断的信息，第一个为自系统启动以来，发生的所有的中断的次数；然后每个数对应一个特定的中断自系统启动以来所发生的次数。
“ctxt”给出了自系统启动以来CPU发生的上下文交换的次数。
“btime”给出了从系统启动到现在为止的时间，单位为秒。
“processes (total_forks) 自系统启动以来所创建的任务的个数目。
“procs_running”：当前运行队列的任务的数目。
“procs_blocked”：当前被阻塞的任务的数目。

单核情况下Cpu使用率的计算

基本思想

通过读取/proc/stat 、/proc/<pid>/stat、/proc/<pid>/task/<tid>/stat以及/proc/cpuinfo这几个文件获取总的Cpu时间、进程的Cpu时间、线程的Cpu时间以及Cpu的个数的信息，然后通过一定的算法进行计算(采样两个足够短的时间间隔的Cpu快照与进程快照来计算进程的Cpu使用率)。

总的Cpu使用率计算

计算方法：

1、采样两个足够短的时间间隔的Cpu快照，分别记作t1,t2，其中t1、t2的结构均为：

(user、nice、system、idle、iowait、irq、softirq、stealstolen、guest)的9元组;

2、计算总的Cpu时间片totalCpuTime

a) 把第一次的所有cpu使用情况求和，得到s1;

b) 把第二次的所有cpu使用情况求和，得到s2;

c) s2 - s1得到这个时间间隔内的所有时间片，即totalCpuTime = j2 - j1 ;

3、计算空闲时间idle

idle对应第四列的数据，用第二次的第四列 - 第一次的第四列即可

idle=第二次的第四列 - 第一次的第四列

4、计算cpu使用率

pcpu =100* (total-idle)/total