本文内容遵从CC版权协议,
可以随意转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明

网址: http://www.penglixun.com/tech/system/how_to_calc_load_cpu.html

相信很多人都对Linux中top命令里“load average”这一栏困惑过，到底什么是Load，Load代表了什么含义，Load高会有什么后果？“%CPU”这一栏为什么会超过100%，它是如何计算的？

带着这些问题，我们通过一些测试，来探索下其中的不解之处。

首先，我们通过实验来大概确定其计算方式：

测试服务器：4核Xeon处理器

测试软件：MySQL 5.1.40

服务器上除了MySQL没有运行其他任何非系统自带软件。因为MySQL只能单线程运行单条SQL，所以可以很好的通过增加查询并发来控制使用的CPU核数。

空载时，top的信息为：

top – 14:51:47 up 35 days, 4:43, 1 user, load average: 0.00, 0.00, 0.00

Tasks: 76 total, 1 running, 75 sleeping, 0 stopped, 0 zombie

Cpu(s): 0.0%us, 0.0%sy, 0.0%ni, 99.5%id, 0.1%wa, 0.2%hi, 0.2%si, 0.0%st

在数据库中启动一个大查询：

top – 15:28:09 up 35 days, 5:19, 3 users, load average: 0.99, 0.92, 0.67

Tasks: 80 total, 1 running, 79 sleeping, 0 stopped, 0 zombie

Cpu0 : 0.0%us, 0.0%sy, 0.0%ni, 96.3%id, 0.0%wa, 1.3%hi, 2.3%si, 0.0%st

Cpu1 : 0.0%us, 0.0%sy, 0.0%ni,100.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st

Cpu2 : 98.7%us, 1.3%sy, 0.0%ni, 0.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st

Cpu3 : 0.0%us, 0.0%sy, 0.0%ni,100.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st

同时可以看到%CPU也是在100%

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND

877 mysql 15 0 308m 137m 4644 S 99.9 6.8 15:13.28 mysqld

然后开启第二个大查询，不久就可以看到top信息的变化，Load到了2：

top – 15:36:44 up 35 days, 5:28, 3 users, load average: 1.99, 1.62, 1.08

Tasks: 80 total, 1 running, 79 sleeping, 0 stopped, 0 zombie

Cpu0 : 0.0%us, 0.0%sy, 0.0%ni, 97.7%id, 0.0%wa, 1.0%hi, 1.3%si, 0.0%st

Cpu1 : 99.0%us, 1.0%sy, 0.0%ni, 0.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st

Cpu2 : 0.0%us, 0.0%sy, 0.0%ni,100.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st

Cpu3 : 99.0%us, 1.0%sy, 0.0%ni, 0.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st

也可以观察到%CPU增加到了200%：

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND

877 mysql 15 0 312m 141m 4644 S 199.8 7.0 22:31.27 mysqld

由此可以简单的做出如下临时结论：

1. %CPU是由每个核的CPU占用律之和算出来的。

2. load跟执行的任务数有关

不过要想准确的知道其含义，还是必须从源码入手。

CPU利用率的计算方法

下载busybox的源码，在procps目录下有top.c的源码，查看第293行附近（1.17.1版），可以看到

if (prev_hist_count) do {

        if (prev_hist[i].pid == pid) {

                cur-&gt;pcpu = cur-&gt;ticks - prev_hist[i].ticks;

                total_pcpu += cur-&gt;pcpu;

                break;

        }

        i = (i+1) % prev_hist_count;

        /* hist_iterations++; */

} while (i != last_i);

这就是计算%CPU的代码，很明显total_pcpu就是累加了每个线程对每个核的使用率，所以%CPU的最大值就是核数*100%。

而CPU利用率又是怎么计算的呢，跟踪代码可以发现，是从系统的/proc/stat这里读取的，这个文件的格式可以参考：http://www.linuxhowtos.org/System/procstat.htm，下面是我笔记本上读出来的内容。

plx@plinux-Laptop:~/busybox-1.17.1$ cat /proc/stat

cpu 520529 3525 658608 3500749 210662 6650 29698 0 0

cpu0 249045 1936 466387 1624486 136381 308 17051 0 0

cpu1 271483 1588 192221 1876263 74281 6342 12646 0 0

intr 84067574 42497789 41743 0 0 0 0 0 0 1 57928 0 0 7175 0 0 0 477092 24693 0 5 0 183 0 20 0 0 0 12455 821851 745906 10192555 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

ctxt 142313984

btime 1281403521

processes 6707

procs_running 2

procs_blocked 0

softirq 56932805 0 20168080 9440286 238191 821787 0 10621375 4052209 13257 11577620

cpuN的含义从左到右分别是：user、system、nice、idle、iowait、irq、softirq，具体含义可以看文档。

在下面几行的含义是：

“intr”这行给出中断的信息，第一个为自系统启动以来，发生的所有的中断的次数；然后每个数对应一个特定的中断自系统启动以来所发生的次数。

“ctxt”给出了自系统启动以来CPU发生的上下文交换的次数。

“btime”给出了从系统启动到现在为止的时间，单位为秒。

“processes (total_forks) 自系统启动以来所创建的任务的个数目。

“procs_running”：当前运行队列的任务的数目。

“procs_blocked”：当前被阻塞的任务的数目。

那么CPU利用率可以使用以下方法，先取两个采样点，然后计算其差值：

cpu usage=(idle2-idle1)/(cpu2-cpu1)*100 cpu usage=[(user_2 +sys_2+nice_2) - (user_1 + sys_1+nice_1)]/(total_2 - total_1)*100;

这是一段Bash代码采集利用率的，摘自网络：

#!/bin/sh

##echo user nice system idle iowait irq softirq

CPULOG_1=$(cat /proc/stat | grep 'cpu ' | awk '{print $2" "$3" "$4" "$5" "$6" "$7" "$8}')

SYS_IDLE_1=$(echo $CPULOG_1 | awk '{print $4}')

Total_1=$(echo $CPULOG_1 | awk '{print $1+$2+$3+$4+$5+$6+$7}')

 

sleep 5

 

CPULOG_2=$(cat /proc/stat | grep 'cpu ' | awk '{print $2" "$3" "$4" "$5" "$6" "$7" "$8}')

SYS_IDLE_2=$(echo $CPULOG_2 | awk '{print $4}')

Total_2=$(echo $CPULOG_2 | awk '{print $1+$2+$3+$4+$5+$6+$7}')

 

SYS_IDLE=`expr $SYS_IDLE_2 - $SYS_IDLE_1`

 

Total=`expr $Total_2 - $Total_1`

SYS_USAGE=`expr $SYS_IDLE/$Total*100 |bc -l`

 

SYS_Rate=`expr 100-$SYS_USAGE |bc -l`

 

Disp_SYS_Rate=`expr "scale=3; $SYS_Rate/1" |bc`

echo $Disp_SYS_Rate%

还有一段Perl的代码，也是摘自网络：

#!/usr/bin/perl

use warnings;

 

$SLEEPTIME=5;

 

if (-e "/tmp/stat") {

	unlink "/tmp/stat";

}

open (JIFF_TMP, "&gt;&gt;/tmp/stat") || die "Can't open /proc/stat file!\n";

open (JIFF, "/proc/stat") || die "Can't open /proc/stat file!\n";

@jiff_0=;

print JIFF_TMP $jiff_0[0] ;

close (JIFF);

 

sleep $SLEEPTIME;

 

open (JIFF, "/proc/stat") || die "Can't open /proc/stat file!\n";  @jiff_1=;

print JIFF_TMP $jiff_1[0];

close (JIFF);

close (JIFF_TMP);

 

@USER=`awk '{print \$2}' "/tmp/stat"`;

@NICE=`awk '{print \$3}' "/tmp/stat"`;

@SYSTEM=`awk '{print \$4}' "/tmp/stat"`;

@IDLE=`awk '{print \$5}' "/tmp/stat"`;

@IOWAIT=`awk '{print \$6}' "/tmp/stat"`;

@IRQ=`awk '{print \$7}' "/tmp/stat"`;

@SOFTIRQ=`awk '{print \$8}' "/tmp/stat"`;

 

$JIFF_0=$USER[0]+$NICE[0]+$SYSTEM[0]+$IDLE[0]+$IOWAIT[0]+$IRQ[0]+$SOFTIRQ[0];

$JIFF_1=$USER[1]+$NICE[1]+$SYSTEM[1]+$IDLE[1]+$IOWAIT[1]+$IRQ[1]+$SOFTIRQ[1];

$SYS_IDLE=($IDLE[0]-$IDLE[1]) / ($JIFF_0-$JIFF_1) * 100;  $SYS_USAGE=100 - $SYS_IDLE;

 

printf ("The CPU usage is %1.2f%%\n",$SYS_USAGE);

Load的计算方法

跟踪busybox的代码可以知道，load是从/proc/loadavg中读取的。

我本机的一次抓取内容如下：

plx@plinux-Laptop:~/busybox-1.17.1$ cat /proc/loadavg

0.64 0.81 0.86 3/364 6930

每个值的含义依次为：

lavg_1 (0.64) 1-分钟平均负载

lavg_5 (0.81) 5-分钟平均负载

lavg_15(0.86) 15-分钟平均负载

nr_running (3) 在采样时刻，运行队列的任务的数目，与/proc/stat的procs_running表示相同意思

nr_threads (364) 在采样时刻，系统中活跃的任务的个数（不包括运行已经结束的任务）

last_pid(6930) 最大的pid值，包括轻量级进程，即线程。

假设当前有两个CPU，则每个CPU的当前任务数为0.64/2=0.32

我们可以在Linux内核中找到loadavg文件的源码：

tatic int loadavg_read_proc(char *page, char **start, off_t off,

                                 int count, int *eof, void *data)

{

        int a, b, c;

        int len;

#

 

        a = avenrun[0] + (FIXED_1/200);

        b = avenrun[1] + (FIXED_1/200);

        c = avenrun[2] + (FIXED_1/200);

        len = sprintf(page,"%d.%02d %d.%02d %d.%02d %ld/%d %d\n",

                LOAD_INT(a), LOAD_FRAC(a),

                LOAD_INT(b), LOAD_FRAC(b),

                LOAD_INT(c), LOAD_FRAC(c),

                nr_running(), nr_threads, last_pid);

        return proc_calc_metrics(page, start, off, count, eof, len);

}

以及计算load的代码：

#define FSHIFT      11          /* nr of bits of precision */

#define FIXED_1     (1<<FSHIFT) /* 1.0 as fixed-point(定点) */

#define LOAD_FREQ   (5*HZ)      /* 5 sec intervals，每隔5秒计算一次平均负载值 */

#define CALC_LOAD(load, exp, n)     \

         load *= exp;               \

         load += n*(FIXED_1 - exp); \

         load >>= FSHIFT;

 

unsigned long avenrun[3];

 

EXPORT_SYMBOL(avenrun);

 

/*

* calc_load - given tick count, update the avenrun load estimates.

* This is called while holding a write_lock on xtime_lock.

*/

static inline void calc_load(unsigned long ticks)

{

        unsigned long active_tasks; /* fixed-point */

        static int count = LOAD_FREQ;

        count -= ticks;

        if (count < 0) {

                count += LOAD_FREQ;

                active_tasks = count_active_tasks();

                CALC_LOAD(avenrun[0], EXP_1, active_tasks);

                CALC_LOAD(avenrun[1], EXP_5, active_tasks);

                CALC_LOAD(avenrun[2], EXP_15, active_tasks);

        }

}

看了大师的文章，理解了这些代码。

所以可以明白：Linux的系统负载指运行队列的平均长度，也就是等待CPU的平均进程数。 Linux的系统负载指运行队列的平均长度，也就是等待CPU的平均进程数。因为Linux内禁止浮点运算，因此系统的负载只能通过计算变化的次数这一修正值来计算。Linux内核定义一个长度为3的双字数组avenrun，双字的低11位用于存放负载的小数部分，高21位用于存放整数部分。当进程所耗的
CPU时间片数超过CPU在5秒内能够提供的时间片数时，内核计算上述的三个负载。负载初始化为0，假设最近1、5、15分钟内的平均负载分别为 load1、load5和load15，那么下一个计算时刻到来时，内核通过下面的算式计算负载：

load1 -= load1 -* exp(-5 / 60) -+ n * (1 – exp(-5 / 60 ))

load5 -= load5 -* exp(-5 / 300) + n * (1 – exp(-5 / 300))

load15 = load15 * exp(-5 / 900) + n * (1 – exp(-5 / 900))

其中，exp(x)为e的x次幂，n为当前运行队列的长度。Linux内核认为进程的生存时间服从参数为1的指数分布，指数分布的概率密度为：以内核计算负载load1为例，设相邻两个计算时刻之间系统活动的进程集合为S0。从1分钟前到当前计算时刻这段时间里面活动的load1个进程，设他们的集合是 S1，内核认为的概率密度是:λe-λx，而在当前时刻活动的n个进程，设他们的集合是Sn内核认为的概率密度是1-λe-λx。其中x = 5 / 60，因为相邻两个计算时刻之间进程所耗的CPU时间为5秒，而考虑的时间段是1分钟(60秒)。那么可以求出最近1分钟系统运行队列的长度：

load1 = |S1| -* λe-λx + |Sn| * (1-λe-λx) = load1 * λe-λx + n * (1-λe-λx)

其中λ = 1， x = 5 / 60， |S1|和|Sn|是集合元素的个数，这就是Linux内核源文件shed.c的函数calc_load()计算负载的数学依据。

所以“Load值=CPU核数”，这是最理想的状态，没有任何竞争，一个任务分配一个核。

由于数据是每隔5秒钟检查一次活跃的进程数，然后根据这个数值算出来的。如果这个数除以CPU的核数，结果高于5的时候就表明系统在超负荷运转了。

[进程管理]Load和CPU利用率是如何算出来的的更多相关文章

Load和CPU利用率是如何算出来的（转发）
本文内容遵从CC版权协议, 可以随意转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://www.penglixun.com/tech/system/how_to_cal ...
Load和CPU利用率是如何算出来的
相信很多人都对Linux中top命令里“load average”这一栏困惑过,到底什么是Load,Load代表了什么含义,Load高会有什么后果?“%CPU”这一栏为什么会超过100%,它是如何计算 ...
系统服务监控指标--load、CPU利用率、磁盘剩余空间、磁盘I/O、内存使用情况等
介绍大型互联网企业的背后,依靠的是成千上万台服务器日夜不停的运转,以支撑其业务的运转.宕机对于互联网企业来说,代价是沉重的,轻则影响用户体验,重则直接影响交易,导致交易下跌,并且给企业声誉造成不可挽 ...
操作系统--进程管理1--单个CPU情况
1.进程概念进程:一个正在执行的程序:操作系统提出进程概念目的:是为了跟踪程序在执行期间的状态.而程序只是一段代码,是一个静态的概念无法准确描述程序执行时候发生的一切.程序代码被加载进内存后就以进 ...
Linux如何统计进程的CPU利用率[转]
0. 为什么写这篇博客 Linux的top或者ps都可以查看进程的cpu利用率,那为什么还需要了解这个细节呢.编写这篇文章呢有如下三个原因: * 希望在脚本中,能够以过”非阻塞”的方式获取进程cpu利 ...
OS之进程管理---实时CPU调度
引言一般来说,我们将实时操作系统区分为软实时系统(soft real-time system)和硬实时系统(hard real-time system).软实时系统不保证会调度关键实时进程,而只保证 ...
OS之进程管理---进程调度和多线程调度
进程调度基本概念多道程序的目标就是始终允许某个进程运行以最大化CPU利用率,多个进程通时存在于内存中,操作系统通过进程调度程序按特定的调度算法来调度就绪队列中的进程到CPU,从而最大限度的利用CPU ...
CPU利用率和CPU负荷(CPU usage vs CPU load)
对于CPU的性能监测,通常用top指令能显示出两个指标:cpu 利用率和cpu负荷. 其中%Cpu相关的内容: us表示用户进程cpu利用率,sy表示系统内核进程cpu利用率,ni表示运行正常进程消耗 ...
CPU利用率与Load Average的区别？
CPU利用率,是对一个时间段内CPU使用状况的统计,通过这个指标可以看出在某一个时间段内CPU被占用的情况,如果CPU被占用时间很高,那么就需要考虑CPU是否已经处于超负荷运作,长期超负荷运作对于机器 ...

随机推荐

android学习——环境的搭建
1.安装JDK(java开发工具箱) 下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html(根据自己需要下载) ...
sublime插件emmet的配置、使用及快捷键Ctrl+E修改成Tab键操作
一.emmet在sublime中的配置与使用: 1.点击sublime text 3的图标,打开编辑器: 2.按键“ctrl+shift+p”,或者单击菜单->工具->命令面板: 3.打开 ...
vue组件递归
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
CSS中的剪裁和遮罩
剪裁和遮罩都是用来隐藏元素的一些部分.显示其他部分的.当然了,这两者还是有区别的.区别主要在于这几方面:他们能做的东西,不同的语法,涉及到的不同技术,是新的还是旧的,以及浏览器支持的差异. 但不幸的是 ...
AE + GDAL实现影像按标准图幅分割（上）
最近有个项目,其中有个功能是要将遥感影像按标准图幅分割,一开始用AE的接口,慢的让人抓狂,就改用GDAL,速度提升很大.我主要通过http://blog.csdn.net/liminlu0314/学习 ...
Androidstudio2.0.0汉化教程及汉化包。
()Eric为大家带来Androidstudio2.0.0的简单汉化教程,许多小伙伴喜欢使用中文版的AS那么没有中文的AS只能靠自己汉化取得更好的体验. 第一步下载AS2.0.0汉化包,我有链接给大家 ...
Python之路-计算机基础
一·计算机的组成一套完整的计算机系统分为:计算机硬件,操作系统,软件. 硬件系统:运算器,控制器和存储器 ,输入设备,输出设备. 1.运算器:负责算数运算和逻辑运算,与控制器一起组成CPU. 2 ...
从以往子类化跟踪MouseLeave深入讨论VB6的自定义Hook类
一.关于起因之前发过一篇博文,是关于VB6中跟踪鼠标移出事件的示例(http://www.cnblogs.com/alexywt/p/5891827.html) 随着业务状况的不断发展,提出了更多的 ...
WCF消息压缩
对于WCF应用来说,传输前压缩请求消息和回复消息,不但可以降低网络流量,也可以提高网络传输的性能一.消息压缩方案二.用于数据压缩与解压缩组件三.用于消息压缩与解压的组件四.用于对请求/回复消息 ...
zoom动画，实现图片点击预览效果
参考:https://developer.android.google.cn/training/animation/zoom.html 1.创建Views 下面的布局包括了你想要zoom的大版本和小版 ...

[进程管理]Load和CPU利用率是如何算出来的

CPU利用率的计算方法

Load的计算方法

[进程管理]Load和CPU利用率是如何算出来的的更多相关文章

随机推荐

热门专题