Linux性能优化之CPU优化(一)

前言

何为性能优化？个人认为，性能优化是为了提高应用程序或系统能力为目的。那么如何才能实现对应用程序的性能调优呢？这里很设计到很多的内容，包括Linux内核、CPU架构以及Linux内核对资源的分配以及管理，了解进程的创建过程等。这方面由于篇幅较多，所以我的文章就不过多介绍。接下来的几篇文章中，都是讲解如何发现应用程序故障根源为目标讲解，这也是每一个系统工程师应该具备的能力。废话不多说，我直接进入主题。

常用术语

　　延时：延时是描述操作之后用来等待返回结果的时间。在某些情况下，它可以指的是整个操作时间，等同于响应时间。

　　IOPS：每秒发生的输入/输出操作的次数，是数据传输的一个度量方法。对于磁盘的读写，IOPS指的是每秒读写的次数。

　　响应时间：一般操作完成的时间。包括用于等待和服务的时间，也包括用来返回结果的时间。

　　使用率：对于服务所请求的资源，使用率描述在所给定时间区间内资源的繁忙程度。对于春初资源来说，使用率指的就是所消耗的存储容量。

　　饱和度：指的就是某一资源无法满足服务的排队工作量。

　　吞吐量：评价工作秩序的速率，尤其是在数据传输方面，这个属于用于数据传输速度(字节/秒和比特/秒)。在某些情况下，吞吐量指的是操作的速度。

Linux内核功能

　　CPU调度级别：各种先进的CPU调度算法，非一直存储访问架构(NUMA)；

　　I/O调度界别：I/O调度算法，包括deadline/anticipatory和完全公平队列(CFQ)；

　　TCP网络阻塞：TCP拥堵算法，允许按需选择；

常见问题

进程、线程和任务之间的区别是什么？

　　进程通常定义为程序的执行。用以执行用户级别程序的环境。它包括内存地址空间、文件描述符、线程栈和寄存器。
　　线程是某一进程中单独运行的程序。也就是说线程在进程之中。
　　任务是程序完成的某一活动,可以使一个进程,也可以是一个线程。

参考连接：http://blog.chinaunix.net/uid-25100840-id-271078.html

什么是上下文切换？

　　执行一段程序代码，实现一个功能的过程介绍，当得到CPU的时候，相关的资源必须也已经就位,就是显卡、内存、GPS等,然后CPU开始执行。这里除了CPU以外所有的就构成了这个程序的执行环境，也就是我们所定义的程序上下文。当这个程序执行完或者分配给他的CPU执行时间用完了,那它就要被切换出去，等待下一次CPU的临幸。在被切换出去的最后一步工作就是保存程序上下文，因为这个是下次他被CPU临幸的运行环境，必须保存。

I/O密集型和CPU密集型工作负载之间的区别？

　　I/O密集型指的是系统的CPU耗能相对硬盘/内存的耗能能要好很多,此时,系统运作,大部分的状况是 CPU 在等 I/O(硬盘/内存)的读/写,此时CPU负载不高。CPU密集型指的是系统的硬盘/内存耗能相对CPU的耗能要好很多,此时,系统运作,大部分的状况是 CPU负载 100%,CPU 要读/写 I/O (硬盘/内存),I/O在很短的时间就可以完成,而CPU还有许多运算要处理,CPU负载很高。一般而言CPU占用率相当高,大部份时间用来做计算、逻辑判断等CPU动作的程序。

应用程序性能技术

1.选择I/O尺寸
　　执行I/O的开销包括初始化缓冲区、系统调用、上下文切换、分配内核元数据、检查进程权限和限制、映射地址到设备、执行内核和驱动代码来执行I/O,以及在最后释放元数据和缓冲区。增加I/O尺寸是应用程序提高吞吐量的常用策略。
2.缓存
　　操作系统用缓存提高文件系统的读性能和内存的分配性能,应用程序使用缓存也处于类似的原因。将经常执行的操作结果保存在本地缓存中以备后用，而非总是执行开销较高的操作。
3.缓冲区
　　为了提高写操作性能，数据在送入下一层级之前会合并并放在缓冲区中。这样会增加写延时，因为第一次写入缓冲区后，在发送之前，还要等待后续的写入。
4. 并发和并行
　　并行：装在和开始执行多个可运行程序的能力（比如,同时接电话和吃饭）。为了利用多核处理器系统的优势，应用程序需要在同一时间运行在多颗CPU上,这种方式称为并行。应用程序通过多进程或多线程实现。
　　并发：有处理多个任务的能力，不一定要同时。比如,接完电话在去吃饭,存在资源抢占;
　　同步原语：同步原语监管内存的访问,当不允许访问时，就会引起等待时间(延时)。常见三种类型：
　　mutex锁：只有锁持有者才能操作，其他线程会阻塞并等待CPU；
　　自旋锁：自旋锁允许锁持有者操作，其他的需要自旋锁的线程会在CPU上循环自选,检查锁是否被释放。虽然这样可以提供低延时的访问，被阻塞的线程不会离开CPU，时刻准备着运行知道锁可用，但是线程自旋、等待也是对CPU资源的浪费。
　　读写锁：读/写锁通过允许多个读者或者只允许一个写者而没有读者，来保证数据的完整性。
　　自适应自旋锁：低延迟的访问而不浪费CPU资源，是mutex锁和自旋锁的混合。
5.绑定CPU

关于CPU性能分析

uptime:
　　系统负载，通过汇总正在运行的线程数和正在排队等待运行的线程数计算得出。分别反映1/5/15分钟以内的负载。现在的平均负载不仅用来表示CPU余量或者饱和度，也不能单从这个值推断出CPU或者磁盘负载。

vmstat:
　　虚拟内存统计信息命令。最后几列打印系统全局范围内的CPU使用状态，在第一列显示可运行进程数。如下所示：

[root@zbredis-30104 ~]# vmstat

procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu-----

r  b   swpd   free   buff   cache   si   so    bi    bo   in   cs us sy id  wa  st

0  0   0    14834208 158384 936512  0     0     0     0    1   3   0  0 100  0  0

提示：

　　r: 运行队列长度和正在运行的线程数；

　　b: 表示阻塞的进程数；

　　swpd: 虚拟内存已使用的大小，如果大于0，表示你的机器物理内存不足了，如果不是程序内存泄露的原因，那么你该升级内存了或者把耗内存的任务迁移到其他机器；

　　si: 每秒从磁盘读入虚拟内存的大小，如果这个值大于0，表示物理内存不够用或者内存泄露了，要查找耗内存进程解决掉。我的机器内存充裕，一切正常。

　　so: 每秒虚拟内存写入磁盘的大小，如果这个值大于0，同上；

　　bi: 块设备每秒接收的块数量，这里的块设备是指系统上所有的磁盘和其他块设备，默认块大小是1024byte，我本机上没什么IO操作，所以一直是0，但是我曾在处理拷贝大量数据(2-3T)的机器上看过可以达到140000/s，磁盘写入速度差不多140M每秒；

　　bo: 块设备每秒发送的块数量，例如我们读取文件，bo就要大于0。bi和bo一般都要接近0，不然就是IO过于频繁，需要调整；

　　in: 每秒CPU的中断次数，包括时间中断；

　　cs: 每秒上下文切换次数，例如我们调用系统函数，就要进行上下文切换，线程的切换，也要进程上下文切换，这个值要越小越好，太大了，要考虑调低线程或者进程的数目,例如在apache和nginx这种web服务器中，我们一般做性能测试时会进行几千并发甚至几万并发的测试，选择web服务器的进程可以由进程或者线程的峰值一直下调，压测，直到cs到一个比较小的值，这个进程和线程数就是比较合适的值了。系统调用也是，每次调用系统函数，我们的代码就会进入内核空间，导致上下文切换，这个是很耗资源，也要尽量避免频繁调用系统函数。上下文切换次数过多表示你的CPU大部分浪费在上下文切换，导致CPU干正经事的时间少了，CPU没有充分利用，是不可取的。

　　st: cpu在虚拟化环境上在其他租户上的开销;

mpstat:
　　多处理器统计信息工具，能够报告每个CPU的统计信息。

[root@zbredis-30104 ~]# mpstat -P ALL 1

Linux 2.6.32-573.el6.x86_64 (zbredis-30104) 	09/14/2017 	_x86_64_	(12 CPU)

03:14:03 PM  CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest   %idle

03:14:04 PM  all    0.00    0.00    0.08    0.00    0.00    0.00    0.00    0.00   99.92

03:14:04 PM    0    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00

03:14:04 PM    1    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00

03:14:04 PM    2    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00

03:14:04 PM    3    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00

03:14:04 PM    4    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00

03:14:04 PM    5    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00

03:14:04 PM    6    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00

03:14:04 PM    7    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00

03:14:04 PM    8    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00

03:14:04 PM    9    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00

03:14:04 PM   10    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00

03:14:04 PM   11    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00

提示：

　　irq: 硬件中断CPU用量；

　　sofr: 软件中断CPU用量；
　　steal: 耗费在服务其他租户的时间；
　　guest: 花在访客虚拟机的时间；

　　重要关注列有%user/%sys/%idle。显示了每个CPU的用量以及用户态和内核态的时间比例。可以根据这些值查看那些跑到100%使用率（%user + %sys）的CPU，而其他CPU并未跑满可能是由单线程应用程序的负载或者设备中断映射造成。

sar:

　　系统活动报告器。用来观察当前的活动，以及配置用以归档和报告历史统计信息。基本上所有资源使用的信息，它都能够查看到。具体的参数说明如下所示：

　　-A: 所有报告的总和,类似"-bBdqrRSuvwWy -I SUM -I XALL -n ALL -u ALL -P ALL"参数一起使用；
　　-b: 显示I/O和传输速率的统计信息；
　　-B：显示分页状态；
　　-d：硬盘使用报告；
　　-r：内存和交换空间的使用统计；
　　-g：串口I/O的情况；
　　-b：缓冲区使用情况；
　　-a：文件读写情况；
　　-c：系统调用情况；
　　-n: 统计网络信息；
　　-q：报告队列长度和系统平均负载；
　　-R：进程的活动情况；
　　-y：终端设备活动情况；
　　-w：系统交换活动；
　　-x { pid | SELF | ALL }：报告指定进程ID的统计信息，SELF关键字是sar进程本身的统计，ALL关键字是所有系统进程的统计；

常用参数组合：

　　查看CPU:

　　整体CPU统计— sar -u 3 2,表示采样时间为3秒,采样次数为2次；
　　各个CPU统计— sar -P ALL 1 1,表示采样时间为1秒,次数为1次；

　　　　1. 若 %iowait 的值过高，表示硬盘存在I/O瓶颈；
　　　　2. 若 %idle 的值高但系统响应慢时，有可能是 CPU 等待分配内存，此时应加大内存容量；
　　　　3. 若 %idle 的值持续低于1，则系统的 CPU 处理能力相对较低，表明系统中最需要解决的资源是 CPU；

　　查看内存:

　　查看内存使用情况 - sar -r 1 2

　　　　kbcommit：保证当前系统所需要的内存,即为了确保不溢出而需要的内存(RAM+swap)；
　　　　%commit：这个值是kbcommit与内存总量(包括swap)的一个百分比；

　　pidstat:主要用于监控全部或指定进程占用系统资源的情况，如CPU，内存、设备IO、任务切换、线程等。

　　cpu使用情况统计
　　　　执行 "pidstat -u" 与单独执行 "pidstat"
　　内存使用情况统计
　　　　pidstat -r -p PID 1

　　　　minflt/s: 每秒次缺页错误次数(minor page faults)，次缺页错误次数意即虚拟内存地址映射成物理内存地址产生的page fault次数;
　　　　majflt/s: 每秒主缺页错误次数(major page faults)，当虚拟内存地址映射成物理内存地址时，相应的page在swap中，这样的page fault为major page fault，一般在内存使用紧张时产生;
　　IO情况统计
　　　　pidstat -d 1 2

关于CPU方面的优化

　　1.编译器优化
　　2.调度优先级和调度类（设置nice值）
　　　　例如,nice -n 19 command
　　　　renice 更改已经运行进程的优先级；
　　　　chrt 命令显示并直接修改优先级和调度策略；
　　3.进程绑定（一个进程可以绑定在一个或者多个CPU上）
　　　　例如，taskset -pc 0-3 10790

　　4.独占CPU
　　5.BIOS调优
　　　　启用睿频

Linux性能优化之CPU优化(一)的更多相关文章

【转】一文掌握 Linux 性能分析之 CPU 篇
[转]一文掌握 Linux 性能分析之 CPU 篇平常工作会涉及到一些 Linux 性能分析的问题,因此决定总结一下常用的一些性能分析手段,仅供参考. 说到性能分析,基本上就是 CPU.内存.磁盘 ...
Linux 性能监控之CPU&内存&I/O监控Shell脚本2
Linux 性能监控之CPU&内存&I/O监控Shell脚本2 by:授客 QQ:1033553122 思路: 捕获数据->停止捕获数据->提取数据备注:一些命令的输 ...
Linux 性能监控之CPU&内存&I/O监控Shell脚本1
Linux 性能监控之CPU&内存&I/O监控Shell脚本1 by:授客 QQ:1033553122 #!/bin/bash # 获取要监控的本地服务器IP地址 IP=`if ...
KVM总结-KVM性能优化之CPU优化
前言任何平台根据场景的不同,都有相应的优化.不一样的硬件环境.网络环境,同样的一个平台,它跑出的效果也肯定不一样.就好比一辆法拉利,在高速公路里跑跟乡村街道跑,速度和激情肯定不同… 所以,我们做运维 ...
KVM性能优化之CPU优化
前言任何平台根据场景的不同,都有相应的优化.不一样的硬件环境.网络环境,同样的一个平台,它跑出的效果也肯定不一样.就好比一辆法拉利,在高速公路里跑跟乡村街道跑,速度和激情肯定不同... 所以,我们做 ...
linux性能问题（CPU，内存，磁盘I/O，网络）
一. CPU性能评估 1.vmstat [-V] [-n] [depay [count]] -V : 打印出版本信息,可选参数 -n : 在周期性循环输出时,头部信息仅显示一次 delay : 两次输 ...
测网速 fping Linux查看网络即时网速 linux性能问题（CPU，内存，磁盘I/O，网络）
Linux查看网络即时网速 fping 是ping 工具的加强版本例出局域网中存活的主机 (Ubuntu apt-get装上 cnetos装不上) zzx@zzx11:~$ fping -a 19 ...
SQL优化笔记—CPU优化
补充:常规服务器动态管理对象包括,下面有些资料可能会应用到 dm_db_*:数据库和数据库对象dm_exec_*:执行用户代码和关联的连接dm_os_*:内存.锁定和时间安排dm_tran_*:事务和 ...
Linux性能监测：CPU篇(转)
http://os.51cto.com/art/201012/239880.htm CPU 的占用主要取决于什么样的资源正在 CPU 上面运行,比如拷贝一个文件通常占用较少 CPU,因为大部分工作是由 ...
Linux 性能监测：CPU
CPU 的占用主要取决于什么样的资源正在 CPU 上面运行,比如拷贝一个文件通常占用较少 CPU,因为大部分工作是由 DMA(Direct Memory Access)完成,只是在完成拷贝以后给一个中 ...

随机推荐

MT【182】系数奇怪的二次函数
设函数$f(x)=3ax^2-2(a+b)x+b,$其中$a>0,b\in R$证明:当$0\le x\le 1$时,$|f(x)|\le \max\{f(0),f(1)\}$ 分析:由$a&g ...
【暴力Treap 或离线归并】子串计数（genies）
子串计数(genies) Description 给出一段含有n个元素的序列a,要求求出子串和小于等于t的子串个数 Input Data 输入共两行第一行包含两个整数,n,t分别表示序列a元素的个数和 ...
HDU 4280 Island Transport（网络流，最大流）
HDU 4280 Island Transport(网络流,最大流) Description In the vast waters far far away, there are many islan ...
HTML5 快速学习一
关注HTML5有一段时间了,一直没系统的去学习过. 对于HTML5的理解,之前停留在一些新的标签,一些api可以完成部分js完成的事情,仅此而已. 前段时间HTML5定稿了,看了一些这方面的报道,进行 ...
webpack+express实现“热更新”和“热加载”(webpack3.6以前的做法)
“热更新”:对应的是 'webpack-dev-middleware' 中间件 “热加载”:对应的是 'webpack-hot-middleware' 中间件为了使用这两个中间件,必须修改“webp ...
LRN
转自https://blog.csdn.net/u011204487/article/details/76026537 LRN全称为Local Response Normalization,即局部响应 ...
函数和常用模块【day06】：json模块（十一）
本节内容 1.dumps序列化和loads反序列化 2.dump序列化和load反序列化 3.序列函数 1.dumps序列化和loads反序列化 dumps()序列化 1 2 3 4 5 6 7 8 ...
expect 交互之双引号较长变量
交互双引号较长变量 #!/bin/bash RemoteUser=xuesong12 Ip=192.168.1.2 RemotePasswd=xuesong Cmd="/bin/echo ...
NIO学习(1)-入门学习
一.NIO概念 IO:标准IO,也既阻塞式IO NIO:非阻塞式IO 二.NIO与标准IO的IO工作方式标准IO基于字节流和字符流进行操作 NIO是基于通道(Channel)和缓冲区(Buffer) ...
云计算--MPI
[root@localhost mpi]# mpicc -c base.c[root@localhost mpi]# mpicc -o base base.o[root@localhost mpi]# ...

Linux性能优化之CPU优化(一)

Linux性能优化之CPU优化(一)的更多相关文章

随机推荐

热门专题