Linux性能优化实战：系统的swap变高（08）

一、Swap 原理

前面提到，Swap 说白了就是把一块磁盘空间或者一个本地文件（以下讲解以磁盘为例），当成内存来使用。它包括换出和换入两个过程

1、所谓换出

就是把进程暂时不用的内存数据存储到磁盘中，并释放这些数据占用的内存。

2、换入

则是在进程再次访问这些内存的时候，把它们从磁盘读到内存中来

所以你看，Swap 其实是把系统的可用内存变大了。这样，即使服务器的内存不足，也可以运行大内存的应用程序

3、应用场景

即是内存不足时，有些程序也并不像被OOM杀死，二十希望能缓一段时间，等待人工介入，或者等系统自动释放其他程序的内存，再分配给它(可以给运维人员处理故障一个缓冲的时间)

常见的笔记本电脑休眠和快速开机的功能，也基于Swap ，休眠时，把系统内存存入磁盘，这样等到再次开机时，只要从磁盘中加载内存就可以，这样就省去了很多应用程序的初始化过程，加快了开机速度

二、那么 Linux 到底在什么时候需要回收内存呢？

1、直接内存回收

有新的大块内存分配请求，但是剩余内存不足，这个时候系统就需要回收一部分内存(比如前面提到的缓存)，进而尽可能地满足新内存请求，这个过程被称为直接内存回收

2、kswapd0(定期回收内存)

1、剩余内存页<最小阈值

root@openstack:~#  free -h

              total        used        free      shared  buff/cache   available

Mem:           4.9G        114M        4.0G        992K        770M        4.5G

Swap:          3.9G          0B        3.9G

root@openstack:~# cat /proc/sys/vm/min_free_kbytes

67584

说明进程可用内存都耗尽了，只有内核才可以分配内存

2、页最小阈值<剩余内存页<页低阈值

内存压力比较大，剩余内存不多了，这是kswapd0会执行内存回收，直接剩余内存大于高阈值为止

3、页低阈值<剩余内存<页高阈值

说明有一定压力，但还可以满足新内存请求

4、剩余内存>页高阈值

说明剩余内存比较多，没有内存压力

watch -d grep -A 15 'Normal' /proc/zoneinfo

Every 2.0s: grep -A 15 Normal /proc/zoneinfo                                                                              openstack: Wed Feb  6 08:45:01 2019

Node 0, zone   Normal

  pages free     146583

        min      4986

        low      6232

        high     7478

        spanned  399872

        present  399872

        managed  373102

        protection: (0, 0, 0, 0, 0)

      nr_free_pages 146583

      nr_zone_inactive_anon 35

      nr_zone_active_anon 11422

      nr_zone_inactive_file 64699

      nr_zone_active_file 120441

      nr_zone_unevictable 1352

      nr_zone_write_pending 0

三、为什么剩余内存很多的情况下，也会发生 Swap 呢？

这正是处理器的 NUMA （Non-Uniform Memory Access）架构导致的。

在 NUMA 架构下，多个处理器被划分到不同 Node 上，且每个 Node 都拥有自己的本地内存空间。

而通一个Node内部的内存空间实际上可以进一步分为不同的内存域。比如直接内存访问区域、普通内存区,伪内存去等如下图所示

1、通过numactl查询node的分布情况

root@openstack:~# numactl --hardware

available: 1 nodes (0)

node 0 cpus: 0 1

node 0 size: 4976 MB

node 0 free: 4088 MB

node distances:

node   0

  0:  10

1、NUMA和swap什么关系？

1、三个内存阈值（页最小阈值、页低阈值和页高阈值）查询

cat  /proc/zoneinfo

Node 0, zone   Normal

  pages free     146583

        min      4986

        low      6232

        high     7478

        spanned  399872

        present  399872

        managed  373102

        protection: (0, 0, 0, 0, 0)

      nr_free_pages 146583

      nr_zone_inactive_anon 35

      nr_zone_active_anon 11422

      nr_zone_inactive_file 64699

      nr_zone_active_file 120441

      nr_zone_unevictable 1352

      nr_zone_write_pending 0

1、pages 处的 min、low、high，就是上面提到的三个内存阈值，而 free 是剩余内存页数，它跟后面的nr_free_pages 相同

2、nr_zone_active_anon 和 nr_zone_inactive_anon，分别是活跃和非活跃的一名页数

3、nr_zone_active_file 和 nr_zone_inactive_anon，分别是活跃和非活跃的文件页数

从这个输出结果可以发现，剩余内存远大于高阈值，所以此时的不会回收内存

2、Node寻找空闲内存还是本地内存中回收内存？

root@openstack:~# cat /proc/sys/vm/zone_reclaim_mode

0

默认的0，也就是刚刚提到的模式，表示既可以从其他Node寻找空闲内存，也可以从本地回收内存

1、1、2、4都表示只回收本地内存，
2、2表示可以回写脏数据回收内存
3、4表示可以用方式回收

3、到底该先回收哪一种呢？

1、对文件页的回收

当然就是直接回收缓存，或者把脏页写回磁盘后再回收

2、而对匿名页的回收

其实就是通过 Swap 机制，把它们写入磁盘后再释放内存

root@openstack:~#  cat /proc/sys/vm/swappiness

60

swappiness 的范围是 0-100，数值越大，越积极使用Swap，更倾向于回收匿名页；

也就是更倾向于回收匿名页；数值越小，越消极使用 Swap，也就是更倾向于回收文件页

虽然swappiness的范围是0-100，不过要注意，这并不是内存的百分比，而是Swap调整积极程度的权重

即使你把它设置成0，当剩余内存+文件页小于也高阈值时，还是会发生Swap