背景介绍

sysctl是一个允许改变正在运行中的Linux系统内核参数的接口。可以通过sysctl修改Linux系统内核中的TCP/IP 堆栈和虚拟内存系统的高级选项,而且不需要重新启动Linux系统,就可以实现优化Linux系统和提高应用进程运行性能。

通过Linux系统中的/proc虚拟文件系统来实现动态配置Linux系统内核参数,在/proc/sys目录下有Linux系统绝大多数的内核参数,这些内核参数可以在Linux系统运行时进行修改,并且不需要重新启动Linux系统便可以立刻生效,但是这种修改在重新启动Linux系统后便会失效,要是想永久生效的话,需要更改配置文件/etc/sysctl.conf中相应的内核参数配置项。

可以通过下面命令获取sysctl可以操作的所有内核参数配置项和已经配置的数值:

# sysctl –a

这些内核参数主要包括下面几类配置项:

•       全局内核配置项:以“kernel.”为配置项前缀,举例:

kernel.shmmax = 33554432(共享内存段的最大尺寸,以字节为单位)

kernel.threads-max = 139264(Linux内核所能使用的线程最大数量)

•       网络配置项:以“net.”为配置项前缀,举例:

net.ipv4.ipfrag_low_thresh = 196608(用于IP分片汇聚的最小内存用量)

net.ipv4.ipfrag_high_thresh = 262144(用于IP分片汇聚的最大内存用量)

•       虚拟内存配置项:以“vm.”为配置项前缀,举例:

vm.swappiness = 60(减少系统对于swap频繁的写入,将加快应用程序之间的切换,有助于提升系统性能)

vm.dirty_ratio = 40(该文件表示如果进程产生的废数据到达系统整体内存的百分比,此时进程自信把废数据写回磁盘)

•       设备专用配置项:以“dev.”为配置项前缀,举例:

dev.raid.speed_limit_max = 200000(需要初始化同步RAID的同步最大速度限制)

dev.raid.speed_limit_min = 1000(需要初始化同步RAID的同步最小速度限制)

•       文件系统专用配置项:以“fs.”为配置项前缀

fs.file-max = 779703(可以分配的文件句柄的最大数目)

fs.file-nr = 3930 0 779703(已分配文件句柄的数目,已使用文件句柄的数目,文件句柄的最大数目,该文件是只读的,仅用于显示信息)

容器相关内核参数

上面介绍了通过sysctl可以操作Linux系统内核参数,在这些内核参数中,有些不但是操作系统全局级别的内核参数,还是命名空间级别的内核参数。对于容器来说,是通过命名空间实现隔离的,那么就意味着这些命名空间级别的参数是容器相关的内核参数。

Linux系统命名空间的分类如下:

命名空间级别的内核参数包括:

•       kernel.shm*(内核中共享内存相关参数),举例:

kernel.shmall = 3774873(可以使用的共享内存的总量)

kernel.shmmax = 15461882265(单个共享内存段的最大值)

•       kernel.msg*(内核中SystemV消息队列相关参数)

kernel.msgmnb = 16384(每个消息队列的最大字节限制)

kernel.msgmni = 128(同时运行的最大的消息队列个数)

•       kernel.sem(内核中信号量参数)

kernel.sem = 250 32000 100 128(每个信号集中的最大信号量数目、系统范围内的最大信号量总数目、每个信号发生时的最大系统操作数目、系统范围内的最大信号集总数目)

•       fs.mqueue.*(内核中POSIX消息队列相关参数)

fs.mqueue. msg_max = 32678(队列里缓存的软最大消息数目)

fs.mqueue. msgsize_max = 8192(最大消息长度上限)

•       net.*(内核中网络配置项相关参数)

net.ipv4.ipfrag_low_thresh = 196608(用于IP分片汇聚的最小内存用量)

net.ipv4.ipfrag_high_thresh = 262144(用于IP分片汇聚的最大内存用量)

新特性

因为sysctl可以修改命名空间级别的内核参数,所以在Kubernetes1.4中通过sysctl来配置POD中Linux内核参数的功能,通过修改POD中Linux内核参数,可以优化POD性能,提升POD中容器运行效率。在Kubernetes1.4中这还是一个阿尔法特性。

修改Linux内核参数存在安全风险,修改错误很可能会降低系统性能,甚至会引起系统崩溃,所以需要谨慎对待。在Kubernetes1.4中将命名空间级别的内核参数分成了两类,一类是安全的内核参数,一类是不安全的内核参数。所谓安全的命名空间级别内核参数,就是要能够实现相同节点上不同POD之间的完全隔离,要满足如下条件:

1.        不能对相同节点上其他POD产生任何影响

2.        不能对节点上操作系统健康造成影响

3.        不能在POD资源限制以外获取更多的CPU和内存资源

根据上面三个条件可以发现,大多数的命名空间级别内核参数都不是安全的。在Kubernetes1.4中,认为下面的命名空间级别内核参数是安全的:

1.        kernel.shm_rmid_forced = 1(表示是否强制将共享内存和一个进程联系在一起,这样的话可以通过杀死进程来释放共享内存)

2.        net.ipv4.ip_local_port_range =1024 65000(表示允许使用的端口范围)

3.        net.ipv4.tcp_syncookies = 1(表示是否打开TCP同步标签,同步标签可以防止一个套接字在有过多试图连接时引起过载)

在Kubernetes以后的版本中,还会继续扩充安全的命名空间级别内核参数。在Kubernetes中,所有安全的命名空间级别内核参数默认都是启用状态的,所有不安全的命名空间级别内核参数默认都是禁用状态的,如果想设置不安全的内核参数,需要Kubernetes管理员手工启用。如果管理员没有手工启用不安全的内核参数,那么Kubernetes仍然会进行调度,将这些带有不安全内核参数的POD分配到节点上,但是这些POD在启动时会失败。

在启动kubelet时通过增加参数“experimental-allowed-unsafe-sysctls”来启用不安全的命名空间级别内核参数:

可以在POD配置文件中设置已经被启用的命名空间级别内核参数:

上面的配置文件在POD中设置了安全的命名空间级内核参数:kernel.shm_rmid_forced,并且在POD中设置了两个不安全的命名空间级内核参数:net.ipv4.route.min_pmte和kernet.msgmax。

在annotations中的“security.alpha.kubernetes.io/sysctls”参数上设置安全的命名空间级内核参数,在annotations中的“security.alpha.kubernetes.io/unsafe-sysctls”参数上设置不安全的命名空间级内核参数。

总结

Kubernetes1.4引入了配置命名空间级内核参数的功能,可以通过配置这些内核参数,提高容器运行性能,同时在安全方面进行了增强,提供了安全的命名空间级内核参数的功能,并在以后的版本中还会继续增加这些安全的命名空间级内核参数数量。为了方便管理员灵活配置命名空间级内核参数,还对不安全的命名空间级内核参数提供了手工开启和配置功能。但是由于这个新特性是阿尔法版本,只是用于研发使用的版本,所以在Kubernetes以后的版本中这个特性可能还会有比较大的变化。

kubernetes1.4新特性:支持sysctl命令的更多相关文章

  1. kubernetes1.4新特性(一):支持sysctl命令

    sysctl是一个允许改变正在运行中的Linux系统内核参数的接口.可以通过sysctl修改Linux系统内核中的TCP/IP 堆栈和虚拟内存系统的高级选项,而且不需要重新启动Linux系统,就可以实 ...

  2. [置顶] Kubernetes1.7新特性:支持绕过docker,直接通过containerd管理容器

    背景情况 从Docker1.11版本开始,Docker依赖于containerd和runC来管理容器,containerd是控制runC的后台程序,runC是Docker公司按照OCI标准规范编写的一 ...

  3. kubernetes1.5新特性跟踪(续)

    Kubernetes发布历史回顾 Kubernetes 1.0 - 2015年7月发布 Kubernetes 1.1 - 2015年11月发布 Kubernetes 1.2 - 2016年3月发布 K ...

  4. kubernetes1.5新特性跟踪

    Kubernetes发布历史回顾 Kubernetes 1.0 - 2015年7月发布 Kubernetes 1.1 - 2015年11月发布 Kubernetes 1.2 - 2016年3月发布 K ...

  5. kubernetes1.4新特性:支持两种新的卷插件

    背景介绍 在Kubernetes中卷的作用在于提供给POD持久化存储,这些持久化存储可以挂载到POD中的容器上,进而给容器提供持久化存储. 从图中可以看到结构体PodSpec有个属性是Volumes, ...

  6. kubernetes1.4新特性:支持Docker新特性

    (一)背景资料 在Kubernetes1.2中这个第三方组件就是go-dockerclient,这是一个GO语言写的docker客户端,支持Dockerremote API,这个项目在https:// ...

  7. Kubernetes1.6新特性:全面支持多颗GPU

    (一)  背景资料 GPU就是图形处理器,是Graphics Processing Unit的缩写.电脑显示器上显示的图像,在显示在显示器上之前.要经过一些列处理,这个过程有个专有的名词叫" ...

  8. Kubernetes1.3新特性:支持GPU

    (一)  背景资料 GPU就是图形处理器,是Graphics Processing Unit的缩写.电脑显示器上显示的图像,在显示在显示器上之前,要经过一些列处理,这个过程有个专有的名词叫" ...

  9. [置顶] kubernetes1.7新特性:PodDisruptionBudget控制器变化

    背景概念 在Kubernetes中,为了保证业务不中断或业务SLA不降级,需要将应用进行集群化部署.通过PodDisruptionBudget控制器可以设置应用POD集群处于运行状态最低个数,也可以设 ...

随机推荐

  1. DIV+CSS标准化布局

    1.DIV+CSS布局 说明:在网页开发制作中,需要对页面内容进行“模块化标准布局”,把内容放入到某个位置,让页面形成固定规律展示出来 模块化:在网页中所有的内容都是以块来展示的 标准化:在开发网站时 ...

  2. PAT甲级——A1051 Pop Sequence

    Given a stack which can keep M numbers at most. Push N numbers in the order of 1, 2, 3, ..., N and p ...

  3. vscode, eslint, prettier, vetur冲突及解决

    这3工具都必须安装. 但是安装之后, 规则冲突又让人头疼. 讲下解决方案吧.一 从0开始1. 禁止工作区插件, 如下图:  2. 清空用户设置(Code–>首选项–>设置–>[右上角 ...

  4. Java爬虫的实现

    距离上一次写爬虫还是几年前了,那时候一直使用的是httpclient. 由于最近的项目又需要使用到爬虫,因此又重新查询了一些爬虫相关的框架,其中最合适的是WebMagic 官方文档:https://g ...

  5. KOA 学习(八) koa-bodyparser

    此控件支持Josn,form,text类型 用法 var Koa = require('koa'); var bodyParser = require('koa-bodyparser'); var a ...

  6. css 始终显示滚动条,内容超出显示有滑块的滚动条,内容没有超出显示空的滚动条

    1.内容没有超出显示空的滚动条 <div class="div1"> 前端开发者前端开发者前端开发者前端开发者前端开发者 </div> css代码: .di ...

  7. 2019-7-15-win10-uwp-在笔迹开始书写拿到书写移动事件

    title author date CreateTime categories win10 uwp 在笔迹开始书写拿到书写移动事件 lindexi 2019-7-15 8:58:5 +0800 201 ...

  8. TZOJ 5986 玄武密码(AC自动机)

    描述 在美丽的玄武湖畔,鸡鸣寺边,鸡笼山前,有一块富饶而秀美的土地,人们唤作进香河.相传一日,一缕紫气从天而至,只一瞬间便消失在了进香河中.老人们说,这是玄武神灵将天书藏匿在此. 很多年后,人们终于在 ...

  9. Leetcode138. Copy List with Random Pointer复制带随机指针的链表

    给定一个链表,每个节点包含一个额外增加的随机指针,该指针可以指向链表中的任何节点或空节点. 要求返回这个链表的深度拷贝. 方法一: class Solution { public: RandomLis ...

  10. TZ_13_微服务场景Eureka

    1.搭建Eureka的注册中心 1.1Eureka几个时间间隔配置详解 1 >客户端信息上报到eureka服务的时间周期,配置的值越小,上报越频繁,eureka服务器应用状态管理一致性越高 #客 ...