xin片之争,已经暴露了中国xin的问题,我等码农束手无策;而在操作系统方面,成果也是乏善可陈;现如今酷炫的Web监控工具,让很多研发丧失了真正处理问题的能力。

越接近底层,就越接近真相,在计算机的世界,同样适用。

我们的目的,就像是《荒岛余生》一样:找到一个信念,在最残酷的环境中,生存下去。说的比较隐晦,其实就是:你换公司了,而你的新公司比较推崇devops,你要自己面对问题。

吹的那么高大上,一副拯救世界的感觉,但本系列的文章知识并不深,很多已经在大学里的操作系统见过了,虽然照读课本的叫兽并不能让你勾起丝毫兴趣。

如果本系列能够勾起你的些许兴趣,就算目的达到了。本来是想要聊仔细点,但由于时间有限,又不是写书,原理性的东西就不多说了。

内容

文章将会尝试单纯的Cpu、Mem、Net、Disk、IO问题排查,然后组合各种元素,解决一些棘手问题,就是一些常用命令的组合。当然我们是java系的,所以会多一些java方面的讨论。如果你不了解行文风格,可以先读读:《Java堆外内存排查小结--小姐姐味道》

为什么Linux系统会出现这样那样的问题呢?主要的原因就是计算机的各个部件的速度不均衡。Cpu在等cache line,cache 在等内存,内存在等设备。就像在连续17公里高速下坡路口设个收费站一样,一不小心就车毁人亡。

设备五花八门,通常我们接触的设备,就是硬盘和网卡。整个业务系统和操作系统充斥着各种各样的缓冲区,CPU要通过中断负责他们之间的协调。这样,会有很多地方会发生bottleneck。

监控值

排查问题也是有过程的。通常,关注一个硬件资源,比如CPU,我们关注以下基本要素: 1) 利用率 一般是瞬时值,属于采样范围,用来判断有没有峰值。比如cpu utilization 2) 饱和度 一般指资源已完全使用,新请求在特定queue里排队。比如cpu load过高 3) 错误信息 硬件或者驱动错误,比如dmesg命令显示的OOM 4) 联想信息 对引起的原因进行猜测,并用更多的工具验证猜想。比如系统响应慢猜测大量用到了swap

原因

监控值只是一种表象,具体引起的原因才是重点。我们通常希望纯粹的资源限制所引起的故障,这种问题都比较好定位。大多数情况下都没那么幸运,所以广度上的信息共享能帮助很多。过程如下:

1) 信息收集 问题起始时间,上下文 2) 改动集合 问题发生前所有变更列表 3) 问题抽象 将描述抽象成具体的资源问题 4) 问题排查 将信息整理完毕,就可以进行真正的荒野之旅了

测试

本测试用来决定你是不是本文目标受众,如果无法回答以下问题,建议先看一点基本的Linux知识,这将会节省你的时间,因为文章不会对此提太多。

  • io wait 是什么意思?
  • swap是什么分区,怎么关闭?
  • /tmp目录有什么特殊性?
  • 管道是什么东东?

Linux发行版

接下来热热身,瞧瞧Linux有什么发行版。

我这里挑选了6个代表性的版本,版本聚焦的功能向专业化和个性化发展。其中,Centos作为最常见的服务器版本,占据了大量的市场份额;Ubuntu在GUI和易用性上赢得了桌面用户;Kali代表了向专业化发展的一个分支。

个人使用时间最长的是archlinux,尤其喜欢它的滚动升级功能。但由于Centos在服务器端的市场份额实在太大,我们以下的讨论都基于Centos。

据不完全统计,已经有上千个linux版本,见下图(高清大图见 distrowatch.com/images/othe… )。你来告诉我,红旗、麒麟的位置在哪里。

将常用脚本加入到PATH中

有些命令组合不好记,频繁输入也觉得烦,可以将这些过程整理成脚本,扔到path中。

还记得第一次安装jdk,添加的环境变量么?Linux和它类似,不过它有多种shell

通常我们用的叫bash,平常说的shell脚本就是bash脚本。但也有很多其他好用的shell,比如csh、ksh、zsh等。

查看/etc/shells文件看一下你安装过的shell

[root@localhost ~]$ cat /etc/shells
/bin/sh
/bin/bash
/bin/zsh
/sbin/nologin
/bin/dash
复制代码

在个人领域,zsh配合oh-my-zsh(推荐)达到最佳,但服务器一般不会去改你的shell,通过一个环境变量,能够看到你当前所使用的shell终端。

[root@localhost ~]$ echo $SHELL
/bin/bash
复制代码

针对于bash,我们的配置就在用户目录下的.bashrc文件中。

在用户目录下创建.bin目录

mkdir ~/.bin
复制代码

将目录加入到环境变量PATH中

echo "export PATH=\$PATH:~/.bin/" >> ~/.bashrc
复制代码

在.bin创建一个文件xjj,内容为 echo "pleasant taste"

cat > ~/.bin/xjj <<EOF
echo "pleasant taste"
EOF
复制代码

给xjj增加可执行权限

chmod a+x ~/.bin/xjj
复制代码

这样,使用你的用户,在任何地方,都可以执行xjj了

[root@localhost ~]$ xjj
pleasant taste
复制代码

真是令人愉悦的味道~

Linux之《荒岛余生》(一)准备篇的更多相关文章

  1. Linux 设备模型浅析之 uevent 篇(2)

    Linux 设备模型浅析之 uevent 篇 本文属本人原创,欢迎转载,转载请注明出处.由于个人的见识和能力有限,不可能面 面俱到,也可能存在谬误,敬请网友指出,本人的邮箱是 yzq.seen@gma ...

  2. linux学习心得之vim/Cvim篇

    linux学习心得之vim/Cvim篇 在linux 下,vim 时一种最常见的编辑器,很多linux的发行版就自带了.我的是CentOS 6.3. 基本上Vim共分为3种模式,分别是一般模式,编辑模 ...

  3. 【转】一文掌握 Linux 性能分析之 I/O 篇

    [转]一文掌握 Linux 性能分析之 I/O 篇 这是 Linux 性能分析系列的第三篇,前两篇分别讲了 CPU 和 内存,本篇来看 IO. IO 和 存储密切相关,存储可以概括为磁盘,内存,缓存, ...

  4. linux学习:【第3篇】远程连接及软件安装

    狂神声明 : 文章均为自己的学习笔记 , 转载一定注明出处 ; 编辑不易 , 防君子不防小人~共勉 ! linux学习:[第3篇]远程连接及软件安装 远程连接 xshell , xftp软件官网 : ...

  5. linux学习:【第2篇】常用命令

    狂神声明 : 文章均为自己的学习笔记 , 转载一定注明出处 ; 编辑不易 , 防君子不防小人~共勉 ! linux学习:[第2篇]常用命令 基本命令 //打开终端: CentOS:在任何地方,右键-- ...

  6. linux学习:【第1篇】初识Linux及安装

    狂神声明 : 文章均为自己的学习笔记 , 转载一定注明出处 ; 编辑不易 , 防君子不防小人~共勉 ! linux学习:[第1篇]初识Linux及安装 写在前面 学习之初看了一段文章,很有感触,所以也 ...

  7. Linux服务器部署系列之八—Sendmail篇

    Sendmail是目前Linux系统下面用得最广的邮件系统之一,虽然它存在一些不足,不过,目前还是有不少公司在使用它.对它的学习,也能让我们更深的了解邮件系统的运作.下面我们就来看看sendmail邮 ...

  8. Linux服务器部署系列之七—OpenLDAP篇

    LDAP(轻量级目录访问服务),通过配置这个服务,我们也可以在linux下面使用目录的形式管理用户,就像windows下面的AD一样,方便我们管理.下面我们就一起来配置openldap服务.本文运行环 ...

  9. Linux服务器部署系列之一—Apache篇(下)

    接上篇 linux服务器部署系列之一—Apache篇(上)    四.管理日志文件 Apache日志分为访问日志和错误日志两种: 1)访问日志 用于记录客户端的访问信息,文件名默认为access_lo ...

随机推荐

  1. Elasticsearch系列---聚合查询原理

    概要 本篇主要介绍聚合查询的内部原理,正排索引是如何建立的和优化的,fielddata的使用,最后简单介绍了聚合分析时如何选用深度优先和广度优先. 正排索引 聚合查询的内部原理是什么,Elastich ...

  2. spring jar 包 用处功能:

    自己积累的: @   spring-context-3.0.5.RELEASE.jar :主要用于 spring程序中加载类 ApplicationContext 用.eq: ApplicationC ...

  3. 使用Network Emulator Toolkit工具模拟网络丢包测试(上)

    弱网络测试包括延时和丢包二种场景下应用的功能是否正常: 网络延时测试使用Fiddler工具控制上下行数据传输延时时间来模拟网络延时场景: 网络丢包测试使用Network Emulator Toolki ...

  4. Shell脚本日志关键字监控+告警

    最近小张的爬虫程序越来越多,可当爬虫程序报错,不能及时的发现,从而造成某些重要信息不能及时获取的问题,更有甚者,遭到领导的批评.于是就在想有没有一种方法,当爬取信息报错的时候,可以通过邮件或者短信的方 ...

  5. PHP修改脚本最大执行时间和最大内存限制

    PHP设置脚本最大执行时间的三种方法 1.在php.ini里面设置 max_execution_time = 120; 2.通过PHP的ini_set函数设置 ini_set("max_ex ...

  6. 详解 普通数组 —— Arrays类 与 浅克隆

    我们在C语言中,编一些代码量规模比较大的程序,几乎都会用到 "数组" 或 "链表" ,但是,在本人之前的博文中,却对这两个知识点从未提到过,那么,本人将通过这篇 ...

  7. Python 七步捉虫法

    了解一些技巧助你减少代码查错时间. -- Maria Mckinley 在周五的下午三点钟(为什么是这个时间?因为事情总会在周五下午三点钟发生),你收到一条通知,客户发现你的软件出现一个错误.在有了初 ...

  8. PostMan接口测试(很全面的接口测试教程)

    一:理论部分 1. 前言 在前后端分离开发时,后端工作人员完成系统接口开发后,需要与前端人员对接,测试调试接口,验证接口的正确性可用性.而这要求前端开发进度和后端进度保持基本一致,任何一方的进度跟不上 ...

  9. 还学的动吗? 盘点下Vue.js 3.0.0 那些让人激动的功能

    转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具.解决方案和服务,赋能开发者. 原文出处:https://blog.bitsrc.io/vuejs-3-0-0-beta-features- ...

  10. 前端基础-HTML(2)

    1. 什么是标签以及标签的分类: 在HTML页面中,带有“< >”符号的元素被称为HTML标签,如上节提到的 <HTML>.<head>.<body>都 ...