在linux中，工具包的名字为smartmontools

在CentOS中可以使用 yum install smartmontools来安装工具

首先通过smartctl -i /dev/sda 来检查一下硬盘是否具有 SMART 特性

下面是smart工具的说明文档，里面有详细的说明

http://smartmontools.sourceforge.net/smartmontools_scsi.html

这个是我在虚拟机中测试的不支持

这个是我在真服务器中测试的，支持

SMART support 是 Disabled 状态的话，需要开启 SMART 的支持：

smartctl -s on /dev/sda

然后使用smartctl -H /dev/sda来检测磁盘的健康状况

查看/dev/sda当前整体监控状态。PASSED表示健康，否则意味着磁盘已经故障，或很快就会发生故障。

使用

smartctl -t short /dev/sda

做一个快速自检

smartctl -l selftest /dev/sda

查看自检的进度和结果

使用smartctl -t long /dev/sda 做长时间自检，这个很耗时，一般放在凌晨

使用smartctl -l error /dev/sda查看出错日志

在这里，我的读、写都没有发生错误，在Non-medium error count 中出现错误6。

我一直没有搞懂（非媒介错误计数）这个是什么意思，在官方文档查了一下，出现如下：

non-medium error counter (only a single number displayed). This represents the number of recoverable events other than write, read or verify errors.

我大致理解了一下，是除了read,write,verify errors的错误，可恢复事件的数量

查看所有信息
打印/dev/sda所有的SMART信息。
smartctl -a /dev/sda
相当于依次执行：
smartctl –i /dev/sda
smartctl -c /dev/sda
smartctl -A /dev/sda
smartctl -l error /dev/sda
smartctl -l selftest /dev/sda
smartctl -l selective /dev/sda
开/关SMART功能
打开或关闭/dev/sda 的SMART功能。
smartctl -s on/off /dev/sda
查看当前SMART功能是否开启，可以使用 –i 参数。
smartctl -i /dev/sda
离线测试
对/dev/sda进行离线测试，它的结果主要用来更新SMART 属性。
smartctl -t offline /dev/sda
观察测试进度
通过-c 参数，可以观察到测试的进度：
smartctl -c /dev/sda

smartctl参数帮助

-h 帮助信息
-V 版本信息
-i 打印基本信息（磁盘设备号、序列号、固件版本…）
-a 打印磁盘所有的SMART信息
运行时行为参数：
-q TYPE 指定输出的安静模式。
TYPE可以有3种选择：
eorsonly 只打印错误日志。
slent 有任何打印。
nserial 不打印序列号
-d TYPE 指定磁盘的类型。如果没有指定，smartctl会根据磁盘的名字来
猜测磁盘类型。
-T TYPE 指定当发生错误时，smartctl的容忍程度，是否继续运行。
TYPE可以有4种选择：
conservative 一有错就会退出
normal 如果必须支持的SMART命令失败，则退出
permissive 忽略一次必须支持的SMART命令失败
verypermissive 忽略所有必须支持的SMART命令失败
-b TYPE 指定当发生校验错误时，smartctl的动作。
TYPE有3种选择：
warn 发出警告，继续执行
exit 退出smartctl
ignore 不发出告警，继续执行
-r TYPE smartmontools开发人员相关。
-n POWERMODE 指定当磁盘处于节能模式时，smartctl是否继续检查，
默认是不检查。
POWERMODE有4种选择：
never 检查
sleep 除了sleep模式，检查。
standby 除了sleep或standby模式，检查。
idle 除了sleep或standby或idle模式，见车。
SMART功能开关参数：
-s on/off 打开或关闭磁盘的SMART功能
-o on/off 打开或关闭SMART自动离线检测，该功能每4小时就会自动扫描磁盘是
否有缺陷。
-S on/off 打开或关闭“自动保存厂商指定属性”功能。
SMART 读和显示数据参数
-H 报告磁盘的是否健康。如果报告不健康，则说明磁盘已经损坏或会在24小时
内损坏。
-c 显示磁盘支持的普通SMART功能，以及这些功能当前的状态。
-A 显示磁盘支持的厂商指定SMART特性。这些特性的编号从1-253，并且有指
定的名字。
-l TYPE 指定显示的log类型。
TYPE有4种选择：
error 只显示error log。
selftest 只显示selftest log
selective 只显示selective self-test log
directory 只显示Log Directory
-v N,OPTION 显示厂商指定SMART特性N时，使用厂商相关的显示方式。
-F TYPE 设置smartctl的行为，当出现一些已知但还没有解决的硬件或软件bug时，
smartctl应该怎么做。
-P TYPE 设置smartctl是否对磁盘使用数据库中已有的参数。
SMART 离线测试、自测试参数
-t TEST 立刻执行测试，可以和-C参数一起使用。
TEST可以有以下几个选择：
offline 离线测试。可以在挂载文件系统的磁盘上使用
short 短时间测试。可以在挂载文件系统的磁盘上使用。
long 长时间测试。可以在挂载文件系统的磁盘上使用。
conveyance [ATA only]传输zi测试。可以在挂载文件系统的磁盘上使用。
select, N-M
select, N+SIZE [ATA only]有选择性测试，测试磁盘的部分LBA。N表示
LBA编号，M表示结束LBA编号，SIZE表示测试的LBA
范围。
-C 在captive模式下运行测试。
注意：（1）-C必须配合-t一起使用，但如果是-t offline，则-C不生效。
（2）-C会使得磁盘很忙，所以最好是在没有挂载文件系统的磁盘上使用。
-X 中断no-captive模式下运行的测试。

多台机器同时需要监控时，每台机器都需要运行一个监控程序，我们首先要获取服务器的信息以分辨机器，发生问题时，也可以评估问题的严重性。

获取IP

获取内网IP：

通过ifconfig命令获取全部的网络信息，并排除掉本地host和ipv6信息。

/sbin/ifconfig | grep inet | grep -v '127.0.0.1' | grep -v inet6 | awk '{print $2}' | tr -d "addr:"

注意这里要使用ifconfig的绝对路径，因为如果监控脚本运行在 crontab 的话，执行时是不会带有环境信息的。

获取外网IP：

外网的IP我们可以通过请求别的网站来回显，有一些网站提供此服务，如 ipecho.net/plain 或者我自己懒得搭建的网站：alwayscoding.net。

命令如下 curl alwayscoding.net

获取系统信息

获取系统信息建议使用 lsb_release -a 方法：

lsb_release -a

LSB Version:    :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch

Distributor ID: CentOS

Description:    CentOS release 6.5 (Final)

Release:    6.5

Codename:   Final

信息比较丰富，可以截取字符串中需要的部分；

CPU

CPU 负载是我们要监控的首要指标，我们常说的系统负载指的就是它，它是指一段时间内CPU处理进程数占 CPU 能处理最大进程数的比例，即一个 CPU 的最大负载是 1.0，这种情况 CPU 正好能将所有进程执行完，超出这个限制，系统会进入 over load 超载状态，就会有进程需要等待其他进程执行结束。我们一般认为CPU负载在 0.6以下是健康状态。

在终端上查看系统负载通常使用 top 命令，但它是交互型的，且数据较多较杂，不利于写监控脚本，我们一般使用 uptime 通过其 average load 字段获取最近 1分钟、5分钟、15分钟的平均负载。

uptime

16:03:30 up 130 days, 23:33,  1 user,  load average: 4.62, 4.97, 5.08

此时系统平均负载约为 5，不是系统已经超载，也没有显示错误，这是因为在考虑负载时还要考虑 CPU 的核心数，多核 CPU 同时能处理的进程数与其核数成正比，其最大负载不是 1，而是其 CPU 核心数 N。

我们使用 nproc 可以查看系统 CPU 核心数，我正在使用的这台机器核心数是 16，所以其最大负载是16，平均负载是 5/16 = 0.32 ， CPU 处于健康状态。

内存

内存是我们要监控的另外一项核心指标，内存占用率太高，无疑会导致进程无法正常分配内存执行。

我们也可以通过 top 命令查看内存占用，但监控中更常用 free 命令：

free -m

             total       used       free     shared    buffers     cached

Mem:         32108      18262      13846          0        487      11544

-/+ buffers/cache:       6230      25878

Swap:            0          0          0

我们首先来看 Mem 这一行，共 32108M 内存，已使用 18262M，剩余 13846，那么内存的使用率就是 18262/32108*100% = 56.88%。那么，后面的shared、buffers、cached 又是什么意思呢？

其实在 linux 中，内存的分配也是懒惰原则，在内存分配给一个进程，进程执行完毕后 linux 是不会立即清理内存的，而是把这一部分内存当作缓存存储起来，如果此进程再启动就不必再重新加载了；如果可用内存使用完了，则将这一部分缓存清空，重新利用。这样来看 used 里的 buffers 和 cached 部分是随时可被重用的，不能算作被占用。而 shared 是进程共享内存部分，会作为被占用部分，但一般较少使用，与此相关的内容，可以看文末的参考文章。

真实数据是第三行的去除 buffers 和 cache 的部分，即真正的内存使用率是 6230/(6230+25878)*100% = 19.4%。

而第四行的 swap 是用来临时存储内存 buffers 和 cache 的，正常情况虽然能加快进程的重启，但物理内存较少的情况下，会引起 swap 的频繁读写，增加服务器的 IO 压力，用与不用视情况而定。

网络

网络在 linux 作为 web 服务器时也是一项很重要的指标，相关命令有很多，但各有所长，我们一般监控以下状态：

使用netstat查看监听端口。

netstat -an | grep LISTEN | grep tcp | grep 80 查看是否有进程正在监控80端口。

使用ping监控网络连接

使用 ping 命令可以查看网络是否连接，使用 -c 选项来控制请求次数，使用 -w 选项来控制超时时间（单位：毫秒），最后利用 && 符号的 短路 特性来控制结果输出:

ping -w 100 -c 1 weibo.com &>/dev/null && echo "connected"

硬盘

硬盘不是特别重要的监控指标，但在硬盘满的时候写文件失败也会影响进程的正常执行。

我们使用 df 命令来查看磁盘的使用状态，-h 会以易读格式输出：

df -h

Filesystem      Size  Used Avail Use% Mounted on

/dev/vda1        40G  6.0G   32G  16% /

tmpfs            16G     0   16G   0% /dev/shm

/dev/vdb1       296G   16G  265G   6% /data0

我们可以使用 grep 命令找到想要查询的挂载节点，再使用 awk 命令获取结果字段。

另外使用 du [-h] /path/to/dir [--max-depth=n] 可以查看某目录的大小，注意使用 --max-depth=n控制遍历深度。

运行/其他

其他的监控状态主要包括进程错误日志监控，请求数监控，进程存在状态监控等，这些可以用到一些基本命令了，如 ps等。

更详细的信息就需要使用进程日志了，使用 grep 、awk 等命令来分析日志来获取更详细的信息。

检测磁盘驱动的健康程度SMART的更多相关文章

检測磁盘驱动的健康程度SMART
在server中,全部组件中一般最easy坏掉的就是磁盘.所以一般採取RAID来保证系统的稳定性,通过冗余磁盘的方式防止磁盘故障. 现代硬件驱动器一般支持SMART(自我监測分析和报告技术),它可以监 ...
使用 MegaCLI 检测磁盘状态并更换磁盘
专栏首页阿dai_linux使用 MegaCLI 检测磁盘状态并更换磁盘原 10
smartctl 检测磁盘信息
smartctl -i 指定设备 -d 指定设备类型,例如:ata, scsi, marvell, sat, 3ware,N -a 或A 显示所有信息 -l 指定日志的类型,例如:TYPE: err ...
badblocks检测磁盘坏道
1.检测整个盘如/dev/sdb #badblocks -v /dev/sdb > badsectors.txt 2.检测一个分区#badblocks -v /dev/sdb1 > bad ...
shell习题第17题：检测磁盘
[题目要求] 写一个shell脚本,检测所有磁盘分区使用率和inode使用率并记录到以当天日期命名的日志文件里,当发现某个分区容量或者inode使用量大于85%时候,发邮件提醒 [核心要点] df d ...
Ubuntu检测磁盘是否挂载
Ubuntu默认不自动挂载磁盘. 只是学习Bash使用,需优化如使用 # file: mountAll.sh # include color support # a list of variables ...
Linux下使用iotop检测磁盘io使用情况
介绍 Linux下的IO统计工具如iostat, nmon等大多数是只能统计到per设备的读写情况, 如果你想知道每个进程是如何使用IO的就比较麻烦. iotop 是一个用来监视磁盘 I/O 使用状况 ...
Linux检测磁盘空间
在linux中,文件系统将所有的磁盘都并入一个虚拟目录下,在使用新的存储媒体之前,需要把它放到虚拟目录下,这项工作称为挂载. 1.mount命令 mount会输出当前系统上挂载的设备列表,要在虚拟目录 ...
20个linux命令行工具监视性能(下)
昨天晚上第一次翻译了<20 Command Line Tools to Monitor Linux Performance>中的前十个命令,翻译得不是很好,今天晚上继续把后面的十个也翻译给 ...

随机推荐

Mysql数据库安装和配置
http://blog.csdn.net/pipisorry/article/details/46773507 Mysql数据库安装和配置.mysql语法.特殊符号及正则表达式的使用.MySQL备份与 ...
Java进阶(五十三)屡试不爽之正则表达式
Java进阶(五十三)屡试不爽之正则表达式在线测试网址: http://tool.oschina.net/regex/# 上面的在线测试网址,含有正则表达式的生成,非常实用.大家共勉之! 匹配中文: ...
AP INVOICES IMPORT API(NOT request)
PROCEDURE process_cux_to_ap(x_return_status OUT NOCOPY VARCHAR2, x_msg_count OUT NOCOPY NUMBER, x_ms ...
how tomcat works读书笔记七日志记录器
大家可以松一口气了,这个组件比较简单,这一节和前面几节想比,也简单的多. Logger接口 Tomcat中的日志记录器都必须实现org.apache.catalina.Logger接口. packag ...
【Matlab编程】Matlab高效编程技巧
1.默认状态下,matlab显示精度是short型,而默认的计算精度是double型,并且显示精度与计算精度没有关系. 2. 一只失明的猫的问题:注意方法! 3.给数组预分配空间是基本的高效编程准则之 ...
How tomcat works 读书笔记十七启动tomcat 下
在上一节中,我们程序的起始位置还是Bootstrap,现在我们通过bat文件来启动这个类. 在分析catalina.bat之前,我们先看看几个简单的我们能用到的dos命令. 基础知识 1 rem 注释 ...
关于ruby gem无法连接到rubygems.org的解决方案
RubyGems 镜像 - 淘宝网为什么有这个? 由于国内网络原因(你懂的),导致 rubygems.org 存放在 Amazon S3 上面的资源文件间歇性连接失败.所以你会与遇到 gem ins ...
Android的启动过程分析(从进程和Framework的角度)-android学习之旅（98）
Android的启动过程包含从Linux加载到home程序运行的过程,如下图所示: 1.linux内核: Android是基于Linux内核的系统平台.启动时,首先通过bootloader加载LInu ...
前端iFrame跨域问题
一.父域访问子域的元素项目需求: iFrame是个聊天窗口,要求聊天窗口中点击图片图标,在父域将内容展示出来. 解决方法:(jQuery) 首先/要等iFrame加载完再执行函数!(代码如下) va ...
如何在asp.net mvc 中使用Autofac 控制反转(Ioc)
前言最近看了一些关于Ioc方面的开源项目,里面的类跳来转去,看的迷迷糊糊的.项目里根本不需要这么“复杂的”设计,只需简单完成Ico,达到解耦的目的,并且能高效的完成项目.于是参考autofac的官网 ...

检测磁盘驱动的健康程度SMART