用 Python 脚本实现对 Linux 服务器的监控
目前 Linux 下有一些使用 Python 语言编写的 Linux 系统监控工具 比如 inotify-sync(文件系统安全监控软件)、glances(资源监控工具)在实际工作中,Linux 系统管理员可以根据自己使用的服务器的具体情况编写一下简单实用的脚本实现对 Linux 服务器的监控。 本文介绍一下使用 Python 脚本实现对 Linux 服务器 CPU 内存 网络的监控脚本的编写。
Python 版本说明
Python 是由 Guido van Rossum 开发的、可免费获得的、非常高级的解释型语言。其语法简单易懂,而其面向对象的语义功能强大(但又灵活)。Python 可以广泛使用并具有高度的可移植性。本文 Linux 服务器是 Ubuntu 12.10, Python 版本 是 2.7 。如果是 Python 3.0 版本的语法上有一定的出入。另外这里笔者所说的 Python 是 CPython,CPython 是用 C 语言实现的 Python 解释器,也是官方的并且是最广泛使用的Python 解释器。除了 CPython 以外,还有用 Java 实现的 Jython 和用.NET 实现的 IronPython,使 Python方便地和 Java 程序、.NET 程序集成。另外还有一些实验性的 Python 解释器比如 PyPy。CPython 是使用字节码的解释器,任何程序源代码在执行之前先要编译成字节码。它还有和几种其它语言(包括 C 语言)交互的外部函数接口。
工作原理:基于/proc 文件系统
Linux 系统为管理员提供了非常好的方法,使其可以在系统运行时更改内核,而不需要重新引导内核系统,这是通过/proc 虚拟文件系统实现的。/proc 文件虚拟系统是一种内核和内核模块用来向进程(process)发送信息的机制(所以叫做“/proc”),这个伪文件系统允许与内核内部数据结构交互,获取有关进程的有用信息,在运行中(on the fly)改变设置(通过改变内核参数)。与其他文件系统不同,/proc 存在于内存而不是硬盘中。proc 文件系统提供的信息如下:
- 进程信息:系统中的任何一个进程,在 proc 的子目录中都有一个同名的进程 ID,可以找到 cmdline、mem、root、stat、statm,以及 status。某些信息只有超级用户可见,例如进程根目录。每一个单独含有现有进程信息的进程有一些可用的专门链接,系统中的任何一个进程都有一个单独的自链接指向进程信息,其用处就是从进程中获取命令行信息。
- 系统信息:如果需要了解整个系统信息中也可以从/proc/stat 中获得,其中包括 CPU 占用情况、磁盘空间、内存对换、中断等。
- CPU 信息:利用/proc/CPUinfo 文件可以获得中央处理器的当前准确信息。
- 负载信息:/proc/loadavg 文件包含系统负载信息。
- 系统内存信息:/proc/meminfo 文件包含系统内存的详细信息,其中显示物理内存的数量、可用交换空间的数量,以及空闲内存的数量等。
表 1 是 /proc 目录中的主要文件的说明:
表 1 /proc 目录中的主要文件的说明
文件或目录名称 |
描 述 |
---|---|
apm |
高级电源管理信息 |
cmdline |
这个文件给出了内核启动的命令行 |
CPU info |
中央处理器信息 |
devices |
可以用到的设备(块设备/字符设备) |
dma |
显示当前使用的 DMA 通道 |
filesystems |
核心配置的文件系统 |
ioports |
当前使用的 I/O 端口 |
interrupts |
这个文件的每一行都有一个保留的中断 |
kcore |
系统物理内存映像 |
kmsg |
核心输出的消息,被送到日志文件 |
mdstat |
这个文件包含了由 md 设备驱动程序控制的 RAID 设备信息 |
loadavg |
系统平均负载均衡 |
meminfo |
存储器使用信息,包括物理内存和交换内存 |
modules |
这个文件给出可加载内核模块的信息。lsmod 程序用这些信息显示有关模块的名称,大小,使用数目方面的信息 |
net |
网络协议状态信息 |
partitions |
系统识别的分区表 |
pci |
pci 设备信息 |
scsi |
scsi 设备信息 |
self |
到查看/proc 程序进程目录的符号连接 |
stat |
这个文件包含的信息有 CPU 利用率,磁盘,内存页,内存对换,全部中断,接触开关以及赏赐自举时间 |
swaps |
显示的是交换分区的使用情况 |
uptime |
这个文件给出自从上次系统自举以来的秒数,以及其中有多少秒处于空闲 |
version |
这个文件只有一行内容,说明正在运行的内核版本。可以用标准的编程方法进行分析获得所需的系统信息 |
下面本文的几个例子都是使用
Python 脚本
读取
/proc 目录中的主要文件来实现实现对 Linux 服务器的监控的 。
使用 Python 脚本实现对 Linux 服务器的监控
对于 CPU(中央处理器)监测
脚本 1 名称 CPU1.py,作用获取 CPU 的信息。
清单 1.获取 CPU 的信息
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
|
#!/usr/bin/env Python from __future__ import print_function from collections import OrderedDict import pprint def CPUinfo(): ''' Return the information in /proc/CPUinfo as a dictionary in the following format: CPU_info['proc0']={...} CPU_info['proc1']={...} ''' CPUinfo = OrderedDict() procinfo = OrderedDict() nprocs = 0 with open ( '/proc/CPUinfo' ) as f: for line in f: if not line.strip(): # end of one processor CPUinfo[ 'proc%s' % nprocs] = procinfo nprocs = nprocs + 1 # Reset procinfo = OrderedDict() else : if len (line.split( ':' )) = = 2 : procinfo[line.split( ':' )[ 0 ].strip()] = line.split( ':' )[ 1 ].strip() else : procinfo[line.split( ':' )[ 0 ].strip()] = '' return CPUinfo if __name__ = = '__main__' : CPUinfo = CPUinfo() for processor in CPUinfo.keys(): print (CPUinfo[processor][ 'model name' ]) |
简单说明一下清单 1,读取/proc/CPUinfo 中的信息,返回 list,每核心一个 dict。其中 list 是一个使用方括号括起来的有序元素集合。List 可以作为以 0 下标开始的数组。Dict 是 Python 的内置数据类型之一, 它定义了键和值之间一对一的关系。OrderedDict 是一个字典子类,可以记住其内容增加的顺序。常规 dict 并不跟踪插入顺序,迭代处理时会根据键在散列表中存储的顺序来生成值。在 OrderedDict 中则相反,它会记住元素插入的顺序,并在创建迭代器时使用这个顺序。
可以使用 Python 命令运行脚本 CPU1.py 结果见图 1
1
2
|
# Python CPU1.py Intel(R) Celeron(R) CPU E3200 @ 2.40GHz |
图 1.运行清单 1
也可以使用 chmod 命令添加权限收直接运行 CPU1.py
1
2
|
#chmod +x CPU1.py # ./CPU1.py |
对于系统负载监测
脚本 2 名称 CPU2.py,作用获取系统的负载信息
清单 2 获取系统的负载信息
1
2
3
4
5
6
7
8
9
10
11
12
13
14
|
#!/usr/bin/env Python import os def load_stat(): loadavg = {} f = open ( "/proc/loadavg" ) con = f.read().split() f.close() loadavg[ 'lavg_1' ] = con[ 0 ] loadavg[ 'lavg_5' ] = con[ 1 ] loadavg[ 'lavg_15' ] = con[ 2 ] loadavg[ 'nr' ] = con[ 3 ] loadavg[ 'last_pid' ] = con[ 4 ] return loadavg print "loadavg" ,load_stat()[ 'lavg_15' ] |
简单说明一下清单 2:清单 2 读取/proc/loadavg 中的信息,import os :Python 中 import 用于导入不同的模块,包括系统提供和自定义的模块。其基本形式为:import 模块名 [as 别名],如果只需要导入模块中的部分或全部内容可以用形式:from 模块名 import *来导入相应的模块。OS 模块 os 模块提供了一个统一的操作系统接口函数,os 模块能在不同操作系统平台如 nt,posix 中的特定函数间自动切换,从而实现跨平台操作。
可以使用 Python 命令运行脚本 CPU1.py 结果见图 2 # Python CPU2.py
图 2.运行清单 2
对于内存信息的获取
脚本 3 名称 mem.py,作用是获取内存使用情况信息
清单 3 获取内存使用情况
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
|
#!/usr/bin/env Python from __future__ import print_function from collections import OrderedDict def meminfo(): '' ' Return the information in /proc/meminfo as a dictionary '' ' meminfo=OrderedDict() with open( '/proc/meminfo' ) as f: for line in f: meminfo[line.split( ':' )[ 0 ]] = line.split( ':' )[ 1 ].strip() return meminfo if __name__== '__main__' : #print(meminfo()) meminfo = meminfo() print( 'Total memory: {0}' .format(meminfo[ 'MemTotal' ])) print( 'Free memory: {0}' .format(meminfo[ 'MemFree' ])) |
简单说明一下清单 3:清单 3 读取 proc/meminfo 中的信息,Python 字符串的 split 方法是用的频率还是比较多的。比如我们需要存储一个很长的数据,并且按照有结构的方法存储,方便以后取数据进行处理。当然可以用 json 的形式。但是也可以把数据存储到一个字段里面,然后有某种标示符来分割。 Python 中的 strip 用于去除字符串的首位字符,最后清单 3 打印出内存总数和空闲数。
可以使用 Python 命令运行脚本 mem.py 结果见图 3。 # Python mem.py
图 3.运行清单 3
对于网络接口的监测
脚本 4 名称是 net.py,作用获取网络接口的使用情况。
清单 4 net.py 获取网络接口的输入和输出
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
|
#!/usr/bin/env Python import time import sys if len (sys.argv) > 1 : INTERFACE = sys.argv[ 1 ] else : INTERFACE = 'eth0' STATS = [] print 'Interface:' ,INTERFACE def rx(): ifstat = open ( '/proc/net/dev' ).readlines() for interface in ifstat: if INTERFACE in interface: stat = float (interface.split()[ 1 ]) STATS[ 0 :] = [stat] def tx(): ifstat = open ( '/proc/net/dev' ).readlines() for interface in ifstat: if INTERFACE in interface: stat = float (interface.split()[ 9 ]) STATS[ 1 :] = [stat] print 'In Out' rx() tx() while True : time.sleep( 1 ) rxstat_o = list (STATS) rx() tx() RX = float (STATS[ 0 ]) RX_O = rxstat_o[ 0 ] TX = float (STATS[ 1 ]) TX_O = rxstat_o[ 1 ] RX_RATE = round ((RX - RX_O) / 1024 / 1024 , 3 ) TX_RATE = round ((TX - TX_O) / 1024 / 1024 , 3 ) print RX_RATE , 'MB ' ,TX_RATE , 'MB' |
简单说明一下清单 4:清单 4 读取/proc/net/dev 中的信息,Python 中文件操作可以通过 open 函数,这的确很像 C 语言中的 fopen。通过 open 函数获取一个 file object,然后调用 read(),write()等方法对文件进行读写操作。另外 Python 将文本文件的内容读入可以操作的字符串变量非常容易。文件对象提供了三个“读”方法: read()、readline() 和 readlines()。每种方法可以接受一个变量以限制每次读取的数据量,但它们通常不使用变量。 .read() 每次读取整个文件,它通常用于将文件内容放到一个字符串变量中。然而 .read() 生成文件内容最直接的字符串表示,但对于连续的面向行的处理,它却是不必要的,并且如果文件大于可用内存,则不可能实现这种处理。.readline() 和 .readlines() 之间的差异是后者一次读取整个文件,象 .read() 一样。.readlines() 自动将文件内容分析成一个行的列表,该列表可以由 Python 的 for … in … 结构进行处理。另一方面,.readline() 每次只读取一行,通常比 .readlines() 慢得多。仅当没有足够内存可以一次读取整个文件时,才应该使用 .readline()。最后清单 4 打印出网络接口的输入和输出情况。
可以使用 Python 命令运行脚本 net.py 结果见图 4 #Python net.py
图 4.运行清单 4
监控 Apache 服务器进程的 Python 脚本
Apache 服务器进程可能会因为系统各种原因而出现异常退出,导致 Web 服务暂停。所以笔者写一个 Python 脚本文件:
清单 5 crtrl.py 监控 Apache 服务器进程的 Python 脚本
1
2
3
4
5
6
7
8
9
10
11
12
13
|
#!/usr/bin/env Python import os, sys, time while True : time.sleep( 4 ) try : ret = os.popen( 'ps -C apache -o pid,cmd' ).readlines() if len (ret) < 2 : print "apache 进程异常退出, 4 秒后重新启动" time.sleep( 3 ) os.system( "service apache2 restart" ) except : print "Error" , sys.exc_info()[ 1 ] |
设置文件权限为执行属性(使用命令 chmod +x crtrl.py),然后加入到/etc/rc.local 即可,一旦 Apache 服务器进程异常退出,该脚本自动检查并且重启。 简单说明一下清单 5 这个脚本不是基于/proc 伪文件系统的,是基于 Python 自己提供的一些模块来实现的 。这里使用的是 Python 的内嵌 time 模板,time 模块提供各种操作时间的函数。
总结
在实际工作中,Linux 系统管理员可以根据自己使用的服务器的具体情况编写一下简单实用的脚本实现对 Linux 服务器的监控。本文介绍一下使用 Python 脚本实现对 Linux 服务器 CPU 、系统负载、内存和 网络使用情况的监控脚本的编写方法。
用 Python 脚本实现对 Linux 服务器的监控的更多相关文章
- Python 脚本实现对 Linux 服务器的监控
本文来自我的github pages博客http://galengao.github.io/ 即www.gaohuirong.cn 摘要: 原文地址 由于原文来自微信公众号,并且脚本都是图片,所以这里 ...
- 用 Python 脚本实现对 Linux 服务器的网卡流量监控
*这篇文章网上已经有相关代码,为了加深印象,我做了相关批注,希望对朋友们有帮助 工作原理:基于/proc文件系统 Linux 系统为管理员提供了非常好的方法,使其可以在系统运行时更改内核,而不需要重新 ...
- Linux 服务器系统监控脚本 Shell【转】
转自: Linux 服务器系统监控脚本 Shell - 今日头条(www.toutiao.com)http://www.toutiao.com/i6373134402163048961/ 本程序在Ce ...
- Python中实现对list做减法操作介绍
Python中实现对list做减法操作介绍 这篇文章主要介绍了Python中实现对list做减法操作介绍,需要的朋友可以参考下 问题描述:假设我有这样两个list, 一个是list1,list1 = ...
- Linux服务器上监控网络带宽的18个常用命令 zz
Linux服务器上监控网络带宽的18个常用命令 本文介绍了一些可以用来监控网络使用情况的Linux命令行工具.这些工具可以监控通过网络接口传输的数据,并测量目前哪些数据所传输的速度.入站流量和出站流量 ...
- Linux服务器上监控网络带宽的18个常用命令和工具
一.如何查看CentOS的网络带宽出口 检查维护系统的时候,经常会要查看服务器的网络端口是多大的,所以需要用到Linux的一个命令. 如何查看CentOS的网络带宽出口多大?可以用下面的命令来查看. ...
- Linux服务器上监控网络带宽的18个常用命令nload, iftop,iptraf-ng, nethogs, vnstat. nagios,运用Ntop监控网络流量
Linux服务器上监控网络带宽的18个常用命令 本文介绍了一些可以用来监控网络使用情况的Linux命令行工具.这些工具可以监控通过网络接口传输的数据,并测量目前哪些数据所传输的速度.入站流量和出站流量 ...
- linux 服务器性能监控(一)
这篇文章主要介绍一些常用的linux服务器性能监控命令,包括命令的常用参数.指标的含义以及一些交互操作. 几个问题 命令本身并不复杂,关键是你对操作系统基础知识的掌握和理解,先来看看下面几个问题: C ...
- 垃圾脚本黑我linux服务器
今天接到短信 阿里云Linux服务器被黑 脚本如下: echo "sh /etc/chongfu.sh &" >> /etc/rc.local : 开机自启动 ...
随机推荐
- Node Security
发一个很早之前做的一个小东西-安全管理软件-可以对U盘进行管理,对后台程序进行扫描.分析!
- linux shared lib 使用与编译
一. 动态链接库的原理及使用 Linux提供4个库函数.一个头文件dlfcn.h以及两个共享库(静态库libdl.a和动态库libdl.so)支持动态链接. Ø ...
- I.MX6 Linux、Jni ioctl 差异
/*********************************************************************** * I.MX6 Linux.Jni ioctl 差异 ...
- mysql,多对多的hibernate操作对应的jdbc操作
在hibernate中oo思想操作数据库,很方便,但是需要了解一下底层的jdbcsql是怎么写的,复习 多对多的表关系,取出,id为1的学生 订阅了哪些课程? mysql> select c_n ...
- ECSHOP 商品评论条件修改——购买过该商品且只能评价一次(购买多少次能评价多少次)
下文转自http://bbs.ecshop.com/thread-1131529-1-1.html ECSHOP 商品评论条件修改,修改为购买过该商品多少次,就只能评价多少次.不需要修改数据库,原理简 ...
- java-No exception of type ConfigurationException can be thrown; an exception type must be a subclass of Throwable
功能:读配置文件 java菜鸟:导入工程在报名处就开始报错,第一次遇到 import org.apache.commons.lang3.StringUtils; import org.apache.c ...
- INDEX_JOIN
这里就以INDEX_JOIN为例,简单描述一下如何影响Oracle的执行计划的产生. 控制执行计划最简单的方法莫过于使用HINT,这篇文章要介绍的是,在不使用HINT的情况下,让Oracle产生IND ...
- IA32系统级架构总览(一) 实模式和保护模式
应用程序的编写大部分的时候是不必关心系统级架构的,最多学习一下平台所给的API即可,也就是我们通常说的黑箱子.但是在学习操作系统的时候,系统级架构是要关心的. 系统级架构很难学习,其中一个很大的原因是 ...
- nohub命令
http://jingyan.baidu.com/article/335530daa4707f19cb41c3ef.html
- qqq
http://blog.sina.com.cn/s/blog_6f0774010100wawd.html http://www.2cto.com/kf/201302/189135.html http: ...