Nagios监控部署(转)

转自 http://kyhack.blog.51cto.com/490370/213355 ky.blog

一、nagios简介

nagios是一款用于系统和网络监控的应用程序，它可以在你的设定的条件下对主机和服务进行监控，在状态变差和变好的时候可以给管理员出告警信息。

nagios所需要的运行条件是机器必须可以运行linux（或是unix变种）并且有c语言编译器。你必须正确地配置tcp/ip协议栈以使大多数的服务检测可以通过网络得以进行。如果需要正确地配置nagios里的cgis程序，必须安装以下这些软件：

web服务（最好是apache）

thomas boutell制作的gd库版本应是1.6.3或更高（在cgis程序模块statusmap和trends这两个模块里需要这个库）

还有一个就是ssl这一个工具，在安装nrpe这一个包时需要，因为在监控其他主机的时候是通过ssl连接来接收数据的；

网络环境：

主机 IP OS 角色

nagios 192.168.0.10 rhel5.1 监控服务器

win2003 192.168.0.100 windows server 2003 被监控主机

linux 192.168.0.102 rhel5.1 被监控主机

准备软件：

apache2.2.14 //下载地址http://httpd.apache.org/download.cgi

nagios3.2.0

nagios plugins1.4.14

nrpe2.12

上面三个都可以在这个网站上找到http://www.nagios.org/download

nsclient++-0.3.6-win32.msi //如果要监控windows的主机，还要下载nsclient这一个客户端工具，下载地址：http://sourceforge.net/projects/nscplus/

确认邮件是否能正常发送，我用的是sendmail，确认服务已经启动，下面发一封测试邮件到指定邮箱：

mail –s “this is test mail” kyhack@vip.qq.com

this is nagios test mail

按ctrl + d 结束输入。

检查一下自大的邮箱，看到邮件之后就可以继续以下的环节了。
把所有的工具都下载到src目录下面：

wget http://prdownloads.sourceforge.net/sourceforge/nagios/nagios-3.2.0.tar.gz

wget http://prdownloads.sourceforge.net/sourceforge/nagiosplug/nagios-plugins-1.4.14.tar.gz

wget http://prdownloads.sourceforge.net/sourceforge/nagios/nrpe-2.12.tar.gz

wget http://apache.etoak.com/httpd/httpd-2.2.14.tar.gz

二、开始安装

1、安装apache

tar xvf httpd-2.2.14.tar.gz

cd httpd-2.2.14

./configure --prefix=/usr/local/apache2

make

make install

/usr/local/apache/bin/apachectl start //由于是没有改动的配置文件，可以直接启动

netstat –an |grep 80 //检查80端口是否已经开启了

或者是在别的机子上输入服务器的ip地址，当看到”it works!”时表明apache已经安装成功了

2、安装nagios

先添加一个nagios的账号

useradd nagios –s /sbin/nologin //有的文章说要启用账号，其实不用也可以，因为这个账号不需要登录

tar xvf nagios-3.2.0.tar.gz

cd nagios-3.2.0

./condfigure --prefix=/usr/local/nagios --with-nagios-user=nagios --with-nagios-group=nagios

make all

make install

make install‐init //在/etc/rc.d/init.d安装启动脚本

make install‐config //安装示例配置文件,安装的路径是/usr/local/nagios/etc

make install‐commandmode //配置目录权限

安装完成nagios后就可以在/usr/local/nagios下面看到这几个目录：

bin 存放nagios执行程序，nagios文件为主程序

etc 配置文件存放目录

libexec 存放一些脚本程序

sbin cgi文件所在目录，也就是执行外部命令所需文件所在的目录

share 网页文件存放位置

var 日志文件、spid 等文件所在的目录

3、安装nagios插件

tar xvf nagios-plugins-1.4.14.tar.gz

cd nagios-plugins-1.4.14

./configure --prefix=/usr/local/nagios //注意了，是放在/usr/local/nagios 里，别搞错了

make

make install

chown –R nagios:nagios /usr/local/nagios //改一下文件的属组

#这样的话那些插件都会扔到nagios/libexec下面去

三、修改配置文件

1、修改apache的配置文件，我只把改的地方贴出来

vi /usr/local/apache2/conf/httpd.conf

User nagios //把apache运行用户改成 nagios

Group nagios //把apache运行组改成 naios

#把下面的内容增加到文件的最后：

Scriptalias /nagios/cgi-bin /usr/local/nagios/sbin

Authtype basic

Options execcgi

Allowoverride none

Order allow,deny

Allow from all

Authname "nagios access"

Authuserfile /usr/local/nagios/etc/htpasswd //用于此目录访问身份验证的文件

Require valid-user

</directory>

Alias /nagios /usr/local/nagios/share

Authtype basic

Options none

Allowoverride none

Order allow,deny

Allow from all

Authname "nagios access"

Authuserfile /usr/local/nagios/etc/htpasswd //用于此目录访问身份验证的文件

Require valid-user

</directory>

别忘记了重启apache服务喔。。。。

2、修改cgi脚本控制文件cgi.cfg

vi /usr/local/nagios/etc/cgi.cfg

use_authentication=1 //打开验证

default_user_name=test

authorized_for_system_information=nagiosadmin,test

authorized_for_configuration_information=nagiosadmin,test

authorized_for_system_commands=nagiosadmin,test

authorized_for_all_services=nagiosadmin,test

authorized_for_all_hosts=nagiosadmin,test

authorized_for_all_service_commands=nagiosadmin,test

authorized_for_all_host_commands=nagiosadmin,test

//这里添加的用户”test”可以通过浏览器对nagios服务的关闭、重启等操作，在这里为了安全也可以把nagiosadmin这一个用户给删掉，如果有多个用户用逗号隔开，如：nagiosadmin,test

/usr/local/apache2/bin/htpasswd ‐c /usr/local/nagios/etc/htpasswd test

new password: 输入你的密码

re‐type new password: 再次确认

adding password for user test //这里给前面添加的用户设置密码

测试一下，输入你的http://你的服务器IP/nagios之后会弹出以下界面：

在这里输入你刚刚设置的用户名密码，就可以登录你的监控平台了，如下：

由于我们目前是没有监控任何的主机，所以目前还是看不到什么有用的东西的。

所以说呢，接下来继续配置其他的配置文件；

3、配置nagios主配置文件

在这里定义后面的配置文件的保存路径，下面只贴修改部分

vi /usr/local/nagios/etc/nagios.cfg

cfg_file=/usr/local/nagios/etc/objects/commands.cfg

#cfg_file=/usr/local/nagios/etc/objects/contacts.cfg //这一行注释掉，为了方便管理，我们重新写一个联系人的配置文件

cfg_file=/usr/local/nagios/etc/contacts.cfg //指定联系人配置文件路径

cfg_file=/usr/local/nagios/etc/contactgroups.cfg //指定联系人组配置文件路径

#cfg_file=/usr/local/nagios/etc/objects/timeperiods.cfg //注释掉，用自己写的监视时段配置文件

cfg_file=/usr/local/nagios/etc/timeperiods.cfg //指定监视时段配置文件路径

cfg_file=/usr/local/nagios/etc/objects/templates.cfg //指定临时配置文件路径

cfg_file=/usr/local/nagios/etc/services.cfg //服务配置文件路径

#cfg_file=/usr/local/nagios/etc/objects/localhost.cfg //注释掉，

cfg_file=/usr/local/nagios/etc/hosts.cfg //主机配置文件路径

cfg_file=/usr/local/nagios/etc/hostgroups.cfg //主机组配置文件路径

check_external_commands=1 //在web界面下重启nagios，停止主机/服务检查操作，默认关闭；

command_check_interval=10s //定义这个命令检查时间间隔，默认是1秒；

4、配置timeperiods.cfg文件

这是个服务器监控时间段的配置文件，一般都是全天24小时，名称是24x7;

vi /usr/local/nagios/etc/timeperiods.cfg

define timeperiod{

timeperiod_name 24x7

alias 24 hours a day,7days a week

sunday 00:00-24:00

monday 00:00-24:00

tuesday 00:00-24:00

wednesday 00:00-24:00

thursday 00:00-24:00

friday 00:00-24:00

saturday 00:00-24:00

}

在这里要注意时间段名称那里的后面不能有空格出现，

5、创建联系人配置文件,contacts.cfg

vi /usr/local/nagios/etc/contacts.cfg

define contact {

contact_name kytest

alias system administrator

service_notification_period 24x7

host_notification_period 24x7

service_notification_options w,u,c,r

host_notification_options d,u,r

service_notification_commands notify-service-by-email

host_notification_commands notify-host-by-email

email kyhack@vip.qq.com

# pager 13800138000

}

创建一个名为kytest的联系人，下面列出其中几个重要选项的说明

#服务出了状况通知的时间段，这个时间段是前面timeperiods.cfg里面定义的。

service_notification_period 24x7

#主机出现状况时通知的时间段，这个时间段是前面timeperiods.cfg里面定义的。

host_notification_period 24x7

#当服务出现w—报警(warning),u—未知(unkown),c—严重(critical),r—从异常恢复到正常，在这四种情况下通知联系人

service_notification_options w,u,c,r

#当主机出现d—当机(down),u—返回不可达(unreachable),r—从异常情况恢复正常,在这3种情况下通知联系人

host_notification_options d,u,r

#服务出问题通知采用的命令notify-service-by-email,这个命令是在commands.cfg中定义的,作用是给联系人发邮件. 在nagios2.x的版本上可以不一样，可以自己到commands.cfg里看一下；在这里也可以设置发送短信的方式通知联系人，前提是你要配置有发送知道的脚本，还要到commands.cfg里面添加发送脚本所用到的命令；

service_notification_commands notify-service-by-email

#同上,主机出问题时采用的也是发邮件的方式通知联系人

host_notification_commands notify-host-by-email

#指定联系的人email地址

email kyhack@vip.qq.com

#联系人的手机,前提是要支持短信通知，这里没有启用通过手机短信的方式发送警报

pager 13800138000

如果有多个联系人的话，可以通过复制来创建多个联系人；

6、创建联系人组配置文件,contactgroups.cfg ，把多个联系人加到一个组里面；

vi /usr/local/nagios/etc/contactgroups.cfg

define contactgroup{

contactgroup_name sagroup

alias system administrator group

members kytest

}

注意：members选项里面的联系人在contacts.cfgj里面要要定义，多个联系从之间用逗号隔开；

7、创建hosts.cfg主机配置文件

vi /usr/local/nagios/etc/hostgroups.cfg

define host{

host_name nagios-server //被监控主机的名称，后面不能带空格

alias nagios server //别名

address 192.168.0.10 //被监控主机的ip地址，这里是监控本机

contact_groups sagroup //联系人组，是在前面contactgroups.cfgj里面定义的组 check_command check-host-alive //检查主机是否存活,命令来自commadns.cfg文件

max_check_attempts 5 //检查失败后重试次数

notification_interval 10 //提醒的间隔，每隔10秒提醒一次

notification_period 24x7 //提醒的周期，24x7这个时间段来自timeperiods.cfg里的定义

notification_options d,u,r //在什么时候提醒，详见contacts.cfg部分的介绍

}

define host{

host_name win2003

alias web server

address 192.168.0.100 //这是我的windows 2003的服务器，

contact_groups sagroup

check_command check-host-alive

max_check_attempts 5

notification_interval 10

notification_period 24x7

notification_options d,u,r

}

define host{

host_name linux

alias web server

address 192.168.0.102 //被监控的linux服务器

contact_groups sagroup

check_command check-host-alive

max_check_attempts 5

notification_interval 10

notification_period 24x7

notification_options d,u,r

}

在这里我定义了三台主机，只是作一个例子；如果你有更多的主机可以通过复制来添加主机，再修改一下相应的位置就可以了；

8、创建hostgroups.cfg文件

vi /usr/local/nagios/etc/hostgroups.cfg

define hostgroup{

hostgroup_name sa-servers

alias sa servers

members nagios-server,win2003,linux

}

这个跟联系人组配置差不多，要是有多台主机可以用逗号隔开；members里的主机成员必须也是要在hosts.cfg里面定义的，其实这个文件也可以不要；

ok，到这里就差可以说是完成了最基础的一部份了，现在就是最关键的一部分了，前面已经定义好了联系人，被监控主机，但是还没有定义好要监控主机上的什么东东；现在在这一部分就可以对主机上的各种信息进行监控，nagios监控的信息主要有：本地资源，对外的服务等；本地资源主要包括cpu，硬盘，swap，内存等；对外服务有web,fpt,smtp,pop3等；

9、定义监控的项目,也叫服务,创建services.cfg

vi /usr/local/nagios/etc/services.cfg

#监控主机是否存活

define service{

host_name nagios-server

service_description check-host-alive

check_command check-host-alive

max_check_attempts 5

normal_check_interval 5

retry_check_interval 2

check_period 24x7

notification_interval 10

notification_period 24x7

notification_options w,u,c,r

contact_groups sagroup

}

#监控主机的web服务

define service{

host_name nagios-server

service_description check_tcp 80

check_period 24x7

max_check_attempts 4

normal_check_interval 3

retry_check_interval 2

contact_groups sagroup

notification_interval 10

notification_period 24x7

notification_options w,u,c,r

check_command check_tcp!80

}

#监控主机的cpu负载情况

define service{

host_name nagios-server

service_description cpu load

check_command check_nrpe!check_load

check_period 24x7

max_check_attempts 4

normal_check_interval 3

retry_check_interval 2

contact_groups sagroup

notification_interval 10

notification_period 24x7

notification_options w,u,c,r

}

#监控主机的进程数

define service{

host_name nagios-server

service_description total-procs

check_command check_nrpe!check_total_procs

check_period 24x7

max_check_attempts 4

normal_check_interval 3

retry_check_interval 2

contact_groups sagroup

notification_interval 10

notification_period 24x7

notification_options w,u,c,r

}

说明：

host_name：必须是主机配置文件hosts.cfg中定义的主机。

check_command：在commands.cfg文件中定义或在nrpe.cfg里面定义的命令；

max_check_attempts: 最大重试次数,一般设置为4次左右；

normal_check_interval 和retry_check_interval检查间隔的单位是分钟。

notification_interval 通知间隔指探测到故障后，每隔多长时间发送一次报警信息，单位是分钟。

notification_options：通知选项跟联系人配置文件相同。

contact_groups:配置文件contactgroup.cfg定义的组名称。

注意：check_command选项后面跟的命令一定要在commands.cfg里有定义；

如果要监控其他的主机的信息，可以通过复制并修改想应的选项来进行添加；

通过复制添加下面这两台服务器的监控项目：

win2003和linux

四、安装nrpe

tar xvf nrpe-2.12.tar.gz

cd nrpe-2.12.

./configure --prefix=/usr/local/nrpe

make

make install

#复制文件，因为在nrpe安装目录/usr/local/nrpe/libexec里只有cneck_nrpe这一个文件，而在nagios/libexec里却没有，还有一个就是nrpe.cfg文件里面默认定义的那几个命令后面的路径是放在/usr/local/nrpe/libexec的目录里面，也要把那几个文件复制过来，如果不复制过来的话必须要修改nrpe.cfg里面定义的命令的路径，免得在services.cfg里面定义check_command时提示找不到命令；现在把下面的文件复制过来：

cp /usr/local/nrpe/libexec/check_nrpe /usr/local/nagios/libexec

cp /usr/local/nagios/libexec/check_disk /usr/local/nrpe/libexec

cp /usr/local/nagios/libexec/check_load /usr/local/nrpe/libexec

cp /usr/local/nagios/libexec/check_ping /usr/local/nrpe/libexec

cp /usr/local/nagios/libexec/check_procs /usr/local/nrpe/libexec

cp /usr/local/nagios/libexec/check_users /usr/local/nrpe/libexec

#修改nrpe配置文件,只把改过的地方写出来

vi /usr/local/nrpe/etc/nrpe.cfg

server_address=192.168.0.10 //以单独的守护进程运行

allowed_hosts=127.0.0.1,192.168.0.10 //设置允许nagios监控服务器可以访问

command[check_users]=/usr/local/nrpe/libexec/check_users -w 5 -c 10

command[check_load]=/usr/local/nrpe/libexec/check_load -w 15,10,5 -c 30,25,20

#command[check_hda1]=/usr/local/nrpe/libexec/check_disk -w 20 -c 10 -p /dev/hda1 //注释掉

command[check_df]=/usr/local/nrpe/libexec/check_disk -w 20 -c 10 //添加这一行，监控整个磁盘利用率

command[check_zombie_procs]=/usr/local/nrpe/libexec/check_procs -w 5 -c 10 -s z

command[check_total_procs]=/usr/local/nrpe/libexec/check_procs -w 150 -c 200

command[check_ips]=/usr/local/nrpe/libexec/ip_conn.sh 8000 10000 //监控ip连接数

说明：

● command[check_users]=/usr/local/nrpe/libexec/check_users –w 5 –c 10在默认情况下check_users的插件是放在/usr/local/nrpe/libexec/目录里面，而目录里面在默认情况下是没有这一个文件的，所以说要从/usr/local/nagios/libexec/目录下拷贝一个过来；或者说的它后面的它改成: command[check_users]=/usr/local/nagios/libexec/check_users –w 5 –c 10 这样的话就可以了，要不然在引用check_users的时候会提示没有那命令；
ps：我这里为了方便，就是从/usr/local/nagios/libexec下把那几个文件拷贝过来；

● 在上面的nrpe.cfg配置文件里面，在中括号 “ [ ] “里面部分是命令名，也就是check_nrep –c 后面可以接的内容，等号=后面的就是实际执行的插件程序的路径；从上往下分别是检测登录用户数，cpu使用率，磁盘的容量，僵尸进程，总进程，连接数；

● 要是还要添加其它监控项目，不要忘记了在这里定义相应的命令；例：如果要监控主机的swap分区使用情况，当空闲空间小于20%时为警告状态，当空闲空间小于10%时为严重状态。需要在nrpe.cnf里面添加下面的命令：/usr/local/nagios/libexec/check_swap -w 20% -c 10% 如还有其它的，添加相就应的就可以了；关于命令用法可以能过/usr/local/nagios/libexec/check_swap –h这样的命令来查询；

● command[check_ips]=/usr/local/nrpe/libexec/ip_conn.sh 8000 10000 ip连接数，ip_conn.sh脚本需要自己写，下面给出脚本的内容：

#!/bin/sh

#if [ $#-ne 2 ]

#then

# echo "usage:$0 -w num1 -c num2"

#exit 3

#fi

ip_conns=`netstat -an |grep tcp |grep est |wc -l`

if [ $ip_conns -lt $1 ]

then

echo "ok -connectcounts is $ip_conns"

exit 0

if [ $ip_conns -gt $1 -a $ip_conns -lt $2 ]

then

echo "warning -connectcounts is $ip_conns"

exit 1

if [ $ip_conns -gt $2 ]

then

echo "critical -connectcounts is $ip_conns"

exit 2

我在nrpe配置文件nrpe.cfg把脚本所需的两个参数写上了，因此这个脚本就不需判断两个参数输入值的情况。只要当前ip连接数大于8000，系统就发warning报警，超过10000，则发“critical”报警信息。把这个脚本放在目录/usr/local/nrpe/libexec下，并给于执行权限；

注：脚本来自田逸的《开源监控利器nagios》

修改/usr/local/nagios/etc/objects/commands.cfg,在最后添加以下内容：

########################################################################

# 'check_nrpe ' command definition

define command{

command_name check_nrpe

command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$

}

添加check_nrpe的命令支持，要不是加的话，在”check_cmmmands check_nrpe!check_nrpe”这样的情况下的时候，会提示没有check_nrpe这一个命令。

Nagios监控部署(转)的更多相关文章

nagios监控部署
nagios监控部署. 在部署之前把依赖包安装了. [root@tiandong63 ~]# yum install -y gcc glibc glibc-common php gd gd-devel ...
Cacti+nagios 整合监控部署文档
目录 Cacti+nagios监控部署步骤... 2 一.Cacti安装... 2 1需要安装的依赖软件包:... 2 2安装rrdtool 2 3启动数据库和httpd服务... 3 4将serve ...
Nagios监控系统部署(源码)
1. 概述2. 部署Nagios2.1 创建Nagios用户组2.2 下载Nagios和Nagios-plugin源码2.3 编译安装3. 部署Nagios-plugin3.1 编译安装nagios- ...
CentOS6.6+Puppet3.7.4分布式部署Nagios监控系统
测试框架 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 CentOS-6.6-x86_64(minimal) puppet-3.7 ...
Nagios监控系统部署(源码)（四）
Nagios监控系统部署(源码) 1. 概述2. 部署Nagios2.1 创建Nagios用户组2.2 下载Nagios和Nagios-plugin源码2.3 编译安装3. 部署Nagios-pl ...
CentOS 7.4 下安装部署Nagios监控系统详细攻略（三）
Nagios是一个流行的电脑系统和网络监控程序,它检测主机和服务,当异常发生和解除时能提醒用户.它是基于GPLv2开发的开源软件,可免费获得及使用. nagios工作原理 nagios的功能是监控服务 ...
Nagios监控的部署与配置
[安装Nagios] yum install -y httpd httpd-devel httpd-tools mysql mysql-devel mysql-server php php-devel ...
监控部署nagios+snmp
参看是否有安装:rpm -q gcc glibc glibc-common gd gd-devel xinetd openssl-devel 未安装基础支持套件的先安装: yum install -y ...
[工具开发] keepalived使用nagios监控脚本
最近在做开发和办公环境的高可用,采用的是keepalived:keepalived基于Linux内核支持的LVS,既能实现高可用,又能实现负载均衡,非常实用. keepalived监控服务状态时可以用 ...

随机推荐

使用TreeView+ListBox+TxtBox 资料管理器
using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; usin ...
动态执行C#代码
using System; using System.CodeDom.Compiler;using System.Collections.Generic;using System.Linq;using ...
Cocos2d-x开发中C++内存管理
由于开始并没有介绍C++语言,C++的内存管理当然也没进行任何的说明,为了掌握Cocos2d-x中的内存管理机制,是有必要先了解一些C++内存管理的知识.C++内存管理非常复杂,如果完全地系统地介绍可 ...
iOS中的动画
iOS中的动画 Core Animation Core Animation是一组非常强大的动画处理API,使用它能做出非常绚丽的动画效果,而且往往是事半功倍,使用它需要添加QuartzCore .fr ...
windows 7 64 bit 使用 virtual box 的经验
本人电脑是联想thinkpad E535的机子,安装的是64bitwindows7 旗舰版为了更好的工作,我安装了虚拟机virtualbox最新版很不幸,我出现了多次蓝屏的情况,我换到32位系统下 ...
Xml 学习
XML概述 XML的历史背景 GML(1969):通用标记语言 IBM公司的一些专家们一起研究的一个课题: 软件必须有高度的可移植性,而且必须有一个统一的标准.为了实现软件的一处编写多处运行这个愿景所 ...
c#基础笔记-----------集合
首先所谓集合是用于管理对象的容器类.一方面集合将独立的对象汇集成群集,作为一个群集来管理,以便进行整体性操作:而另一方面,集合可以方便地获取群集中的个体,进行个体化操作.在.Net中,集合被封装为对象 ...
暑假集训(4)第一弹 -----递推（Hdu2039)
题意梗概:fff团团员小A想退团了,不过要退团,他必须绘制出贤者法阵,以证明他有资格不受大fff之灵的监督并退团,小A他现在要开始收集材料了,但是,他不清楚应该买多少份材料. 虽然你并不想帮他退团, ...
函数 sort，unique，stable_sort，count_if，谓词
bool isShorter(const string &s1,const string &s2) { return s1.size() < s2.size(); } bool ...
1_jz2440在linux下烧写裸机程序
常用的烧写方法有: 1.使用并口工具烧写:接线(参考百问网JZ2440V2开发板使用手册),使用oflash烧写(速度比较慢),可烧写.bin文件,从新上电观察效果.可烧写u_boot. 2.使用op ...

Nagios监控部署(转)

Nagios监控部署(转)的更多相关文章

随机推荐

热门专题