前言

前一段时间自家养的几只猫经常出问题,由于没有有效的监控预警手段,以至于问题出现或者许久一段时间才会被通知到。凌晨一点这个锅可谁都不想背,为此基于目前的情况搭建了以下这么一套监控预警系统。

相关软件

  • Nginx:代理访问 Grafana
  • Grafana: 可视化面板(Dashboard),有着非常漂亮的图表和布局展示
  • Influxdb:开源的时间序列数据库,适用于记录度量,事件及执行分析
  • Telegraf:收集系统和服务的统计数据
  • Docker:开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中

监控架构


GTI监控预警系统,架构流程说明:

  • 第一步:数据采集,Telegraf 采集 Tomcat 相关参数数据
  • 第二步:数据存储,Influxdb 存储 Telegraf 采集的数据
  • 第三步:数据可视化,Grafana 配置 Tomcat 监控面板
  • 第四步:预警通知,配置钉钉、邮件等预警

安装配置

这里只对Grafana、Telegraf、Influxdb、Tomcat 做相应的安装说明,Nginx 以及 Docker 请自行查阅资料。

Grafana

Grafana只是一个接入数据源的可视化面板,这里为了方便,我们选择Docker安装。

mkdir grafana
ID=$(id -u)
docker run -d --user $ID --name=grafana  --volume "$PWD/grafana:/var/lib/grafana" -p 3000:3000 grafana/grafana
# 如果生产环境配置,最好提前配置好域名
docker run -d --user $ID --name=grafana --volume "$PWD/data:/var/lib/grafana" -p 3000:3000 -e "GF_SERVER_ROOT_URL=http://monitor.52itstyle.com" grafana/grafana

执行成功以后,执行以下命令:

docker ps

如果出现grafana运行容器说明安装成功。

查看容器相关参数:

docker inspect docker.io/grafana/grafana

进入:

docker exec -it grafana /bin/sh

Grafana的默认配置文件grafana.ini位于容器中的/etc/grafana,这个文件是映射不出来的。不过可以先创建并运行一个容器,拷贝出来重新创建运行容器。

参数说明(这里截取了部分重点参数):

##################### Grafana 几个重要的参数(参考一下) #####################
[paths]
# 存放临时文件、session以及sqlite3数据库的目录
;data = /var/lib/grafana

# 存放日志的地方
;logs = /var/log/grafana

# 存放相关插件的地方
;plugins = /var/lib/grafana/plugins

#################################### Server ####################################
[server]
# 默认协议 支持(http, https, socket)
;protocol = http

# 默认端口
;http_port = 3000

# 这里配置访问地址,如果使用了反向代理请配置域名,发送告警通知的时候作为访问地址
root_url = http://grafana.52itstyle.com

#################################### Database ####################################
[database]

# 默认使用的数据库sqlite3,位于/var/lib/grafana目录下面
;path = grafana.db

#################################### Session ####################################
[session]
# session 存储方式,默认是file即可  Either "memory", "file", "redis", "mysql", "postgres", default is "file"
;provider = file

#################################### SMTP / Emailing ##########################
[smtp]
# 邮件服务器配置,自行修改配置
enabled = true
host = smtp.mxhichina.com:465
user = admin@52itstyle.com
# If the password contains # or ; you have to wrap it with trippel quotes. Ex """#password;"""
password = 123456
;cert_file =
;key_file =
;skip_verify = false
from_address = admin@52itstyle.com
# 这里不要设置中文,否则会发送失败
from_name = Grafana

Influxdb

创建并运行容器

docker run -d -p 8083:8083 -p 8086:8086 -e ADMIN_USER="root" -e INFLUXDB_INIT_PWD="root" -e PRE_CREATE_DB="telegraf" --name influxdb tutum/influxdb:latest

各个参数含义:

-d:容器在后台运行

--name:容器名称

-e:指定环境变量,容器中可以使用该环境变量 

-p:将容器内端口映射到宿主机端口,格式为 宿主机端口:容器内端口;8083是influxdb的web管理工具端口,8086是influxdb的HTTP API端口

执行成功以后,执行以下命令:

docker ps

如果出现influxdb运行容器说明安装成功。

访问地址:http://ip:8083/


Telegraf

docker pull telegraf

把telegraf相关配置拷贝到宿机

docker cp telegraf:/etc/telegraf/telegraf.conf ./telegraf

采集Tomcat数据:

如果想监控多个Tomcat,这里配置多个[[inputs.tomcat]]即可,但是一定要配置不同的tags标识。

[[inputs.tomcat]]
url = "http://192.168.1.190:8080/manager/status/all?XML=true"
# Tomcat访问账号密码 必须配置
username = "tomcat"
password = "tomcat"
timeout = "5s"
# 标识Tomcat名称、根据实际项目部署情况而定
[inputs.tomcat.tags]
host = "blog"

[[inputs.tomcat]]
url = "http://192.168.1.190:8081/manager/status/all?XML=true"
# Tomcat访问账号密码 必须配置
username = "tomcat"
password = "tomcat"
timeout = "5s"
# 标识Tomcat名称、根据实际项目部署情况而定
[inputs.tomcat.tags]
host = "bbs"

采集数据到influxdb:

[[outputs.influxdb]]
      # urls = ["udp://localhost:8089"] # UDP endpoint example
      urls = ["http://localhost:8086"] # required,这个url改成自己host
      ## The target database for metrics (telegraf will create it if not exists).
      database = "telegraf" # 这个会在influx库创建一个库

把配置文件复制到容器:

docker cp telegraf.conf telegraf:/etc/telegraf/telegraf.conf

重启telegraf服务:

docker restart docker

Tomcat

由于telegraf收集Tomcat相关数据需要配置访问权限,这里我们选择Tomcat7做配置说明。

修改位于conf下的tomcat-users.xml文件:

<tomcat-users>
<user username="tomcat" password="tomcat" roles="manager-gui,manager-script,manager-jmx,manager-status"/>
</tomcat-users>

重启Tomcat容器,访问以下地址:

http://ip:8080/manager/status/all?XML=true

如果出现以上界面,说明配置成功。

监控配置

依次启动Tomcat、Influxdb、Telegraf、Grafana完成后,我们进入Grafana后台管理进行相关配置。

配置Influxdb数据源:

选择 datasources/Add datasource


输入正确的HTTP地址以及数据库账号密码,点击保存,如果出现绿色提示框,说明配置成功。

配置Tomcat仪表盘:

选择 dashboard/import


这里有三种方式导入面板:

  • 选择输入官方面板ID或者URL
  • 直接复制黏贴JSON格式代码
  • 导入第三方面板JSON格式文件

这里我们导入事先自己定制保存的Tomcat监控面板,最后点击导入保存。


如果不出意外,将会是下图的样子。


告警配置

前期做了这么多,我们的最终目的是为了提前预警通知,在系统即将发生灾难之前作出相应的准备调整。这里我们以Tomcat的线程数量阈值作为预警通知。

点击线程面板-选择编辑:


配置相关参数:


1、Alert名称,可以自定义。
2、执行的频率,这里我选择每60s检测一次。
3、判断标准,默认是avg,这里是下拉框,自己按需求选择。
4、query(A,5m,now),字母A代表选择的metrics中设置的sql,也可以选择其它在metrics中设置的,但这里是单选。5m代表从现在起往之前的五分钟,即5m之前的那个点为时间的起始点,now为时间的结束点,此外这里可以自己手动输入时间。
5、设置的预警临界点,这里手动输入,和6是同样功能,6可以手动移动,两种操作是等同的。

配置预警信息以及通知方式:



这里我们选择的是邮件预警通知,但是要提前进行配置,详见一开始grafana.ini中 SMTP / Emailing 相关参数配置。

点击发送测试,提示成功会发送一份告警Demo到指定邮箱:


总结

讲道理,这一套东西还是挺强大的。特别是对于中小公司来说,各种成熟的开源组间一整合完美搭建出一套监控系统,时间成本、人力成本、技术成本可以降到最低。

参考文档

大家安装过程中,版本可能不尽相同,相关页面展示会不一致,但是不会影响最终功能呈现。

http://docs.grafana.org/

https://docs.influxdata.com/influxdb/

https://docs.influxdata.com/telegraf/

https://blog.52itstyle.com/archives/2014/

https://blog.52itstyle.com/archives/2029/

https://github.com/influxdata/telegraf/pull/3277

Grafana+Telegraf+Influxdb监控Tomcat集群方案的更多相关文章

  1. 161028、Nginx负载均衡实现tomcat集群方案简要小结

    重点两部分:一.负载均衡二.tomcat集群 所谓tomcat集群,就是可以向外提供并行服务的多台机器,任何一台服务器宕机,其它服务器可以替代它向外提供服务,而不影响用户访问. Nginx是一个常用的 ...

  2. 【原创】Apache和基于虚拟主机的Tomcat集群方案

    最近建设了北京某政府机构的网站,网站前段使用Apache做负载均衡,后端使用Tomcat做的集群,基于虚拟主机的方式访问,并且实现了静态资源和动态资源的分离. 开始的建设方案有两种,一种是使用apac ...

  3. Apache + Tomcat集群 + 负载均衡

    Part I: 取经处: http://www.ramkitech.com/2012/10/tomcat-clustering-series-simple-load.html  http://blog ...

  4. 部署grafana+telegraf+influxdb 及 配置 jmeter后端监听

    搞性能测试,可以搭建Grafana+Telegraf+InfluxDB 监控平台,监控服务器资源使用率.jmeter性能测试结果等. telegraf: 是一个用 Go 编写的代理程序,可收集系统和服 ...

  5. 从SpringBoot构建十万博文聊聊Tomcat集群监控

    前言 在十万博文终极架构中,我们使用了Tomcat集群,但这并不能保证系统不会出问题,为了保证系统的稳定运行,我们还需要对 Tomcat 进行有效的运维监控手段,不至于问题出现或者许久一段时间才知道. ...

  6. Tomcat集群环境下session共享方案 通过memcached 方法实现

    对于web应用集群的技术实现而言,最大的难点就是:如何能在集群中的多个节点之间保持数据的一致性,会话(Session)信息是这些数据中最重要的一块.要实现这一点, 大体上有两种方式:一种是把所有Ses ...

  7. 搭建grafana+telegraf+influxdb服务器性能监控平台

    最近在学习性能测试,了解到一套系统资源使用率低的监控环境,也就是grafana+telegraf+influxdb. InfluxDB是一款优秀的时间序列数据库,适合存储设备性能.日志.物联网传感器等 ...

  8. Tomcat集群 Nginx负载均衡 shell脚本实时监控Nginx

    第一步,安装Tomcat 系统环境:Centos7 第1步:下载tomcat安装包 tomcat官网:https://tomcat.apache.org/ 第2步:安装包上传至linux中 第3步:下 ...

  9. FineReport关于tomcat集群部署的方案

    多台服务器集群后,配置权限.数据连接.模板.定时调度等,只能每台服务器一个个配置,不会自动同步到所有服务器. 针对上述情况,在FineReport中提供新集群部署插件,将xml配置文件.finedb/ ...

随机推荐

  1. Ubuntu添加新分区

    1.查看分区 ~$ sudo fdisk -l 2.添加分区 ~$ fdisk /dev/sda 3.输入m查看帮助 ~$ m 4.输入n新建分区,即添加分区 ~$ n 这里会出现设置分区大小 5.输 ...

  2. Boostrap模态框,以及通过jquery绑定td的值,使模态框回显

    做页面不管是登录或是修改信息,难免会使用到模态框,在此分享一个比较漂亮的模态框 Boostrap模态框 使用之前首先导入jquery-3.2.1.min.js,和bootstrap.min.js 先添 ...

  3. 我喜欢 Google Flutter

    在 Google I/O ’17 上,Google 向我们介绍了 Flutter —— 一款新的用于创建移动应用的开源库. 正如你所想的那样,Flutter 是能够帮助创建拥有漂亮 UI 界面的跨平台 ...

  4. SQL Agent Job 报“Access to the remote server is denied because the current security context is not trusted”

    SQL Server 2005(Microsoft SQL Server 2005 - 9.00.5000.00)下的一个作业执行一个存储过程,存储过程中动态SQL语句使用链接服务器(Linked S ...

  5. mssql 一次向表中插入多条数据的方法分享 (转自:http://www.maomao365.com/?p=6058)

    转自:http://www.maomao365.com/?p=6058) <span style="font-size:16px;font-weight:bold;"> ...

  6. 洗礼灵魂,修炼python(84)-- 知识拾遗篇 —— 网络编程之socket

    学习本篇文章的前提,你需要了解网络技术基础,请参阅我的另一个分类的博文:网络互联技术(4)——计算机网络常识.原理剖析 网络通信要素 1.IP地址: 用来标识网络上一台独立的终端(PC或者主机) ip ...

  7. Greenplum启动失败Error occurred: non-zero rc: 1的修复

    某日开发反馈测试环境的集群启动失败 报错内容如下: [gpadmin@hadoop-test2:/root]$ gpstart :::: gpstart:hadoop-test2:gpadmin-[I ...

  8. iOS 键盘上方增加工具栏

    UIToolbar *keyboardDoneButtonView = [[UIToolbar alloc] init]; [keyboardDoneButtonView sizeToFit]; UI ...

  9. sed:-e 表达式 #1,字符 10:未终止的“s”命令

    执行shell脚本时,使用sed变量替换指定的字符串,一直出现这个错误: [root@bqh-118 scripts]# vim while_rz.sh [root@bqh-118 scripts]# ...

  10. centos7 下安装Apache2+MariaDB+PHP5过程详解

    1.启用Apache2 Centos7默认已经安装httpd服务,只是没有启动.如果你需要全新安装,可以 yum install -y httpd 启动服务:systemctl start httpd ...