监控的从底层到上应该是:

一 数据采集层

二 数据处理层

三 数据展示层

监控需要和ITIL中定义的服务进行相当多的交互,例如监控会使用配置管理数据库CMDB来记录和读取数据,会将事件处理方式从知识库(存储IT知识)写入或者读出,会和流程及自动化管理平台(负责流程处理和生产等变更)进行联动处理事件或者服务请求。

  一个个来看看,首先是数据采集,数据采集可以分为物理资源数据采集,应用数据采集和交易信息数据采集。

  物理资源包括服务器软件、服务器硬件、网络、存储、机房环境等,这些监控数据的采集一般采用成熟的第三方软件,例如网络监控可以采用netcool,服务器硬件可以采用HP SIM,服务器软件和应用可以采用BMC Performance Manager。

  端到端的交易个性比较强烈,一般都需要自己开发了。无非也就是根据业务在信息系统内的流向,建立交易在信息系统的流向关系分析(也就是应用影响分析)。

  

  数据处理包括事件和灾难管理处理平台、应用及交易性能分析平台等

  数据展示是为了将监控信息呈现给使用者。

例如:当数据采集层的NETCOOL工具检测到一个服务器网络中断事件时,会将事件送到数据处理层,数据处理层的事件处理平台从知识库中获得该事件以前的处理经验,然后流程及自动化管理平台会形成事件单并从知识库中获取可能的解决方案开始按照既定流程进行处理并保存处理结果。流程及自动化管理平台同时需要负责事件任务的调度。

  

重点难点:

1 将事件分为合适的级别和类型、统一事件编码

2 梳理所有事件的处理流程和解决方案,能做到动态自动更新,最终实现出现过的问题能自动处理。

3 结合应用影响分析和业务影响分析,梳理需要监控的端到端交易和交易依赖的IT环境。作歹交易失败后的事件精准快速定位。

4 虚拟化或者云环境下监控会相对来说更复杂,特别用了很多虚拟化技术(VPLEX\SVC\KVM\VSPHERE|powervm等等),这时候就需要采用各方的虚拟化监控和管理软件,然后在自己做集成开发,但是最好的方法我认为还是自己开发,在风险可控的情况下,金融业一定要学习互联网行业的成功的经验。互联网会对一切有超额利润的行业开战,这是互联网的天性,对于金融IT业一定要有前瞻。

5 多数据中心会给监控带来挑战,一般的解决方法是多中心部署采集层,但是只在一个中心进行数据分析,然后将数据分析结果同步到其他中心进行只读的展示。

  

监控产品的文章可以网上搜索,很多的,很多需要自己写一下shell脚本,这里不在累赘了。

IT集中监控的更多相关文章

  1. zabbix3.2利用自动发现功能对fastcgi模式的php状态进行集中监控

    zabbix3.2利用自动发现功能对fastcgi模式的php状态进行集中监控 前端nginx虚拟主机引用后端多个php接口,为了方便监控,将后端服务器集中配置在nginx中,具体配置如下: [roo ...

  2. SNMP简单网络管理协议

    声明:以下内容是学习谌玺老师视频整理出来(http://edu.51cto.com/course/course_id-861.html) SNMP(Simple Network Management ...

  3. redis安装及基础操作(1)

    ============================================================= 编译安装 0.环境 Linux:centos6.5 redis:3.0.5 ...

  4. V$RMAN_BACKUP_JOB_DETAILS

    V$RMAN_BACKUP_JOB_DETAILS展示了rman备份的相关细节.比如,rman备份持续时间.rman备份的执行次数.每一次rman备份工作的状态(failed or completed ...

  5. elixir 高可用系列(二) GenServer

    概述 如果我们需要管理多个进程,那么,就需要一个专门的 server 来集中监控和控制这些进程的状态,启停等. OTP 平台中的 GenServer 就是对这个 server 通用部分的抽象. 利用 ...

  6. httpclient 认证方式访问http api/resutful api并获取json结果

    最近,因公司线上环境rabbitmq经常发生堆积严重的现象,于是跟运维组讨论,帮助开发个集中监控所有rabbitmq服务器运行情况的应用,需要通过java访问rabbitmq暴露的http api并接 ...

  7. 【云计算】实战-五个Docker监控工具的对比

    [实战]五个Docker监控工具的对比 阅读目录 Docker Stats命令 CAdvisor Scout Data Dog Sensu Monitoring Framework 总结 这篇文章作者 ...

  8. Spring Web Flow 简介

    Spring Web Flow 简介 博客分类: 转载 SSH 最近在TSS上看到了一片介绍Spring Web Flow的文章,顺便就翻译了下来,SWF的正式版估计要到6月份才能看到了,目前的例子都 ...

  9. Centos7搭建集中式日志系统

    在CentOS7中,Rsyslong是一个集中式的日志收集系统,可以运行在TCP或者UDP的514端口上.   目录 开始之前 配置接收日志的主机 配置发送日志的主机 日志回滚 附件:创建日志接收模板 ...

随机推荐

  1. 文件管理NSFileManager

    //NSFileManager - (void)viewDidLoad { [super viewDidLoad]; NSLog(@"%@",NSHomeDirectory()); ...

  2. SSM整合dubbo 进行分页查询

    1.先书写Mapper和sql语句 public interface ActEntityMapper { int deleteByPrimaryKey(String actId); int inser ...

  3. Hibernate学习笔记(四)—— 表与表的关系

    一.一对多|多对一 1.1 关系表达 1.1.1 表中的表达 建表原则:在多的一方创建外键指向一的一方的主键. 1.1.2 实体中的表达 [客户实体] public class Customer { ...

  4. Jupyter 安装与应用

    用pip安装Jupyter pip install jupyter 从命令行启动笔记本服务器 jupyter notebook 前提要先启动python,这里有一个 token值,如果不是使用默认浏览 ...

  5. C++_类入门2-使用类

    进一步探讨类的特征,重点是类设计技术,而不是通用原理.一些特性很容易,一些特性很微妙. 运算符重载 目的是使C++操作更美观,更接近于内置类型的操作. 隐藏了内部的实现机理,并强调了实质. 格式:op ...

  6. 浅谈C#数组(一)

    如果需要使用同一类型的多个对象,可以使用数组和集合(后面介绍).C#用特殊的记号声明,初始化和使用数组.Array类在后台发挥作用,它为数组中的元素排序和过滤提供了多个方法.使用枚举器,可以迭代数组中 ...

  7. stopPropagation / stopImmediatePropagation

      stopPropagation()只会阻止冒泡或者是捕获. stopImmediatePropagation()会阻止该元素的其他事件发生,但是stopPropagation就不会阻止其他事件的发 ...

  8. POJ - 1222 / POJ - 3279 枚举第一行

    说好的高斯消元法呢,暴搜都能0ms 这种翻转就是枚举第一行控制变量下面行就全都确定了 代码参考挑战程序设计例题 #include<iostream> #include<algorit ...

  9. 云服务的三种形式laas,paas,saas

    “云”其实是互联网的一个隐喻,“云计算”其实就是使用互联网来接入存储或者运行在远程服务器端的应用,数据,或者服务. 云也是分层的 任何一个在互联网上提供其服务的公司都可以叫做云计算公司.其实云计算分几 ...

  10. 剑指offer——面试题10:斐波那契数列

    个人答案: #include"iostream" #include"stdio.h" #include"string.h" using na ...