其实用法Checkmk官网文档很全面:https://docs.checkmk.com/latest/en/intro_setup.html

顺着beginner's guide章节看完基本就能上手,以下只是对于整体用法的梳理和总结

常用的监控场景为:主机资源,服务端口,webservice服务,数据库,通过微信告警

1.版本选型

一般用免费版 Checkmk Raw Edition (CRE)

2.安装方式

最常见的是Red Hat and CentOS  https://docs.checkmk.com/latest/en/install_packages_redhat.html

其他还支持物理设备,docker容器等:https://docs.checkmk.com/latest/en/introduction_docker.html,详情可以参考官网文档

这里推荐尽量使用新系统安装,避免不必要的麻烦

3.软件初始化

创建站点:omd create mysite

启动站点:omd start

登陆等

详情查看官网: https://docs.checkmk.com/latest/en/intro_setup.html#create_site

4.用户界面

详情:https://docs.checkmk.com/latest/en/intro_gui.html

5.设置监控

详情:https://docs.checkmk.com/latest/en/intro_setup_monitor.html

其中checkmk有文件夹和主机标签的概念,这两个很有用,因为监控基本是根据规则来批量管理,而管理的方式就是通过文件夹和标签来划分

所以建议,按大类用文件夹区分(不会轻易改动),各种小类用标签区分(可以灵活搭配调整)

其中安装代理:https://docs.checkmk.com/latest/en/intro_setup_monitor.html#install_agent,有两点要注意

(1)一定要注意systemctl的版本高于219

systemd in a version 219 or newer

systemctl --version

所以这里建议尽量使用新系统,比如centos8或者9

这样会避免很多麻烦

(2)注册主机时的命令

cmk-agent-ctl register --hostname localhost --server mycmkserver --site mysite --user cmkadmin

其中主机名称localhost有时候不一定能识别,可以替换为ip

cmk-agent-ctl register --hostname 127.0.0.1 --server mycmkserver --site mysite --user cmkadmin

 checkmk配置完成还有个激活更改的概念
其他windows,SNMP,云、容器、虚拟机的安装详见文档
 
6.监控工具
参考官网:https://docs.checkmk.com/latest/en/intro_tools.html
主要是checkmk常用到的一些小工具
其中重点要注意Master control,这个是用来控制所有监控的开关的
还有个书签的功能,可以把常用的页面保存为书签
 
7.checkmk的日常使用
参考官网:https://docs.checkmk.com/latest/en/intro_monitor.html
其中有两个重要的概念
(1)Acknowledging problems
监控类似于闹钟,当出现问题是checkmk会认为有问题并发出告警,但是到底有没有处理,checkmk并不能知道
所以需要人来手动确认这个问题,来把未处理的问题转变为已处理
(2)设置计划停机时间
这个是防止维护重启的时候,发出告警
其实个人觉得偶尔的计划停机无所谓,如果有周期的维护,比如一周重启一次,就很需要这个功能
但是免费版本配置周期计划停机相对收费版略微麻烦
 
8.微调监控
参考官网:https://docs.checkmk.com/latest/en/intro_finetune.html
这里主要是说要尽可能让监控准确,防止误报
配置监控的原则是首先是质量,然后是数量
一定要先用一个主机做实验,让监控趋向精准的时候,在大批量使用
(1)check中所有的规则都有相应的规则集,你可以在规则集中搜索需要配置的规则
Setup > General > Rule search
(2)用好标签的概念
为主机配置标签,以及为规则匹配相应的标签
(3)文件系统的阀值
由于有的磁盘200T,有的磁盘20g同样设置90%告警就不合理
这里可以用按磁盘大小分级配置阀值
也可以用到checkmk的魔法因子来根据磁盘的大小自动调配阀值
https://docs.checkmk.com/latest/en/intro_bestpractise.html#magic_factor
(4)忽略关闭的主机
比如打印机这种
(5)监控交换机端口
主要是终端交换机,预防经常有主机关机出现误报的情况
(6)永久禁用服务
可以用规则来禁用不想监控的服务
这里可以在主机中禁用某个服务,然后找到那个为这个禁用创建的规则,最后修改这个规则适用范围至其他主机
(7)使用平均值监控异常
可以设置一段时间的cpu平均阀值异常,比如15分钟
(8)管理偶发错误
有些服务偶尔的CRIT 是正常的
这里可以设置为连续检查3次出现CRIT才告警
 
9.用户管理
参考官网:https://docs.checkmk.com/latest/en/intro_users.html
一个用户有两个属性:权限和职责
权限分为:Administrator、Normal monitoring user、Guest user
职责是以联系人组(Contact groups)的方式管理
人员和主机都可以关联进联系人组
然后当联系人组中的主机或者主机上的服务出现问题会给相同组里的联系人发送告警
其中有个概念要注意
把主机分配进联系人组,相应的服务也会继承这个关系
但是把服务分配进联系人组,这种继承关系就会自动消失,他就不会从主机继承任何联系人组
但是主机有问题,很难保证服务正常
所以建议尽量不要分配服务,而是分配主机给联系人组
 
10.配置通知
参考官网:https://docs.checkmk.com/latest/en/intro_notifications.html
基本支持所有方式的通知
常用的就是邮件和微信通知
邮件通知就是:
(1)安装SMTP server service
(2)配置mail server
邮件里通知还可以包含度量图表
 
微信通知
这个在checkmk没有内置,但是check支持自定以脚本,所以可以自己写脚本完成通知
(1)注册一个微信订阅号(只有订阅号可以发送模板消息)
(2)写一个微信消息发送脚本
书写和配置规范:https://docs.checkmk.com/latest/en/notifications.html#scripts
支持shell,python各种语言,里面还包含可用的传参
 
11.扩展监控系统
参考官网:https://docs.checkmk.com/latest/en/intro_extend.html
优化安全,分布式监控,可用性,软硬件清单,监控消息和事件,地图图表可视化,BI,pdf报告
其中有个很重要就是开发自己的插件
 
12.最佳实践
参考官网:https://docs.checkmk.com/latest/en/intro_bestpractise.html
(1)监控单个cpu利用率
防止单进程异常
(2)监控windows服务
配置需要监控的windows服务
(3)监控互联网连接
这个比较有意思,主要用来监控联网可用性的,就是随便找几个主流的网站ip配置进一个主机里面,配置ping规则分别ping这几个ip,然后再配置一个规则只用这个ping规则的状态来告警(防止第一个ping地址故障导致主机出现down状态),这样只要有ip能ping通就不会告警
(4)监控http/https服务
(5)魔法因子文件系统阀值
这个是以20G做基准,然后加一个系数0.8,然后checkmk会根据磁盘相对于20G的大小来调整阀值
 
13.被动检查
参考官网:https://docs.checkmk.com/latest/en/monitoring_basics.html?lquery=passive
可以用脚本在主机上采数,然后推给checkmk检查,例如某些数据库监控
 
 

Checkmk监控工具使用手册的更多相关文章

  1. .NET分布式缓存Memcached从入门到实战

    一.课程介绍 在数据驱动的web开发中,经常要重复从数据库中取出相同的数据,这种重复极大的增加了数据库负载.缓存是解决这个问题的好办法.但是ASP.NET中的虽然已经可以实现对页面局部进行缓存,但还是 ...

  2. DevOps之服务手册

    唠叨话 关于德语噢屁事的知识点,仅提供精华汇总,具体知识点细节,参考教程网址,如需帮助,请留言. <DevOps服务手册(Manual)> <IT资源目标化>1.设施和设备(I ...

  3. 网络实时流量监控工具iftop---转

    网络实时流量监控工具iftop 分类: LINUX 1.安装依赖软件库 [root@localhost ~]# yum install libpcap libpcap-devel ncurses nc ...

  4. MongoDB最佳实践中文手册

    背景:查阅了一下MongoDB的相关文档,发现中文文档还是比较少的,工作中需要用到MongoDB,而这本<MongoDB最佳实践>是很好的选择,所以就把这本手册翻译了一下,其中生涩的专业用 ...

  5. 《Linux 性能及调优指南》2.3 监控工具

    翻译:飞哥 (http://hi.baidu.com/imlidapeng) 版权所有,尊重他人劳动成果,转载时请注明作者和原始出处及本声明. 原文名称:<Linux Performance a ...

  6. Linux系统性能监控工具介绍之-tsar

    Linux系统性能监控工具介绍之-tsar Linux系统性能监控工具介绍之-tsar 2017-03-02 20:25 175人阅读 评论(0) 收藏 举报  分类: LINUX调优(9)    目 ...

  7. 《Linux命令学习手册》系列分享专栏

    <Linux命令学习手册>系列分享专栏 <Linux命令学习手册>已整理成PDF文档,点击可直接下载至本地查阅https://www.webfalse.com/read/207 ...

  8. 4个Linux服务器监控工具

    下面是我想呈现给你的4个强大的监控工具. htop – 交互式进程查看器 你可能知道在机器上查看实时进程的标准工具top.如果不知道,请运行$ top看看,运行$ man top阅读帮助手册. hto ...

  9. 好用的性能检测工具-性能监控工具- Glances

    平常我经常使用 htop 工具来进行对主机进行性能检测.但是它只能对 进行进行管理.并简要显示 进程和cpu和内存使用信息:性能监控工具: glances 是比较好的性能检测工具.相比较htop还能显 ...

  10. Service系统服务(二):补充应用技巧、软连接与硬连接、man手册、zip备份、vim效率操作、自定义yum软件仓库、发布及测试yum仓库、编译安装软件包

    一.补充应用技巧 目标: 本例要求掌握在运维中比较常用的一些扩展命令技巧的使用,完成下列小技巧操作: 1> 采用数值形式将目录/root的权限调整为 rwx------   2> 将记录的 ...

随机推荐

  1. Oracle 计划任务批量清理临时表实例

    昨天发现近一段时间,公司某oracle库数据泵方式备份比之前慢了很多,备份集大小并未增长太多.查看了下发现该用户下存在几十万张表. 一.问题分析 1.查看用户下面的表 select count(*) ...

  2. 服务器重启后oracle监听无法打开

    我重启服务器后不知道为啥监听启动不了,试过各种办法都不行,然后把监听删了重新配置就可以了

  3. TypeScript 合并以及删除数组数据

    1.添加 concat() 2.删除(替换) splice() array.splice(index,int,any) index 是 array数组起始位置的index(从0开始) int是操作从i ...

  4. trzcopy

    @echo offcd /d %~dp0setlocal enabledelayedexpansionset aa=伟大的中国!我为你自豪echo 替换前:%aa%echo 替换后:%aa:中国=中华 ...

  5. linux smb

    /etc/samba/smb.conf [global]workgroup =WORKGROUPsecurity = usermap to guest =Bad Userpassdb backend ...

  6. CIC滤波器

    CIC滤波器是滑动平均滤波器的非常高效的迭代实现,只需要一个减法和一个加法,而滑动平均需要N-1个加法. cic滤波器相当于一个梳状滤波器y(n)=x(n)-x(n-D),H(z)=1-z-D,和一个 ...

  7. bzoj 3924

    动态点分治好题 首先我们考虑一个暴力做法: 每次修改之后选一个点作为根搜索整棵树,然后换根dp即可 考虑每次换根时,移向的点的消耗会减少子树代价之和*边权,而其余部分代价会增加剩余代价*边权 这样每次 ...

  8. Unity鼠标点选RenderTexture里渲染的3D模型

    公司的产品有个功能:在主相机之外,另有一个摄像机来渲染不同的3D模型,然后把摄像机的RenderTexture赋值给一个 rawImage.texture,作为2D的UGUI来显示.(应用场景:模型结 ...

  9. AX2012 查询后台数据库记录

    AX2012 自带的数据库查询功能比较慢(特别是查询删除的情况),有些业务可能需要频繁查询删除人和删除时间等,这种情况下还是用代码来查询比较快. 例: static void SysDataBaseL ...

  10. 音速启动 Vstart 5.7 win10手动移除后台设置主页

    Vstart 用了快12年了,用Wireshark跟踪确实会访问广告页面,也会去上传数据.还会悄悄设置主页 ,所以在Win10上老是被干掉 也想着换 CLaunch 确实不喜欢. Rolan 买了一年 ...