前言

好的手册在当警报触发时,便于快速定位问题。在更复杂的环境中,团队中的每个人都不会对每个系统都有所了解,而且Runbook是传播这些知识的一个载体,更是好方法。

手册 == RunBook, 请了解。

1、编写RunBook的注意事项

为特定服务编写了一个好的Runbook,大致需要一下几点:

  • 这项服务是什么,它的作用是什么?
  • 谁是项目负责?
  • 它有什么依赖关系?
  • 它的基础设施是什么样的?
  • 它发出什么指标和日志,它们是什么意思?
  • 为它设置了什么警报,为什么?

对于每个警报,我们可以包含指向该服务的Runbook的链接。当有人响应警报时,他们将打开Runbook并了解正在发生的事情,警报的含义以及潜在的补救步骤。

与许多好东西一样,Runbook很容易被滥用。如果警报的补救步骤与复制粘贴命令一样简单,那么说明已经开始滥用Runbook。对于上面说的情况应该自动执行该修复或解决基础问题,然后完全删除警报。

Runbook用于解决某些问题时需要人工判断和诊断的时间。

2、基于Web App的RunBook示例

当然,这是一个示例,你完全可以根据你的情况进行完善与调整。下面我们来看下Demo。

服务名:Demo App

Demo App 是通过Python框架Flask进行开发,主要作用是Blog信息展示;服务主要依赖组件有Redis(缓存),MySQL(数据存储);服务采用Uwsgi+Nginx形式作为部署架构。

Metadata

代码库位于http://10.0.0.1/app/blog

服务责任人:Evan

问题升级

如果需要协助来解决此服务的问题,则服务所有者无法协助,问题升级联系备用人员XX。有关联系说明,请参阅公司联系表。

外部依赖

依赖公共Js库mount.js来实现国际化时间;

依赖外部CDN进行加速,CDH域名:XXXX,CDH服务商:XXX。

内部依赖性

Nginx服务,运行在10.0.0.7的服务器上;

Redis服务,运行在10.0.0.7的服务器上,DB库是:3;

MySQL服务,运行在10.0.0.8(Master),10.0.0.9(Slave);数据库名称:flask_blog

技术栈

  • Flask (1.0.1)
  • Nginx (1.13.16)
  • Redis(4.3.1)
  • MySQL(5.6.40)

监控指标与日志

指标如下:

  • 用户登录(计数)
  • 用户注销(计数)
  • 发布创建(计数)
  • 删除(计数)
  • 评论创建(计数)
  • 评论删除(计数)
  • 发布时间(计时器)
  • 删除时间(计时器)
  • 用户注册时间(计时器)
  • 用户登录时间(计时器)
  • 用户注销时间(计时器)

应用日志内容:

  • 用户使用用户ID,状态(成功/失败)和IP地址登录
  • 使用用户ID,状态(成功/失败)和IP地址发布创建
  • 使用用户ID,状态(成功/失败)和IP地址创建注释

警报

问题:用户登录失败率

原因:当用户登录失败率在5m时间内超过5%时,此警报将触发。可能的原因是部署不当(检查最近的部署)或暴力攻击(检查用户登录日志是否有攻击迹象)。

问题:用户登录时间过长

原因:当用户登录所需的时间超过一秒时,将触发此警报。检查最近的错误部署或MySQL性能问题。

问题:发布时间太长

原因:当用户创建帖子所需的时间超过一秒时,将触发此警报。检查最近的错误部署或MySQL性能问题。

问题:评论创造时间太长

原因:当用户创建评论所需的时间超过一秒时,将触发此警报。校验对于最近的错误部署或MySQL性能问题。

上面就是Demo了,可以根据大家的需求进行调整。

04-监控-手册(Runbook)的更多相关文章

  1. Ubuntu 16.04监控网络带宽软件

    1.系统监控器已经自带了默认的监控功能,包括CPU.内存.带宽.进程等,但带宽的一些详情不能显示出来. 2.使用top命令进行监控进程 sudo top 3.安装Indicator-sysmonito ...

  2. MySQL 性能监控 4 大指标

    [编者按]本文作者为 John Matson,主要介绍 mysql 性能监控应该关注的 4 大指标. 文章系国内 ITOM 管理平台 OneAPM 编译呈现.    MySQL 是什么? MySQL  ...

  3. Linux下系统如何监控服务器硬件、操作系统、应用服务和业务

    1.Linux监控概述       Linux服务器要保证系统的高可用性,需要实时了解到服务器的硬件.操作系统.应用服务等的运行状况,各项性能指标是否正常,需要使用各种LINUX命令.做到自动化运维就 ...

  4. MySQL 性能监控4大指标——第一部分

    [编者按]本文作者为 John Matson,主要介绍 mysql 性能监控应该关注的4大指标. 第一部分将详细介绍前两个指标: 查询吞吐量与查询执行性能.文章系国内 ITOM 管理平台 OneAPM ...

  5. Linux使用shell脚本监控

    (1)性能监控脚本 performance.sh #!/bin/bash #-------------------------------------------------------------- ...

  6. pscp使用详解 Windows与Linux文件互传工具

    pscp使用详解 Windows与Linux文件互传工具 pscp使用方法详解:pscp是putty安装包所带的远程文件传输工具,是一款十分常见windows与linux系统之间文件互传的工具,使用方 ...

  7. Java 工程师成神之路 | 2019正式版

    本文为转载,原文见以下链接:https://mp.weixin.qq.com/s/4AMzq87V6eW3YPgE0mCdSw 1 基础篇 01 面向对象 → 什么是面向对象 面向对象.面向过程 面向 ...

  8. u-boot-2015.01在tq2440上的初步移植

    作者: 彭东林 邮箱: pengdonglin137@163.com QQ:   405728433 开发板:     tq2440 工具:       Win7 + VMware + Debian6 ...

  9. 033.[转] Java 工程师成神之路 | 2019正式版

    Java 工程师成神之路 | 2019正式版 原创: Hollis Hollis 2月18日 https://mp.weixin.qq.com/s/hlAn6NPR1w-MAwqghX1FPg htt ...

随机推荐

  1. SSM框架整合模板

    SSM框架整合--MAVEN依赖 spring方面(包含了springmvc): spring-webmvc:spring与mvc的整合依赖,主要包括spring的核心包和springmvc需要的包 ...

  2. eclipse-切换分支-用途描述

    操作细节参考文章 https://www.cnblogs.com/sunrunzhi/p/6509448.html 分析切换分支的用途: 背景: 1. 项目开发使用分支1.分支2: 2. 分支1代码是 ...

  3. [开源软件] 腾讯云Linux服务器一键安装LAMP/LNMP/LANMP环境 转

    本帖最后由 我本戏子 于 2015-8-13 22:00 编辑OneinStack是非常优秀的一键PHP/JAVA安装脚本,提供以下环境:lnmp(Linux + Nginx+ MySQL+ PHP) ...

  4. Face_to_object_design

    二.实例 掷骰子游戏:三粒骰子,掷两次,比较两次的结果. 1.提炼 提炼对象:三粒骰子.游戏 提炼对象的属性和功能:掷骰子.比较点数 骰子: 属性:点数 功能:随机获取一个1~6之间的整数值. 游戏: ...

  5. python基础语法1-变量

    l Python基础语法1-变量 

  6. 【Java】变量

    变量 文章目录 变量 1.变量的概念 2.变量的三要素 3.变量的使用应该注意什么? 4.变量的声明和赋值.使用的语法格式? 5.code 1.变量的概念 变量的作用:变量用来存储数据. 变量的本质: ...

  7. 【十天自制软渲染器】DAY 02:画一条直线(DDA 算法 & Bresenham’s 算法)

    推荐关注公众号「卤蛋实验室」或访问博客原文,更新更及时,阅读体验更佳 第一天我们搭建了 C++ 的运行环境并画了一个点,根据 点 → 线 → 面 的顺序,今天我们讲讲如何画一条直线. 本文主要讲解直线 ...

  8. (四)React Ant Design Pro + .Net5 WebApi:PostgreSQL数据库环境搭建

    一.简介 PostgreSQL,开源数据库(没听过小伙伴自己反思一下自行百度) PgAdmin,官方提供的数据库管理工具. 二.环境 1. 官网下载包,安装数据库 tar xjvf /app/pack ...

  9. [Usaco2005 Dec]Scales 天平

    题目描述 约翰有一架用来称牛的体重的天平.与之配套的是N(1≤N≤1000)个已知质量的砝码(所有砝码质量的数值都在31位二进制内).每次称牛时,他都把某头奶牛安置在天平的某一边,然后往天平另一边加砝 ...

  10. [Usaco2007 Feb]Cow Party

    题目描述 农场有N(1≤N≤1000)个牛棚,每个牛棚都有1只奶牛要参加在X牛棚举行的奶牛派对.共有M(1≤M≤100000)条单向路连接着牛棚,第i条踣需要Ti的时间来通过.牛们都很懒,所以不管是前 ...