google sre 监控

2024-11-01

如何做监控？Google SRE 解密

监控值班室: @隔壁老王头 SQL执行耗时时间过长,达到了报警阈值[5000ms] 隔壁老王头: @监控值班室少量报警请忽略,批量关注即可. 监控值班室: @隔壁老王头订单号[88886666]状态为处理中,是否需要关注? 隔壁老王头: @监控值班室请忽略,稍后运营会处理. 如果上面的对话,每天都会高频出现在 QQ.微信之中,你是否会炸毛,尤其是深夜梦正香甜时. 如果上面的报警,你是否会怒火,尤其是当报警邮件撑爆了你的邮箱时. 其实,这就是宁可错杀一千,不可放过一个的监控系统设计理念,千万

《Google SRE》读后感

注:这是去年国庆时的一篇读书笔记,最近线上故障频繁,重新读了下这篇读书笔记,觉得<Google SRE>非常棒,遂从简书再搬家到博客园,希望大家受益.我的简书地址:daoqidelv 国庆长假,出门太堵,遂待在魔都,花了三天时间将<Google SRE>中文版翻了一遍,好书一本,不管是开发人员.运维人员还是架构师,都可以读一读,受益匪浅的. 鉴于自己是做开发的,所以对于运维相关流程化的内容没有涉猎.不过这部分内容对于运维leader应当是大有裨益的. SRE是个全能手,DevOps

soft deletion Google SRE 保障数据完整性的手段

w http://www.infoq.com/cn/articles/GoogleSRE-BookChapter26 Google SRE 保障数据完整性的手段就像我们假设Google 的底层系统经常出问题那样,SRE 同样假设任何一个数据保护机制都可能在最不适合的时间出现问题.在所依赖的软件系统不停改变的情况下保障大规模数据的完整性,需要很多特定选择的.相互独立的手段来各自提供高度保障. 24种数据完整性的事故组合由于数据丢失类型很多(如上文所述),没有任何一种银弹可以同时保护所有事故

Google SRE

SRE_百度百科 https://baike.baidu.com/item/SRE/1141123 我们离Google SRE还有多远? - 简书https://www.jianshu.com/p/6c222a0832ee

Google SRE 读书笔记扒一扒SRE用的那些工具

写在前面最近花了一点时间阅读了<SRE Goolge运维解密>这本书,对于书的内容大家可以看看豆瓣上的介绍.总体而言,这本书是首次比较系统的披露Google内部SRE运作的一些指导思想.实践以及相关的问题,对于我们运维乃至开发人员都有一定的借鉴意义. 书中的一些思想也令我印象深刻,例如SRE工程师要保证投入50%的时间在项目上.错误预算.命运之轮.事故总结等等,对于从业者有很大的启发.书中提到了很多思想,也提到了很多工具,我想不同的单位有不同的文化.制度背景,这种指导思想未必能够执行,但是书

简单使用Google Analytics监控网站浏览行为

之前对网页做用户转化率调查这块,找到了谷歌GA事件,现在有时间对使用方法和遇到问题做个简单记录.官方文档其实也介绍的比较清楚,可以查看官方文档. 首先,在官网申请UA-id,然后在主页加入如下代码: <script async src="https://www.googletagmanager.com/gtag/js?id=UA-23257197-2"></script> <script> window.dataLayer = window.data

Prometheus 系统监控方案一

最近一直在折腾时序类型的数据库,经过一段时间项目应用,觉得十分不错.而Prometheus又是刚刚推出不久的开源方案,中文资料较少,所以打算写一系列应用的实践过程分享一下. Prometheus 是什么? Prometheus是一套开源的监控&报警&时间序列数据库的组合,起始是由SoundCloud公司开发的.随着发展,越来越多公司和组织接受采用Prometheus,社会也十分活跃,他们便将它独立成开源项目,并且有公司来运作.google SRE的书内也曾提到跟他们BorgMon监控系统相

Nginx监控运维

Nginx是一个开源.免费.高性能的HTTP和反向代理服务器,也可以用于IMAP/POP3代理服务器.充分利用Nginx的特性,可以有效解决流量高并发请求.cc攻击等问题. 本文探讨了电商场景下Nginx的监控方案,并将使用过程中遇到的问题和解决方案与大家一起分享. 一.对于Nginx你一定了解的基础 1.特性作为Web服务器,Nginx不免要与Apache进行比较.相比Apache服务器,Nginx因其采用的异步非阻塞工作模型,使其具备高并发.低资源消耗的特性,高度模块化设计使Nginx具备

IT设备服务监控的方法论

有方法论提导,在技战术方面才不会偏离目录. 使用服务级别作为关键语,召示着承诺和责任. https://www.circonus.com/2018/06/comprehensive-container-based-service-monitoring-with-kubernetes-and-istio/ ================================== 服务级别目标这个服务级别目标的简要概述将为我们如何衡量我们的服务健康状况奠定基础.服务级别协议(SLA)的概念已经存在了至

虎牙直播运维负责人张观石 | SRE实践指南

虎牙直播运维负责人张观石本文是根据虎牙直播运维负责人张观石10月20日在msup携手魅族.Flyme.百度云主办的第十三期魅族开放日<虎牙直播平台SRE实践>演讲中的分享内容整理而成. 张观石,拥有10余年网站开发.架构.运维经验:目前关注互联网服务可靠性系统工程.运维平台的规划建设.网站高可用架构等方面:在音视频传输质量评估.微服务运维方面积累了丰富的经验. 目录一. 直播平台的架构及运维挑战 (一) 音视频传输流程及挑战 (二) 一个直播间的流程 (三) 直播平台的运维挑战二. 我们

Prometheus监控学习笔记之360基于Prometheus的在线服务监控实践

0x00 初衷最近参与的几个项目,无一例外对监控都有极强的要求,需要对项目中各组件进行详细监控,如服务端API的请求次数.响应时间.到达率.接口错误率.分布式存储中的集群IOPS.节点在线情况.偏移量等. 比较常见的方式是写日志,将日志采集到远端进行分析和绘图,或写好本地监控脚本进行数据采集后,通过监控系统客户端push到监控系统中进行打点.基本上我们需要的都能覆盖,但仍然有一些问题在使用上不太舒服,如在大规模请求下日志采集和分析的效率比较难控制,或push打点的粒度和纬度以及查询不够灵活等.

使用Prometheus+Grafana监控MySQL实践

一.介绍Prometheus Prometheus(普罗米修斯)是一套开源的监控&报警&时间序列数据库的组合,起始是由SoundCloud公司开发的.随着发展,越来越多公司和组织接受采用Prometheus,社会也十分活跃,他们便将它独立成开源项目,并且有公司来运作.Google SRE的书内也曾提到跟他们BorgMon监控系统相似的实现是Prometheus.现在最常见的Kubernetes容器管理系统中,通常会搭配Prometheus进行监控. Prometheus基本原理是通过HTT

prometheus statsd 监控

Prometheus是一套开源的监控&报警&时间序列数据库的组合,起始是由SoundCloud公司开发的.随着发展,越来越多公司和组织接受采用Prometheus,社会也十分活跃,他们便将它独立成开源项目,并且有公司来运作.google SRE的书内也曾提到跟他们BorgMon监控系统相似的实现是Prometheus.现在最常见的Kubernetes容器管理系统中,通常会搭配Prometheus进行监控. 介绍 http://www.cnblogs.com/vovlie/p/Prometh

360 基于 Prometheus的在线服务监控实践

转自:https://mp.weixin.qq.com/s/lcjZzjptxrUBN1999k_rXw 主题简介: Prometheus基础介绍 Prometheus打点及查询技巧 Prometheus高可用和服务发现经验初衷最近参与的几个项目,无一例外对监控都有极强的要求,需要对项目中各组件进行详细监控,如服务端API的请求次数.响应时间.到达率.接口错误率.分布式存储中的集群IOPS.节点在线情况.偏移量等. 比较常见的方式是写日志,将日志采集到远端进行分析和绘图,或写好本地监控脚本进

[置顶] 来自 Google 的高可用架构理念与实践

转自: https://mp.weixin.qq.com/s?__biz=MzAwMDU1MTE1OQ==&mid=402738153&idx=1&sn=af5e76aad269799e517607cdc2cfaf06&scene=0&key=ac89cba618d2d9764985895cc5dcd8413928f15cfa134812846b816487c1609c40778841d410e63dc802acd538e5cc5d&ascene=7&a

Promethus+Grafana监控解决方案

[MySQL]企业级监控解决方案Promethus+Grafana Promethus用作监控数据采集与处理,而Grafana只是用作数据展示一.Promethus简介 Prometheus(普罗米修斯)是一套开源的监控&报警&时间序列数据库的组合,起始是由SoundCloud公司开发的.随着发展,越来越多公司和组织接受采用Prometheus,社区也十分活跃,他们便将它独立成开源项目,并且有公司来运作.Google SRE的书内也曾提到跟他们BorgMon监控系统相似的实现是Prome

图文详解Prometheus监控+Grafana+Alertmanager告警安装使用

一:前言一个服务上线了后,你想知道这个服务是否可用,需要监控.假如线上出故障了,你要先于顾客感知错误,你需要监控.还有对数据库,服务器的监控,等等各层面的监控. 近年来,微服务架构的流行,服务数越来越多,监控指标变得越来越多,所以监控也变得越来越复杂,需要新的监控系统适应这种变化. 以前我们用zabbix,StatsD监控,但是随着容器化,微服务的流行,我们需要新的监控系统来适应这种变化.于是监控项目Prometheus就应运而生. 二:Prometheus介绍介绍网站地址:https:/

Docker系列——Grafana+Prometheus+Node-exporter服务器监控平台（一）

在最近的博文中,都是介绍监控平台的搭建,其实并不难,主要是需要自己动手操作,实践一番就会了. 有天在想,云上的服务器,是不是也可以搭建一个监控平台,所以就捣鼓了一下,不过遗憾的是,使用阿里云开源的插件-CMS Grafana Service没能成功,尝试了许久都没能成功. 所以就改用Prometheus了,一步步实践,配置成功,小有收获吧,来分享下每天点滴. Node-exporter Node-exporter简介在配置环境前,可能会有疑问,为什么需要?所以就先来讲下其作用. 在Promet

Kubernetes 监控--Prometheus

在早期的版本中 Kubernetes 提供了 heapster.influxDB.grafana 的组合来监控系统,在现在的版本中已经移除掉了 heapster,现在更加流行的监控工具是 Prometheus,Prometheus 是 Google 内部监控报警系统的开源版本,是 Google SRE 思想在其内部不断完善的产物,它的存在是为了更快和高效的发现问题,快速的接入速度,简单灵活的配置都很好的解决了这一切,而且是已经毕业的 CNCF 项目. 简介 Prometheus 最初是 Soun

故障复盘究竟怎么做？美图SRE结合10年经验做了三大总结（附模板）

美图崇尚的故障文化是 "拥抱故障,卓越运维",倡导的基准是 No-Blame, 即「不指责,重改进」.今年 9 月 TakinTalks 社区曾经分享过美图的三段式故障治理方法(美图 SRE:一次线上大事故,我悟出了故障治理的 3 步 9 招),这次重点讲讲故障治理中的最后一个重要环节 -- 故障后的复盘,在这个过程里可以总结吸取经验教训并改进,这样才能让整个系统的稳定性得到实质性提升. 作者介绍:美图 SRE 负责人 - 石鹏 TakinTalks 社区专家团特聘讲师.2016 年加

google sre 监控

热门专题