一般情况下,系统多多少少都会遇到点问题,那么遇到问题之后我们怎么定位原因呢?在这里我只说如何定位DB的问题。

看这篇文章有个前提:监控数据要完整!监控数据要完整!!监控数据要完整!!!
比如下面这个

乍一看,有个性能抖动,如何知道系统是不是有问题,可以通过以下途径知悉:

  • 应用日志
  • 监控报警
  • 用户感知

无论是监控报警,还是用户感知,归根结底还得回归应用,从应用日志发现到底是哪个接口异常,接口异常的原因无外乎以下几种情况:

  • 系统异常,比如超出负载
  • 网络问题,比如网卡爆满,网络丢包
  • io问题,比如刷磁盘,io调度算法设置问题
  • 文件系统问题,比如内核bug
  • DB问题,比如包含上面的几种情况,烂SQL问题

假如说上面几种情况排查完毕后没有异常,或者通过日志一眼就发现是DB问题,到底是什么问题呢?通常情况下,我会这样做:

  1. 打开监控页面查看"性能"

如果没有监控,我也没办法了,只能根据应用报错猜了。

下面请睁大眼睛:
1. 查看出问题时间点整体性能
2. 通过异常,找出问题点
《医学的真相》说:“在医学中很多突破都是从研究例外开始。”

老罗也说“在平常的学习中,最珍贵的东西不是那些符合理论的东西,恰恰是那些看着奇怪,例外的东西,现有的理论往往解释不了,你千万不能忽略他,因为它是下一个创新的苗子。” 
这里也不例外,比如先看整体qps,tps有没有变化,网络有没有抖动等等,总之就是发现和其他时间段不一样的趋势。这个就是问题点所在,就拿第一张图举例子,我们看到rt飙高,一般来说rt飙高通常情况有以下几种原因:

  • 烂SQL 线上90%以上基本是这个原因
  • 硬件问题 线上出现过,但是不多
  • 文件系统bug
  • MySQL bug
  • 网络问题

关于烂SQL其实有各种各样的,您可以到网上搜出一大堆,这里就不累述了,以后有时间的话,我可能会写写;

MySQL bug如果排除了烂SQL,有一些诡异的问题是可以怀疑是MySQL的bug的,可以查看bug list

再次是网络问题,如果确定既不是烂SQL,系统的qps很高的话,如果系统有时不时的抖动,可以查看网络监控;

最后网络问题和文件系统问题出现的几率真是少之又少,但也不排除,只能具体问题具体分析了;

DB常见问题排查方法的更多相关文章

  1. ffmpeg编码常见问题排查方法

    播放问题排查: 一旦我们遇到视频播放不了,第一件事,就是要找几个别的播放器也播放看看,做一下对比测试,或者对码流做一些基础分析,以便更好的定位问题的源头,而各个平台比较常见的播放/分析工具有如下几个: ...

  2. SQL Server同步复制问题排查方法

    1.应用复制的命令时在订阅服务器上找不到该行 解决方法:用系统存储过程sp_browsereplcmds(返回分发数据库中存储的可读版本复制命令的结果集,并将其用作诊断工具. 此存储过程在分发服务器上 ...

  3. JAVA线上常见问题排查手段(小结)

    在平时开发过程中,对于线上问题的排查以及系统的优化,免不了和Linux进行打交道.每逢大促和双十一,对系统的各种压测性能测试,优化都是非常大的一次考验.抽空整理了一下自己在线上问题排查以及系统优化的一 ...

  4. CentOS 7 执行 yum 命令失败问题的排查方法

    一个执着于技术的公众号 简介 本文主要为大家讲解 CentOS 7系统中执行yum命令失败等常见问题的排查方法. 1.执行yum命令报404错误 1)检查yum仓库是否配置正确,可以到阿里云下载rep ...

  5. Linux安全事件应急响应排查方法总结

    Linux安全事件应急响应排查方法总结 Linux是服务器操作系统中最常用的操作系统,因为其拥有高性能.高扩展性.高安全性,受到了越来越多的运维人员追捧.但是针对Linux服务器操作系统的安全事件也非 ...

  6. WIN7(VISTA)系统无法上网问题排查方法

    WIN7(VISTA)系统无法上网问题排查方法 一.无法通过DHCP自动获取到IP 1. 确认正确配置路由器的DHCP功能 a.一般租期建议设置为1-3小时,推荐设置1小时. b.DHCP地址池不要和 ...

  7. Chrome JS内存泄漏排查方法(Chrome Profiles)

     原文网址:http://blog.csdn.net/kaitiren/article/details/19974269 JS内存泄漏排查方法(Chrome Profiles)   Google Ch ...

  8. 库不存在的排查方法:ImportError: No module named selenium2Library

    解决办法: 把selenium2Library改成Selenium2Library   安装下面四个: python-2.7.13.amd64.msi robotframework-ride-1.5. ...

  9. 【Crash】C++程序崩溃排查方法

    windows下C++程序release版本崩溃错误排查方法. 一个你精心设计的24小时不间断运行,多线程的程序,突然运行了几个月后崩了,此问题是非常难以排查的,也是很头疼的问题. 现利用Google ...

随机推荐

  1. DevExpress GridControl使用教程:之 添加 checkbox 复选框

    添加一列,FieldName为"FLAG",将ColumnEdit设置为复选框样式. gridview1   =>optionsbehavior =>  editabl ...

  2. VisualStudio2017 远程 调试 IIS 服务器 web网站

    小伙伴们,本次测试好好的程序发布到服务器挂到IIS后我勒个*,,, 神马情况,为啥和我本地运行结果不一致,Fuc*... 没遇到的小伙伴估计也看不到此篇文章了吧,Log日志调试,嗯 不错,good i ...

  3. layui select 禁止点击

    $('select').attr('disabled', 'disabled'); form.render('select'); 注意事项: 1. 必须写 layui.use([form]) 2. 先 ...

  4. Hibernate 框架学习

    什么是hibernate框架? 1.它是应用在javaee 三层架构中的dao层 它的底层就是JDBC 它对JDBC进行了封装,好处就是不用写jdbc的代码,和sql语句,它是一个开源的轻量级框架,现 ...

  5. 【文文殿下】快速傅里叶变换(FFT)学习笔记

    多项式 定义 形如\(A(x)=\sum_{i=0}^{n-1} a_i x^i\)的式子称为多项式. 我们把\(n\)称为该多项式的次数界. 显然,一个\(n-1\)次多项式的次数界为\(n\). ...

  6. kinect 2 for xbox畸变矫正

    kinect 2 for xbox畸变矫正 畸变校正的详细方法在iai_kinect2/kinect2_calibration的readme文件中. 由于通过kinect2获得的图像数据有不同的模式( ...

  7. (二)SSO之CAS框架单点退出,自定义退出界面.

    用CAS的退出,只能使用它自己的那个退出界面,如果有这样的要求, 要求退出后自动跳转到登录界面, 该如何做呢?下面这篇文章实现了退出后可以自定义跳转界面.  用了CAS,发现退出真是个麻烦事,退出后跳 ...

  8. Error:(1, 1) 错误: 需要class, interface或enum

    这个东西在Ideal里面报的错误,在控制台提示: Error:(1, 1) 错误: 需要class, interface或enum 网上搜到说是编码问题,我的解决方式: 把出错的文件选中复制一份,再随 ...

  9. 零基础学习Python数据分析

    网上虽然有很多Python学习的教程,但是大多是围绕Python网页开发等展开.数据分析所需要的Python技能和网页开发等差别非常大,本人就是浪费了很多时间来看这些博客.书籍.所以就有了本文,希望能 ...

  10. 支付宝支付下载对账单bug反馈整理

    支付宝官方给广大开发朋友们,留了一个下载账单的API接口,供大家下载指定日期的账单数据.先来看下这个页面: 点我前往官方说明文档 $aop = new AopClient (); $aop->g ...