排查bug的步骤】的更多相关文章

原创文章,欢迎阅读,禁止转载. bug预防C/C++代码发布前的检查:检查有没有低级错误,可用cppcheck (bug预防是指在写程序的时候,bug没出现,积极的进行预防,减少.包括良好的编码风格.编码习惯.使用管理工具和检查工具等.这个放在另一片文章中说吧.) 排查bug的步骤: 复现--让你看到bug的表现固化--尽量让bug能100%出现定位--找出问题根源修改--消除bug验证--测试bug是否彻底解决 (排查bug指的是,已经出现了bug,现在需要把它解决掉) 检查有没有内存泄露,结…
在工作中,相信大家最怕的一件事就是听到有人在工作群艾特你:某某功能报错啦... 然后你就得屁颠屁颠的去服务器看日志,日志量少还好点,多的话找起来太麻烦了.不太容易直接定位到关键地方. 东找找西找找,好不容易找到了报错的信息,却不知道当时的参数信息是什么,也不太好复现,太难了.. 改完还得写故障报告,美好的一天又没了. 要解决这类的痛点需要做下面几件事情: 日志收集 异常告警 日志增加链路 API响应增加traceId 异常时打印当前报错方法的参数 支持调试模式 日志收集 要解决的第一个问题就是日…
故障场景 Java进程出现问题,通常表现出如下现象: Web应用响应时间长/超时,甚至不响应 CPU使用率极高/低,频繁出现Full GC,甚至OutOfMemoryError 响应时间长.超时,甚至不响应,这是最直观的表现:而CPU使用率极高或极低,频繁出现Full GC,这些需要借助系统日志或者监控辅助发现. 原因分析 针对响应时间长.超时,甚至不响应,这是一个综合性的问题导致的,可能并不单纯是应用程序本身的问题,如果后端还接了数据存储系统,除了排查应用程序本身的问题之外,还需要排查应用所依…
首先说下问题现象:内网sandbox环境API持续1周出现应用卡死,所有api无响应现象 刚开始当测试抱怨环境响应慢的时候 ,我们重启一下应用,应用恢复正常,于是没做处理.但是后来问题出现频率越来越频繁,越来越多的同事开始抱怨,于是感觉代码可能有问题,开始排查. 首先发现开发的本地ide没有发现问题,应用卡死时候数据库,redis都正常,并且无特殊错误日志.开始怀疑是sandbox环境机器问题(测试环境本身就很脆!_!) 于是ssh上了服务器 执行以下命令 top 这时发现 机器还算正常,但是内…
文章:WinDbg-如何抓取dump文件 命令: cd C:\Windows\System32\inetsrv appcmd list wp 可以查看各个站点的pid…
日常Bug排查-系统失去响应-Redis使用不当 前言 日常Bug排查系列都是一些简单Bug排查,笔者将在这里介绍一些排查Bug的简单技巧,同时顺便积累素材_. Bug现场 开发反应线上系统出现失去响应的现象,收到业务告警已经频繁MarkAndSweep(Full GC)告警.于是找到笔者进行排查. 看基础监控 首先呢,当然是看我们的监控了,找到对应失去响应的系统的ip,看下我们的基础监控. 机器内存持续上升.因为我们是java系统,堆的大小一开始已经设置了最大值. --XX:Xms2g -Xm…
日常Bug排查-消息不消费 前言 日常Bug排查系列都是一些简单Bug排查,笔者将在这里介绍一些排查Bug的简单技巧,同时顺便积累素材_. Bug现场 某天下午,在笔者研究某个问题正high的时候.开发突然找到笔者,线上某个系统突然消费不了queue了.Queue不消费也算是日常问题了.淡定的先把流量切到另一个机房,让问题先恢复再说. 消息累积 然后就是看不消费的queue到哪去了,打开mq(消息中间件)控制台,全部累积到mq上了. 同时开发对笔者反映,只有这个queueu积累了,其它queue…
日常Bug排查-抛异常不回滚 前言 日常Bug排查系列都是一些简单Bug排查,笔者将在这里介绍一些排查Bug的简单技巧,同时顺便积累素材_. Bug现场 最近有人反映java应用操作数据库的时候,抛异常不回滚.这还了得,不过笔者笃定肯定是用法的锅,不然就全乱套了.所以笔者去Review他的代码. 代码片段 @Transacion(value="x") public void s1() throw MyException{ update(1); throwBusinessExceptio…
日常Bug排查-Nginx重复请求? 前言 日常Bug排查系列都是一些简单Bug排查,笔者将在这里介绍一些排查Bug的简单技巧,其中不乏一些看起来很低级但很容易犯的问题. 问题现场 有一天运维突然找到我,要我协助排查一个问题.业务开发怀疑Nginx会重复相同的请求,就感觉Nginx自己重试了一样.而PE给我看了下他们的配置,并没有配置任何重试. 第一感觉 我第一感觉就是应该不是Nginx的问题.但是开发怎么得出Nginx重试这个结论的呢? 跟随业务开发思路 于是笔者翻了下他们的邮件,他们是通过P…
https://blog.csdn.net/qq_16681169/article/details/53296137 一.出现问题 在前一段时间日常环境很不稳定,前端调用mtop接口会出网络异常或服务不存在的异常.查询了服务器上的HSF会有偶尔挂死的情况,服务器上的接口服务都不可用.于是我们对服务器上的状况进行了排查. 二.排查问题的过程 在这次的问题排查主要是围绕JVM的内存使用情况,生成对象分布情况以及GC情况来讨论的.中间有一些细节一开始存有疑问,迷雾的排除不算太顺利.首先要感谢下基础架构…