数据库系统异常排查之DMV(转)】的更多相关文章

数据库系统异常是DBA经常要面临的情景,一名有一定从业经验的DBA,都会有自己一套故障排查的方法和步骤,此文为为大家介绍一下通过系统 性能视图(SQLServer05以上版本)来排查系统异常的基本方法,希望能对大家有所帮助. 这里分两部分来介绍: 一.  从数据库连接情况来判断异常: 1. 首先我们来看一下目前数据库系统所有请求情况: --request infoselect s.session_id, s.status,db_name(r.database_id) as database_na…
来源: http://www.cnblogs.com/fygh/archive/2012/03/12.html 数据库系统异常是DBA经常要面临的情景,一名有一定从业经验的DBA,都会有自己一套故障排查的方法和步骤,此文为为大家介绍一下通过系统 性能视图(SQLServer05以上版本)来排查系统异常的基本方法,希望能对大家有所帮助. 这里分两部分来介绍: 一.  从数据库连接情况来判断异常: 1. 首先我们来看一下目前数据库系统所有请求情况: --request infoselect s.se…
异常排查 redis-server redis.windows.conf D:\redis-2.8.17>redis-server.exe redis.windows.conf[4692] 27 Nov 12:14:05.995 #The Windows version of Redis allocates a memory mapped heap for sharing withthe forked process used for persistence operations. In ord…
昨天下午突然收到运维邮件报警,显示数据平台服务器cpu利用率达到了98.94%,而且最近一段时间一直持续在70%以上,看起来像是硬件资源到瓶颈需要扩容了,但仔细思考就会发现咱们的业务系统并不是一个高并发或者CPU密集型的应用,这个利用率有点太夸张,硬件瓶颈应该不会这么快就到了,一定是哪里的业务代码逻辑有问题. 1.排查思路 1.1 定位高负载进程 首先登录到服务器使用top命令确认服务器的具体情况,根据具体情况再进行分析判断. 通过观察load average,以及负载评判标准(8核),可以确认…
为方便自己查看,根据工作遇到的问题,转载并整理以下jvm优化内容 有次接到客服反馈,生产系统异常,无法访问.接到通知紧急上后台跟踪,查看了数据库死锁情况--正常,接着查看tomcat 内存溢出--正常,再去跟踪流量--正常.没折了,把生产系统重起,刚开始几分钟,监控显示一切正常,过几分钟情况恢复正常.再去检查apache代理机,发现代理机长时间没有返回造成阻塞宕机.问题由此确定.接着查看了xxx.com/proxoolAdmin?alias=ec&tab=snapshot 数据连接池情况,发现连…
遇到Mysql启动异常问题,可以从以下几个方面依次进行问题排查: (1)如果遇到“Can't connect to local MySQL server through socket '/tmp/mysql.sock'”类似问题,查看Mysql配置文件(默认在/etc/my.cnf目录下),使用命令vi /etc/my.cnf,查看是否具备如下配置, [mysqld]port            = 3306socket       = /var/lib/mysql/mysql.sock 可能…
最近在做一个基于asp.net和sqlserver的网站项目,发现网站运行一段时间之后,会报异常: 超时时间已到,但是尚未从池中获取连接.出现这种情况可能是因为所有池连接均在使用,并且达到了最大池大小 这异常明显是sqlserver数据库连接池超出了默认大小,估计是代码哪里忘了释放DB链接了. 排查数据访问层代码跟DBHelper,搞了半天解决了. 总结一点东西,记录一下. DBHelperA代码: public class DBHelperA { public string connStr =…
1. 引入 线上用户反馈使用Presto查询Hudi表出现错误,而将Hudi表的文件单独创建parquet类型表时查询无任何问题,关键报错信息如下 40931f6e-3422-4ffd-a692-6c70f75c9380-0_0-384-2545_20200513165135.parquet, start=0, length=67108864, fileSize=67108864, hosts=[], forceLocalScheduling=false, partitionName=dt=20…
起因 Django 作为 Python著名的Web框架,相信很多人都在用,自己工作中也有项目项目在用,而在最近几天的使用中发现,部署Django程序的服务器出现了内存问题,现象就是运行一段时间之后,内存占用非常高,最终会把服务器的内存耗尽,对于Python项目出现内存问题,自己之前处理过一次,所以并没有第一次解决时的慌张,自己之前把解决方法也整理了博客:https://www.cnblogs.com/zhaof/p/10031945.html 但是事情似乎并没有我想的那么简单,自己尝试用之前的的…
服务器上的服务器访问异常,查看/va/log/messages发现如下: Sep 22 16:08:21 safeserver kernel: java invoked oom-killer: gfp_mask=0x280da, order=0, oom_adj=0, oom_score_adj=0Sep 22 16:08:21 safeserver kernel: java cpuset=/ mems_allowed=0Sep 22 16:08:21 safeserver kernel: Pi…
项目架构: 部分组件如下: SpringCloudAlibaba(Nacos+Gateway+OpenFeign)+SpringBoot2.x+Redis 问题背景: 最近由于用户量增大,在高峰时期,会导致用户服务偶尔Redis出现连接超时的情况, 例如:从Redis中获取手机验证码 ,登录成功后,将token存入Redis,以及涉及到使用Redis的场景都会出现RedisConnectionFailureException 异常日志: 237614 2021-03-02 17:24:42.59…
由于近期线上单量暴涨,第三方反馈部分工单业务存在查询处理失败现象,经排查是当前系统通过FeignClient调用下游系统出现部分超时失败(异常代码贴在下方). Caused by: feign.RetryableException: Read timed out executing POST http://xxxx at feign.FeignException.errorExecuting(FeignException.java:84) ~[feign-core-10.1.0.jar!/:na…
一个执着于技术的公众号 问题背景 昨天下午突然收到运维邮件报警,显示数据平台服务器cpu利用率达到了98.94%,而且最近一段时间一直持续在70%以上,看起来像是硬件资源到瓶颈需要扩容了,但仔细思考就会发现咱们的业务系统并不是一个高并发或者CPU密集型的应用,这个利用率有点太夸张,硬件瓶颈应该不会这么快就到了,一定是哪里的业务代码逻辑有问题. 1.排查思路 1.1 定位高负载进程 首先登录到服务器使用top命令确认服务器的具体情况,根据具体情况再进行分析判断. 通过观察load average,…
问题产生 这两天业务系统在redis的使用过程中,当并行客户端数量达到200+之后,产生了大量timeout异常,典型的异常信息如下: Timeout performing HVALS Parser2#Hash#VersionState, inst: 1, mgr: ExecuteSelect, err: never, queue: 2, qu: 0, qs: 2, qc: 0, wr: 0, wq: 0, in: 0, ar: 0, clientName: GS-SERVER-2894, IO…
转自: http://blog.csdn.net/shootyou/article/details/6615051 今天解决了一个HttpClient的异常,汗啊,一个HttpClient使用稍有不慎都会是毁灭级别的啊. 这里有之前因为route配置不当导致服务器异常的一个处理:http://blog.csdn.net/shootyou/article/details/6415248 里面的HttpConnectionManager实现就是我在这里使用的实现. 问题表现: tomcat后台日志发…
问题描述 上一期的需求上线之后,线上多了一个异常:Connection reset.如下: [2017-03-22 00:45:00 ERROR] [creativeAuditTaskScheduler_Worker-9] (cn.com.ServiceImpl:169) - getAuditResult exception, call adx api failed. msg:I/O error on GET request for "https://biz/getAuditInfo?dspId…
  java.util.ConcurrentModificationException对于这个异常我们一般会认为是在遍历list的时候对这个list做了add,remove等修改操作造成的,最近在线上日志偶尔发现了这个异常,完整异常如下: java.util.ConcurrentModificationException: null at java.util.ArrayList.sort(ArrayList.java:1462) at java.util.Collections.sort(Col…
yarn就先不介绍了,这次排坑经历还是有收获的,从日志到堆栈信息再到源码,很有意思,下面听我说 问题描述: 集群一台NodeManager的cpu负载飙高. 进程还在但是看日志已经不再向ResourceManager发送心跳,不断重复下文2的动作. 心跳停止一段时间后会重连上RM但是cpu仍然很高,再过一段时间心跳再停,一直循环. NodeManager的日志解析 1.NM的localizing过程 localizing:container开始从hdfs下载resource,hdfs文件的状态从…
上周使用 SmtpCliet 发送邮件测试,在服务端配置 SSL 465 / 993 情况 ,客户端使用 465 SSL 端口发送邮件异常,测试代码如下: System.Net.ServicePointManager.ServerCertificateValidationCallback = new System.Net.Security.RemoteCertificateValidationCallback(RemoteServerCertificateValidationCallback);…
异常日志: 查询被中断了,先是在Google上查,又是再百度上查,基本上都是说程序超时设置setQueryTimeout的问题,就是说查询时间超过了设置的最大查询时间,导致查询被中断.我也没办法断定是不是这个原因,就联系了DBA帮忙确定.DBA查询结果如图: 反馈是闲置超时导致的,也就是链接超过设置的MySQL链接闲置超时时间(默认8小时)解决方法,在数据库数据源的DBCP配置文件中,设置testWhileIdel等于true,且validationQuery不等于空(一般设置select 1)…
在查阅测试环境业务日志中的ERROR级别的日志时,发现了有一个Mybatis相关的异常错误org.apache.ibatis.exceptions.TooManyResultsException: Expected one result (or null) to be returned by selectOne(), but found: 13. 一.分析:详细堆栈信息打印如下 2018-09-30 17:30:17.548 ERROR 14146 --- [DubboServerHandler…
一.问题回顾 线上的代码之前运行的都很平稳,突然就出现了一个很奇怪的问题,看错误信息是第三方框架Druid报出来了,连接池回收连接时出现的问题. 2018-05-14 20:01:32.810 ERROR [hystrix-UpgradeResultReportController-49][DruidDataSource.java:1297] - recyle error java.lang.InterruptedException: null at java.util.concurrent.l…
问题: 访问异常 root@cloud:/usr/local/nginx# curl -i http://localhost/test.html curl: (52) Empty reply from server 错误日志 2016/09/11 13:17:03 [alert] 63560#0: worker process 63663 exited on signal 11 (core dumped) dmesg信息 [265950.220943] nginx[63663]: segfaul…
1.top查找出占CPU比例最高的进程(5881): 2.查看该进程正在执行的线程: top -H -p  5881 3.将线程转换成16进制 printf ‘%x\n’ 5950 4.查看异常线程执行情况 jstack 线程号 | grep 进程号 -A90 5.jstack进程正在执行的的线程及状态 jstack -l 5880 > 5880.out 6.在导出的文件中查找转换了16进制的线程的执行情况…
之前同事反馈说线上遇到Redis反序列化异常问题,异常如下: XxxClass1 cannot be cast to XxxClass2 已知信息如下: 该异常不是必现的,偶尔才会出现: 出现该异常后重启应用或者过一会就好了: 序列化协议使用了hessian. 因为偶尔出现,首先看了报异常那块业务逻辑是不是有问题,看了一遍也发现什么问题.看了下对应日志,发现是在Redis读超时之后才出现的该异常,因此怀疑redis client操作逻辑那块导致的(公司架构组对redis做了一层封装),发现获取/…
一.背景 公司进行kubernetes服务重启演练,集群重启后所有服务正常,仅node2节点处于notready状态 二.排查过程 查看对应节点的详细信息,发现kubelet一直处于starting状态 登录对应节点,查看kubelet的ERROR日志 进行各种资料查看无果 逐条读解日志,发现日志中F级别的日志有报错信息,监听地址无法正确返回(ip不正确) 查看kubelet配置文件,copy的配置ip没改(尴尬) 修改ip后重启恢复 三.总结重点 做事要细心哇 kubelet的危险日志是F级别…
通过执行以下命令,可以在1分钟内对系统资源使用情况有个大致的了解.uptimedmesg | tailvmstat 1mpstat -P ALL 1pidstat 1iostat -xz 1free -msar -n DEV 1sar -n TCP,ETCP 1top其中一些命令需要安装sysstat包,有一些由procps包提供.这些命令的输出,有助于快速定位性能瓶颈,检查出所有资源(CPU.内存.磁盘IO等)的利用率(utilization).饱和度(saturation)和错误(error…
[RabbitMQ] beam.smp high cpu load https://blog.csdn.net/beer_do/article/details/52777445 Erlang 打开和关闭SMP选项之差异观察 https://blog.csdn.net/swedenfeng/article/details/53615137 RabbitMQ 高负载CPU排查 https://emacsist.github.io/emacsist.github.io/2017/08/24/rabbi…
问题描述:使用RestTemplate调用接口出现该异常,相关调用代码: ResponseEntity<ResultVO> responseEntity; try { responseEntity = restTemplate.getForEntity( url, ResultVO.class ); } catch (Exception e) { log.error("ops获取项目失败" + e.getMessage()); throw new OAuth2Excepti…
elasticserch hadoop 在本地测试写入 elasticsearch:9200时成功 线上环境却报错如下 org.elasticsearch.hadoop.EsHadoopIllegalArgumentException: No data nodes with HTTP-enabled available at org.elasticsearch.hadoop.rest.InitializationUtils.filterNonDataNodesIfNeeded(Initializ…