[问题描述] 开发反馈有个应用在后端数据库某次计划性重启后经常会出现数据库连接异常问题,通过监控系统的埋点数据,发现应用连接数据库异常有两类表现:   其一:连接超时   131148.00ms Tomcat Connection Pool   其二:连接耗时过长   DAL.getConnectionCost 64018ms [问题分析] 通过监控数据汇总,出现此异常问题来自应用群集中的多台WEB服务器,没有规律性,数据库服务器也没有做过系统版本升级及硬件调整,且数据库各主要性能指标正常,负载…
tcp_tw_recycle参数引发的故障 By Eric 故障描述: 2010年9月7日,新上线的手机游戏论坛有部分地区用户反应登陆游戏时出现不能登陆或登陆超时等情况,观察用户同时在线数量开始下降情况. 排错过程: 一.初步检查是否有变更导致的故障:   1.联系同事检查网络是否有问题或有对该机房网络是否有进行过调整,反回结果是没有变更操作. 2.检查在这个时间点是否有进行程序发布更新,或程序是否有作用户限制处理,反馈只进行日志调低的变更,但此类操作不影响用户的正常登陆和操作. 3.检查系统,…
文章转载自:https://blog.csdn.net/wireless_tech/article/details/6405755 故障描述: 2010年9月7日,新上线的手机游戏论坛有部分地区用户反应登陆游戏时出现不能登陆或登陆超时等情况,观察用户同时在线数量开始下降情况. 排错过程: 一.初步检查是否有变更导致的故障: 1.联系同事检查网络是否有问题或有对该机房网络是否有进行过调整,反回结果是没有变更操作. 2.检查在这个时间点是否有进行程序发布更新,或程序是否有作用户限制处理,反馈只进行日…
文章转载自: https://blog.csdn.net/zhuyiquan/article/details/68925707…
mysql数据库连接异常问题(总结) 1.1 前言   最近项目由1个数据源增加至了3个数据源(连接池使用C3P0),结果各种奇葩的数据库连接问题接踵而至,为防止将来再次遇到同样的问题不犯同样错误,现总结如下. 1.2  An attempt by a client to checkout a Connection has timed out  (连接超时) 这种情况基本是网络不稳定导致的:再者就是数据源配置参数有异常. 1.3 com.mysql.jdbc.exceptions.jdbc4.C…
不要在linux上启用net.ipv4.tcp_tw_recycle参数  2015/07/27  CFC4N 本文为翻译英文BLOG<Coping with the TCP TIME-WAIT state on busy Linux servers>,但并非完整的翻译,译者CFC4N对原文理解后,进行了调整,增加了相关论点论据,跟原文稍有不同.翻译的目的,是为了加深自己知识点的记忆,以及分享给其他朋友,或许对他们也有帮助.文章比较长,没耐心请点关闭. 不要启用 net.ipv4.tcp_tw…
不要在linux上启用net.ipv4.tcp_tw_recycle参数 发布于 2015/07/27 莿鸟栖草堂 本文为翻译英文BLOG<Coping with the TCP TIME-WAIT state on busy Linux servers>,但并非完整的翻译,译者CFC4N对原文理解后,进行了调整,增加了相关论点论据,跟原文稍有不同.翻译的目的,是为了加深自己知识点的记忆,以及分享给其他朋友,或许对他们也有帮助.文章比较长,没耐心请点关闭. 不要启用 net.ipv4.tcp_…
参考链接:http://blog.sina.com.cn/s/blog_7540bf5f0102xjpk.html 最近新入职,用了新版的mysql8数据库,结果连接数据库时出现了问题,报了几个异常, 1:第一个异常一看就知道是驱动包版本不对,于是就换了成mysql-connector-java-8.0.11  的驱动,就可以了. Cannot connect to database server,Exception:com.mysql.cj.jdbc.Driver java.lang.Clas…
[问题描述] 数据库连接异常是很难排查的一类问题.因为它牵涉到应用端,网络层和服务器端.任何一个组件异常,都会导致数据库连接失败.开发遇到数据库连接不上的问题,都会第一时间找DBA来协助查看,DBA除了需要懂得数据库以外,还需要对应用,对网络有所了解,知道在哪里看应用程序的日志,以及看网络交换机性能指标,才能清晰的定位问题.下面是一个数据库偶发连接不上的例子: 步骤 分析 S(主观) 某应用程序,有40台左右应用服务器,时不时的会报数据库连接异常.报错后迅速自愈.报错内容为: Communica…
在写这篇blog前,我的心情久久不能平静,虽然明白运维工作如履薄冰,但没有料到这么一个细小的疏漏会带来如此严重的灾难.这是一起其他公司误用puppet参数引发的事故,而且这个参数我也曾被“坑过”.     0. 一个purge参数引发的事故 故事要从周二下午说起,安静了一天的某技术交流群,突然有个惊慌失措的同学在群里说,他直接使用了第三方的puppet hbase module来管理线上hbase集群,结果这个模块在管理数据文件夹时,使用了一个purge参数把几乎所有的线上数据都删完了.他已经和…