这次聊聊业务中经常出现的重试现象,可能很多运维都被开发莫名其妙的艾特然后让查一查业务中出现失败的情况,很不巧刚接手MongoDB的运维就碰到了一个案例. 前段时间与业务开发讨论过某业务服务的超时重试问题,这项业务依赖的数据库是一直很热门的MongoDB数据库,这里采用了复制集的模式架构,且底层硬件采用KVM.业务开发反映数据库实例慢,最近超时的业务较少,重试后都能正常进行.我与开发沟通了半小时后大致了解他的意思,又花了大半天的时间去沟通并解决这个问题,过程就不详细赘述了.大概的意思就是这项短信服