数栈运维案例:客户生产服务器CPU负载异常处理
本文整理自:袋鼠云技术荟 | 某客户生产服务器CPU负载异常处理
一、问题背景
一天下午,大家都在忙着各自的事情,突然小组人员都同时收到了短信提醒,以为是公司发奖金了,很是开心,咋一看“某某客户服务器cpu使用率100%,请及时处理!”原来是告警短信,同时看到钉钉群里发出了大量的告警信息……
二、故障回顾
告警提示”CPU使用率到达98%” ,打开阿里云控制台,通过云监控发现在下午15:06-16:46左右,云上机器某四台集群服务器cpu使用率波动较大(先降后升),负载过高,网络流量达到一定峰值就出现下降趋势,TCP连接数先是出现下降趋势,后面出现上升状态。现象如下图:

CPU先降后升使用率情况:使用率接近100%

系统平均负载先升后降情况:load超过40

网络流入流量:网络带宽流入流出先降后升

TCP 连接数情况:先升后降
三、问题排查过程
1) nginx 日志排查
查看nginx15:06-16:46时间段的日志发现请求订单接口响应时间较长,超过30s。如下图:

2) 查看fpm-php日志
查看fpm-php日志,在15:06-16:46这个时间段中,fpm-php子进程出现大量重启,如下图:

同时,nginx错误日志中发现较多的502,504状态码,如下图:
Nginx 502 状态码:

Nginx 504 状态码:

3) 问题定位分析
a. 从fpm-php对应的日志里发现大量的fpm-php子进程重启,原因是每个子进程接受的请求数达到设定值。
b. 在大量的fpm-php子进程重启过程中,如果有大量请求进来是无法响应的,所以Nginx收到大量的502、504报错。
c. 同时在大量的fpm-php重启时会消耗大量的CPU load, PHP不接受业务请求、不转发数据,服务器流量直线下降。
4) 处理结论
经过上述分析,最终定位确认是fpm-php子进程数配置太低,同时每个子进程接受的请求数max_requests设置太小。无法应对每天的流量高峰。
四、优化建议
根据服务器的CPU/内存配置,适当增加children的数量和max_requests的请求数。如下图,设置一个比较大的值。

五、优化效果
1)增加fpm-php子进程数以及每个子进程接收的请求能减少php子进程大量重启频次;
2)可缓解业务高峰期对服务造成的压力,降低业务影响。
六、写在最后
基于互联网在线化方式,袋鼠云为客户提供云上网络和资源规划、应用架构规划、性能优化、监控告警、系统健康检查、业务大促护航、云上安全运营等全方位的专业运维服务,保障客户业务系统在云上稳定运行。
数栈是云原生—站式数据中台PaaS,我们在github和gitee上有一个有趣的开源项目:FlinkX,FlinkX是一个基于Flink的批流统一的数据同步工具,既可以采集静态的数据,也可以采集实时变化的数据,是全域、异构、批流一体的数据同步引擎。大家喜欢的话请给我们点个star!star!star!
github开源项目:https://github.com/DTStack/flinkx
gitee开源项目:https://gitee.com/dtstack_dev_0/flinkx
数栈运维案例:客户生产服务器CPU负载异常处理的更多相关文章
- 数栈运维实例:Oracle数据库运维场景下,智能运维如何落地生根?
从马车到汽车是为了提升运输效率,而随着时代的发展,如今我们又希望用自动驾驶把驾驶员从开车这项体力劳动中解放出来,增加运行效率,同时也可减少交通事故发生率,这也是企业对于智能运维的诉求. 从人工运维到自 ...
- 运维案例 | Exchange2010数据库损坏的紧急修复思路
关注嘉为科技,获取运维新知 Exchange后端数据库故障,一般都会是比较严重的紧急故障,因为这会直接影响到大面积用户的正常使用,而且涉及到用户数据.一旦遇到这种级别的故障,管理员往往都是在非常紧 ...
- 企业IT运维以及信息管理部服务器管理
方法 1.服务器有必要保持简洁.除了必要的应用软件以及安全软件之外,尽量不要安全其它的软件. 2.要做好服务器帐号权利规划和分配,分配够用的权利就行,从而降低密码泄漏带来的损失. 3.注意关注服务器软 ...
- Linux运维一:生产环境CentOS6.6系统的安装
CentOS 6.6 x86_64官方正式版系统(64位)下载地址 系统之家:http://www.xitongzhijia.net/linux/201412/33603.html 百度网盘:http ...
- Linux运维常用命令-linux服务器代维常用到的维护命令
1.删除0字节文件find -type f -size 0 -exec rm -rf {} ; 2.查看进程按内存从大到小排列ps -e -o "%C : %p : %z : %a& ...
- 【数仓运维实践】关于GaussDB(DWS)单SQL磁盘空间管控
摘要:本文主要讲解数仓运维中遇到单SQL磁盘空间管控问题的解析和方案. 本文分享自华为云社区<GaussDB(DWS)运维 -- 单SQL磁盘空间管控>,作者: 譡里个檔. [问题描述] ...
- 数栈SQL优化案例:隐式转换
MySQL是当下最流行的关系型数据库之一,互联网高速发展的今天,MySQL数据库在电商.金融等诸多行业的生产系统中被广泛使用. 在实际的开发运维过程中,想必大家也常常会碰到慢SQL的困扰.一条性能不好 ...
- KingbaseES V8R3集群运维案例之---用户自定义表空间管理
案例说明: KingbaseES 数据库支持用户自定义表空间的创建,并建议表空间的文件存储路径配置到数据库的data目录之外.本案例复现了,当用户自定义表空间存储路径配置到data下时,出现的故障问 ...
- 运维笔记--线上服务器git环境配置
场景描述: 我们采用git去管理代码分支,本地开发环境,线上服务器多数情况下也会使用git去管理程序代码,那么新的一台服务器,如果指定了目标路径作为代码存放路径,该如何配置git环境, 以达到跟远程服 ...
- 转「服务器运维」如何解决服务器I/O过高的问题
问题缘起: 当我习惯性地用top查看任务运行状态时,发现我运行的100个任务,只有3个在运行,其他都在摸鱼状态.同时发现我的任务进程都是"D"状态(未截图),而不是R(运行)状态. ...
随机推荐
- Joker 全栈低代码智能开发平台:开启高效开发新时代
低代码开发技术凭借其独特优势,正逐渐成为软件开发领域的关键力量.Gartner 预测,到 2025 年,全球 70% 的新应用将采用低代码 / 无代码技术.Forrester 报告显示,中国低代码市场 ...
- 性能优化之使用HTTP2.0
HTTP2.0 的优势 配置 测试 怎么查看当前网站http版本 chrome HTTP协议版本检测 Chrome 控制台 window.chrome.loadTimes() { commitLoad ...
- OpenGL绘制YUV、OpenGL 实现画质模糊以及 OpenGL ES 实现画质模糊
本文介绍如何采用 Qt + OpenGL 绘制 YUV 数据,并通过 OpenGL 来实现画质模糊. 前言 我们在开发音视频程序的时候,对于解码后帧的渲染往往有几个操作需要做: 将 YUV420 格式 ...
- 《机器人SLAM导航核心技术与实战》第1季:第5章_机器人主机
<机器人SLAM导航核心技术与实战>第1季:第5章_机器人主机 视频讲解 [第1季]5.第5章_机器人主机-视频讲解 [第1季]5.1.第5章_机器人主机_X86与ARM主机对比-视频讲解 ...
- 技术博客:如何构建AI模拟面试系统(附完整GitHub代码)
引言:当董明珠.雷军.马斯克和特朗普成为你的面试官 在当今竞争激烈的求职市场中,模拟面试系统正成为开发者提升竞争力的秘密武器.但传统的模拟面试太过平淡,于是我开发了一个多风格AI面试官系统,让你可以体 ...
- 基于注解创建bean对象和注入方式
一.配置spring核心配置文件ApplicationContext.xml,添加扫描包 二.注解创建bean对象 三.注入方法
- Cursor+playwright+mcp,好玩
Cursor+playwright+mcp能干嘛,我就不多说,本文只讲怎么用上 第一步,安装下载Cursor.node.js,至于什么python环境,playwright网上一堆教程,自己查 第二步 ...
- java串口通信
实体 package com.hwd.campus.common.common.utils.http; import gnu.io.SerialPort; /** * 串口参数封装类 * @autho ...
- windows实现每天定时截图
windows实现每天定时截图 一直想要做一个功能来给自己的电脑每天进行一个截图操作,今天终于做好了,下面分享一下设置的过程. 使用工具 任务计划程序(系统自带) snipaste (手动下载) 设置 ...
- Java编程--观察者(Observer)设计模式
观察者设计模式 观察者设计模式是一种行为设计模式,允许对象在其状态改变时通知其他依赖对象.它创建了一种发布者(Subject)和订阅者(Observer)之间的依赖关系.这种模式经常用于实现事件处理系 ...