数栈云MSP运维服务案例:某客户生产服务器CPU异常抖动
一、问题背景
某日袋鼠云运维小哥进行例行运维巡检,通过监控视图发现客户应用服务器cpu使用率突然呈上升趋势。通过专属服务群第一时间与业务方联系,与业务方确认是否有正在执行的定时任务,或者大范围拉取账单等业务操作。然而仔细分析了业务日志后,确认当时业务上并没有进行会消耗大量计算资源和网络资源的操作。
二、异常现象
随着时间推移,运维人员收到不同应用系统主机系统资源占用过高的告警通知,但客户反馈业务上并没有受到明显影响,且处于业务低峰期。
进一步分析排查,发现异常实例cpu使用率,负载,网络流量,磁盘IO,TCP连接数都先后出现上升趋势,现象如下图:

CPU使用率:持续10分钟维持在90%

系统平均负载:平均1分钟负载超过25

网络流量:持续10分钟高于日常水平

磁盘IO:每秒写入的字节数迅速上升

TCP 连接数:established连接数持续10分钟上升
三、异常分析
1) 在排除业务上并没有相关的异常操作后,运维人员进一步分析了系统是否有受到外部攻击。通过阿里云云盾安全产品,确认基线检查及流量检测并无异常,业务入口SLB流入流出流量也呈正常趋势,可以排除受到外部攻击的可能。
2) 运维人员登录机器继续排查,连接服务器间接出现请求被拒绝的情况,提示connection reset by peer错误信息。
成功登入机器后发现有大量ssh登入链接。
大量的sshd进程引起cpu占用过高。

四、异常处理
经过上述分析,与业务方确认ssh 连接客户端是否为内部系统IP地址,最终定位异常实例被内网其他机器恶意破解,进行非法访问入侵。运维人员第一时间对异常实例进行恢复操作,包括关闭已建立的连接,清除可疑执行程序,修改sshd服务默认端口,重置服务器登录密码,调整安全组访问策略,检查服务器是否有其它后门等一些列安全加固操作后,主机性能恢复正常。
五、案例总结
从服务器安全防护的角度出发,应将业务部署在云上隔离的网络环境,并修改默认远程服务监听端口,按需开放安全组访问限制。如果业务部署早期未做相关规划,建议尽快迁移经典网络下的服务器到专有网络环境,同时需要定期对服务器进行体检及安全检查,以确保服务器安全。
本文首发于:数栈研习社
数栈是云原生—站式数据中台PaaS,我们在github上有一个有趣的开源项目:FlinkX。FlinkX是一个基于Flink的批流统一的数据同步工具,既可以采集静态的数据,比如MySQL,HDFS等,也可以采集实时变化的数据,比如MySQL binlog,Kafka等,是全域、异构、批流一体的数据同步引擎,大家如果有兴趣,欢迎来github社区找我们玩~
数栈云MSP运维服务案例:某客户生产服务器CPU异常抖动的更多相关文章
- 华为刘腾:华为终端云Cassandra运维实践分享
点击此处观看完整活动视频 各位线上的嘉宾朋友大家好,我是来自华为消费者BG云服务部的刘腾,我今天给大家分享的主题是华为终端云Cassandra运维实践.和前面王峰老师提到的Cassandra在360中 ...
- 运维实战案例之“Too many open files”错误与解决方法
运维实战案例之"Too many open files"错误与解决方法 技术小甜 2017-11-16 15:02:00 浏览869 服务器 shell tomcat 脚本 o ...
- E8.ITSM IT运维服务管理系统
一. IT运维面临问题 随着企业信息化项目若干年以来的建设积累,IT资产日趋庞大,以及内外部监管部门对IT运维的要求也越来越严格规范,业务部门对企业的IT运维管理也提出了更高的要求. IT ...
- Linux云自动化运维第三课
Linux云自动化运维第三课 一.正则表达式 1.匹配符 * ###匹配0到任意字符 ? ###匹配单个字符 [[:alpha:]] ###匹配单个字母 [[:lower:]] ###匹配单个小写字母 ...
- Linux云自动化运维第四课
Linux云自动化运维第四课 一.vim 1.vim光标移动 1)在命令模式下 :数字 ###移动到指定的行 G ###文件最后一行 gg ###文件第一行 2)在插入模式下 i ###光标所 ...
- Linux云自动化运维第五课
Linux云自动化运维第五课 一.进程定义 进程就是cpu未完成的工作 二.ps命令 ps a ###关于当前环境的所有进程 x ###与当前环境无关的所有进程 f ###显示进程从属关系 e ### ...
- 从On-Premise本地到On-Cloud云上运维的演进
摘要: 从用户的声音中,我们听到用户对稳定.弹性.透明的诉求,我们也在不断升级ECS的运维能力和体验,助力用户建立主动运维体系,赋能业务永续运行.为了让大家更好的了解和用好ECS弹性计算服务,从本期开 ...
- Oracle运维服务的四根救命稻草
企业信息化系统建设按生命周期可分为IT规划阶段.IT建设阶段和IT运维阶段,其中,IT运维阶段的时间最长,IT运维管理关乎着IT运维的质量.成本和速度,更关乎着IT系统的安全.连续和可用.大数据云计算 ...
- 从.net开发做到云原生运维(零)——序
1. 为什么要写这个系列的文章 大家看到标题的时候肯定会感觉到困惑,这个标题里的两件事物好像并不是很搭.说到.net开发大家一般都会想到asp.net做网站,或者是wpf和winform这类桌面开发, ...
- 企业Shell面试题及企业运维实战案例(三)
1.企业Shell面试题1:批量生成随机字符文件名案例 使用for循环在/oldboy目录下批量创建10个html文件,其中每个文件需要包含10个随机小写字母加固定字符串oldboy,名称示例如下: ...
随机推荐
- Ubuntu安装GPU驱动+CUDA+cuDNN的安装方法
一台有GPU的虚拟机如果没有安装CUDA的驱动,是需要我们手动去进行安装的,介绍Ubuntu操作系统的安装教程. 1. 下载安装文件 NVIDIA CUDA Toolkit Archive 点击上面链 ...
- 再说cxGrid主从表相关
查了那么多叽叽歪歪的资料:masterView的key,从表key和detailkey以及从表需要排序. 注意设定参数后,最后active数据集.这里有个顺序问题,否则会增加随机新 回到原点看随机he ...
- Hyperledger Fabric - 链码部署
前提条件 启动测试网络 ./network-myself.sh up 创建通道 ./network-myself.sh createChannel 智能合约(链码) pom.xml文件 配置远程仓库 ...
- MySQL 查询树结构、循环查询、查看函数、视图、存储过程
MySQL经常会用到查询树结构数据,这里专门收集整了一篇. 构建函数 构建树查询函数:查询父级节点函数 -- 在mysql中完成节点下的所有节点或节点上的所有父节点的查询 -- 根据传入id查询所有父 ...
- Unity性能优化-降低功耗,发热量,耗电量之OnDemandRendering篇
公司游戏项目,手机运行严重发烫,耗电量飞快.在暂时无法做其他美术性和技术性优化的情况下,我写了这个公司内部文档,并做了个实验,今天干脆公布出来,希望对大家有用. --官方文档: Unity - Scr ...
- Wolfram常用计算
1.方程与方程组 例1:求解方程 参考表达式: solve x^3 + 2x^2 - 6x + 5 = 0 real 求解所有根 例2:求解方程: 参考表达式: solve ax^2+bx+c=0 注 ...
- symfony3.4修改安全验证默认表配置
#security.yml security: # ··· providers: our_db_provider: entity: class: AppBundle:Users property: u ...
- thinkphphp 计算分页 和分页总数 和sql计算分页 php
利用page计算分页 $p=input('p')?input('p'):1; $limit=6; $res=db('points_log')->where(['p_uid'=>$uid,' ...
- 一次小而美的重构:使用 C# 在 Avalonia 中生成真正好看的词云
前言 我之前不是开发 StarBlogPublisher(一款 Markdown 文章发布工具)吗? 当时里面有个分类 词云(Word Cloud) 展示功能. 初版的词云虽然 "能用&qu ...
- 25.9K star!AI一键生成高清短视频,这个开源神器让内容创作起飞!
嗨,大家好,我是小华同学,关注我们获得"最新.最全.最优质"开源项目和高效工作学习方法 "MoneyPrinterTurbo 是基于AI大模型的全自动短视频生成工具,只需 ...