一个基于 Linux 操作系统的服务器运行的同时,也会表征出各种各样参数信息.通常来说运维人员.系统管理员会对这些数据会极为敏感,但是这些参数对于开发者来说也十分重要,尤其当你的程序非正常工作的时候,这些蛛丝马迹往往会帮助快速定位跟踪问题. 这里只是一些简单的工具查看系统的相关参数,当然很多工具也是通过分析加工 /proc./sys 下的数据来工作的,而那些更加细致.专业的性能监测和调优,可能还需要更加专业的工具(perf.systemtap 等)和技术才能完成哦. 毕竟来说,系统性能监控本身就…
常情况下脚本执行时间几秒完成,如果超过很长时间执行完成,可能是进程等待某些资源引起阻塞(假死状态). 场景:xx.perl读取文件并发送邮件 现象:执行脚本的进程僵死(卡住) 排查:ps -ef |grep “perl xx.perl” 跟踪:strace -p 16634  (跟踪进程执行时的系统调用和所接收的信号(即它跟踪到一个进程产生的系统调用,包括参数.返回值.执行消耗的时间),卡在read(3,位置 查看进程文件描述符目录:查看3进行的是socket操作,也就是卡在通信. 使用nets…
Flink 支持 Standalone 独立部署和 YARN.Kubernetes.Mesos 等集群部署模式,其中 YARN 集群部署模式在国内的应用越来越广泛.Flink 社区将推出 Flink on YARN 应用解读系列文章,分为上.下两篇.上篇分享了基于 FLIP-6 重构后的资源调度模型介绍 Flink on YARN 应用启动全流程,本文将根据社区大群反馈,解答客户端和 Flink Cluster 的常见问题,分享相关问题的排查思路. 客户端常见问题与排查思路 ▼ 应用提交控制台异…
本文将帮助你厘清在Kubernetes中调试 deployment的思路.下图是完整的故障排查思路,如果你想获得更清晰的图片,请在公众号后台(RancherLabs)回复"troubleshooting". 当你希望在Kubernetes中部署一个应用程序,你通常需要定义三个组件: Deployment--这是创建名为Pods的应用程序副本的方法 Serivce--内部负载均衡器,将流量路由到Pods Ingress--可以描述流量如何从集群外部流向Service 接下来,我们通过图片…
Mysql 高负载排查思路 发现问题 top命令 查看服务器负载,发现 mysql竟然百分之两百的cpu,引起Mysql 负载这么高的原因,估计是索引问题和某些变态SQL语句. 排查思路 1. 确定高负载的类型,top命令看负载高是CPU还是IO. 2. mysql 下执行查看当前的连接数与执行的sql 语句. 3. 检查慢查询日志,可能是慢查询引起负载高. 4. 检查硬件问题,是否磁盘故障问题造成的. 5. 检查监控平台,对比此机器不同时间的负载. 确定负载类型(top) top - :: u…
前言 处理过线上问题的同学基本上都会遇到系统突然运行缓慢,CPU 100%,以及Full GC次数过多的问题.当然,这些问题的最终导致的直观现象就是系统运行缓慢,并且有大量的报警. 本文主要针对系统运行缓慢这一问题,提供该问题的排查思路,从而定位出问题的代码点,进而提供解决该问题的思路. 对于线上系统突然产生的运行缓慢问题,如果该问题导致线上系统不可用,那么首先需要做的就是,导出jstack和内存信息,然后重启系统,尽快保证系统的可用性.这种情况可能的原因主要有两种: 代码中某个位置读取数据量较…
RPC服务超时排查思路- 1.查看服务提供者日志相关信息进行排查- 2.查看消费者的超时时间设置是否合理- 3.查看服务提供者业务逻辑是否有DB操作,有的话看是否有慢SQL- 4.查看服务提供者业务逻辑是否有缓存操作,是否频繁操作缓存- 5.查看服务提供者线程堆栈,有没有hang住线程的请求,有没有阻塞等待,有没有死锁等- 6.查看服务提供者是否有内存溢出,进行相关排查- 7.超时时间设置合理,则考虑是否网络,可以再观察…
前言 之前线上有过一两次OOM的问题,但是每次定位问题都有点手足无措的感觉,刚好利用星期天,以测试环境为模版来学习一下Linux常用的几个排查问题的命令. 也可以帮助自己在以后的工作中快速的排查线上问题. jmap命令 jmap -heap pid 输出当前进程 JVM 堆新生代.老年代.持久代等请情况,GC 使用的算法等信息 jmap -histo:live {pid} | head -n 10 输出当前进程内存中所有对象包含的大小 jmap -dump:format=b,file=/usr/…
0x00 前言 ​ 当企业发生黑客入侵.系统崩溃或其它影响业务正常运行的安全事件时,急需第一时间进行处理,使企业的网络信息系统在最短时间内恢复正常工作,进一步查找入侵来源,还原入侵事故过程,同时给出解决方案与防范措施,为企业挽回或减少经济损失. 常见的应急响应事件分类: web入侵:网页挂马.主页篡改.Webshell 系统入侵:病毒木马.勒索软件.远控后门 网络攻击:DDOS攻击.DNS劫持.ARP欺骗 针对常见的攻击事件,结合工作中应急响应事件分析和解决的方法,总结了一些Window服务器入…
0x00 前言 ​ 当企业发生黑客入侵.系统崩溃或其它影响业务正常运行的安全事件时,急需第一时间进行处理,使企业的网络信息系统在最短时间内恢复正常工作,进一步查找入侵来源,还原入侵事故过程,同时给出解决方案与防范措施,为企业挽回或减少经济损失. 针对常见的攻击事件,结合工作中应急响应事件分析和解决的方法,总结了一些Linux服务器入侵排查的思路. 0x01 入侵排查思路 一.账号安全 基本使用: 1.用户信息文件/etc/passwdroot:x:0:0:root:/root:/bin/bash…