API返回延迟,FPM重启后恢复之后又重现问题解决方案

背景

最近在提供后台API时,提供了一个简单逻辑的接口

部署在测试环境，自测没问题，提交测试

突然有一天,接口响应延迟严重，几乎每次都是3-4秒返回

这对于一个接口来说，肯定是有问题的

于是便有了以下的方法尝试

重启FPM

最开始以为不是什么大问题，猜想可能是fpm问题

毕竟测试环境，部署代码繁多

重启后，接口响应正常，可不一会就又复现

重新分析定位问题

经过几次的尝试后，发现问题其实没有那么简单

重启fpm后，过了不到几秒，问题依然复现

编写简单的php文件，无复杂逻辑，只输出字符串，问题复现

命令行执行文件，无此问题

经过以上尝试，确认是FPM的问题

或者PHP的初始化解析执行的问题，当时想是不是有特定的模块加载

经过php -m 查看，无特殊模块(其实应该仔细看看,所以才绕了弯路)

日志定位

有了上面的分析，最先想到的是利用日志查看问题

查看nginx日志

  nginx 日志 格式，添加详细的 各个时间段的相应

  log_format main '$remote_addr [$host] - $remote_user [$time_local] $request upstream_response_time: $upstream_response_time

   request_time: $request_time upstream_connect_time: $upstream_connect_time upstream_header_time:$upstream_header_time

  $status $body_bytes_sent $http_referer $http_user_agent ';

  添加了

        upstream_response_time

        upstream_connect_time

        upstream_header_time

  含义如下:

        request_time

              nginx服务，从发起请求的客户端获取到第一个字节开始，到返回给客户端最后一个字节，日志写入文件后，所经过的时间。单位为秒。

        upstream_connect_time

              nginx服务，从与上游服务开始建立连接，到连接建立成功，所经过的时间。单位为秒。

        upstream_header_time

              nginx服务，从与上游服务开始建立连接，到接收到响应返回头的第一个字节，所经过的时间。单位为秒。

        upstream_response_time

              nginx服务，从与上游服务开始建立连接，到接收完响应返回的最后一个字节，所经过的时间。单位为秒

        ![](https://img2020.cnblogs.com/blog/385704/202007/385704-20200728162028181-1944819290.jpg

        [参考链接](https://juejin.im/post/5d26eb16f265da1bd522f8d6)

  程序真正的运行时间 = $upstream_header_time - $upstream_connect_time

  $request_time 中包含了数据返回时间

  $request_time 中包含了日志打印的时间

  nginx 日志显示

  xxx [xxx] - - [11/Jul/2020:13:36:45 +0000] POST /xxx/xxx HTTP/1.1 upstream_response_time: 3.048 request_time: 3.048 upstream_connect_time: 0.000 upstream_header_time:3.048 200 98 - Dalvik/2.1.0 (Linux; U; Android 8.1.0; vivo 1808 Build/O11019)

  从中可以看出确实是 上游服务FPM 返回延迟了

配置 FPM 慢日志

lowlog = /xxx/www-slow.log request_slowlog_timeout = 1s

发现慢日志中，并没有记录

于是怀疑是否日志文件权限有问题，修改后依然未写入

想到用sleep的方式，写入慢日志，成功写入

现象就是配置了1秒的FPM慢日志，接口响应超过1s，但没有写入慢日志

那就说明 PHP 程序执行完成后，又做了什么处理，导致了延迟

或者其他的配置问题

文件描述符

网上搜索, 可能是文件的打开数量有限制, 并没有做优化

于是查看对应的配置

nginx 配置文件 worker_rlimit_nofile

ulimit -n

是做了优化的的

也并不是网上所说的问题

思考

所有的PHP程序响应都有延迟，超过3s左右

所以并不是个例，和其他的如mysql redis 连接没关系

突然间出现的，原来是没问题的，应该是近期做了更改

但由于测试环境，东西太多，一时也找不到是什么改动

命令行模式下，没有延迟，所以和FPM有关

而重复FPM后,几秒内正常,后又复现

一直以为是FPM配置有什么问题,目前看并不是

所以肯定是程序处理完成后，又做了什么，导致了延迟

那有什么办法可以追踪代码的执行吗

对于php而言，xhprof扩展是可以很好的展示一个流程中的耗时

而且还有对应的图片展示(需要安装扩展)，但还需要安装

于是就有了下面的方法

strace调试跟踪

简单来说，strace是用来跟踪进程内的系统调用和接受的信号。

对程序调试很有帮助

于是,来调试FPM的进程，看看都做了哪些调用

strace -t -f $(pidof php-fpm| sed 's/$[0-9]*$/\-p \1/g') -epoll -o /tmp/strace.txt

打开文件

12406 06:55:13 poll([{fd=5, events=POLLIN}], 1, 5000) = 1 ([{fd=5, revents=POLLIN}])

12406 06:55:13 poll([{fd=6, events=POLLOUT|POLLWRNORM}], 1, 10000) = 1 ([{fd=6, revents=POLLOUT|POLLWRNORM|POLLERR|POLLHUP}])

12405 06:55:16 --- SIGQUIT {si_signo=SIGQUIT, si_code=SI_USER, si_pid=12401, si_uid=0} ---

12405 06:55:16 +++ exited with 0 +++

12401 06:55:16 --- SIGCHLD {si_signo=SIGCHLD, si_code=CLD_EXITED, si_pid=12405, si_status=0, si_utime=0, si_stime=0} ---`

通过以上信息，在 06:55:13后，确实有超过3秒的时间，是 fd=6 导致的, 那 fd=6 是什么

可通过 lsof -p pid 的方式查看

但进程id 12405 退出了

就是说，由于FPM的动态启动进程的配置，一个进程退出后，会重新生成进程，已达到配置的进程数

所以一边打印调试信息，一边输出工作pid的文件信息

lsof -p 12408

php-fpm 12408 apache 5u IPv4 1203792101 0t0 TCP localhost:cslistener->localhost:22384 (ESTABLISHED)

php-fpm 12408 apache 6u IPv4 1203794606 0t0 TCP xx.com:28866->ip-10-66-100-169.ec2.internal:9411 (SYN_SENT)

此时，原因终于找到了,在每次结束后，又请求了某个ip 9411端口的服务

可以看到tcp状态是 SYN_SENT，虽然已发出连接请求，但对应没回应，并不是ESTABLISHED状态

说明是对应请求机器的问题

于是去查看此ip对应机器,原来确实有此机器，但不知什么时候起，此机器已下架了

导致了这个问题，此刻想到了为什么突然之间接口就有延迟了

问题修复

既然确认了是连接了某个服务导致的问题，对应的php配置文件应该有配置

于是找到所有模块配置文件ini路径，搜索ip

发现是其 molten 扩展配置

molten 扩展是一个全链路追踪的工具

molten追踪php核心调用库运行时信息并且按照zipkin/optracing格式输出信息。

可以追踪curl,pdo,mysqli,redis,mongodb,memcached 这么多的运行信息。

去掉此扩展加载，重启FPM后，接口响应正常

总结

问题出现的时候，最直观的方式应该是日志，通过查看日志，可以解决大部分问题

当日志解决不了的问题，如何调试，就成了问题解决的关键

strace ltrace 以及 gdb 调试

API返回延迟,FPM重启后恢复之后又重现问题解决方案的更多相关文章

每天一个linux命令：ifconfig命令临时修改重启后恢复原样
许多windows非常熟悉ipconfig命令行工具,它被用来获取网络接口配置信息并对此进行修改.Linux系统拥有一个类似的工具,也就是ifconfig(interfaces config).通常需 ...
redis集群节点重启后恢复
服务器重启后,集群报错: [root@SHH-HQ-NHS11S nhsuser]# redis-cli -c -h ip -p 7000ip:7000> set cc dd(error) CL ...
CentOS7重启后resolv.conf被重置的解决方案
近期在修改一台CentOS7服务器的dns时发现只要重启服务器DNS就会被强制还原,解决方案如下: 1.首先在网卡设置中修改NM_CONTROLLED的值: 修改文件/etc/sysconfig/ne ...
如何保证修改resolv.conf后重启不恢复？
如何保证修改resolv.conf后重启不恢复? 修改/etc/resolv.conf,重启网卡后,/etc/resolv.conf恢复到原来的状态. CentOS.redhat下面直接修改/etc/ ...
分享：Windows2008重启后提示系统恢复选项的解决办法
如题:WINdows2008服务器. 重启后提示系统恢复选项的解决办法使用windows 2008后,不能启动的问题,重启后出现修复系统选项采用下面帖子中的部分命令搞定之. 我自己是直接使用:选 ...
ubuntu网络重启后或主机重启后，/etc/resolv.conf恢复原样的解决办法
ubuntu网络重启后或主机重启后,/etc/resolv.conf恢复原样的解决办法 /etc/resolv.conf中设置dns之后每次重启该文件会被覆盖,针对这种情况找了一些个解决方法防止/e ...
koa中返回404并且刷新后才正常的解决方案
概述这几天学习koa2,有一些心得,记录下来,供以后开发时参考,相信对其他人也有用. 起因这几天学习koa2,写的代码执行时有一个奇怪的bug:明明能够返回数据,却有时正常返回数据,有时偏偏给你返 ...
Hyper-V 激活Windows系统重启后黑屏的解决方法 + 激活方法
异常处理汇总-服务器 http://www.cnblogs.com/dunitian/p/4522983.html 服务器相关的知识点:http://www.cnblogs.com/dunitia ...
web Api 返回json 的两种方式
web api写api接口时默认返回的是把你的对象序列化后以XML形式返回,那么怎样才能让其返回为json呢,下面就介绍两种方法: 方法一:(改配置法) 找到Global.asax文件,在Applic ...

随机推荐

程序员的修炼-我们为什么会编写BUG
在最近的一周,我维护的业务系统出现了很多坏毛病,一周七天crash掉了4次,每次都需要都是因为一点很小的问题,触发了蝴蝶效应,导致整个系统全盘崩溃,于是产生除了叙述本篇的想法,当然这并不是为了掩盖我在 ...
day07获取用户地址信息
==================获取用户信息=======================html页面: <view bindtap="getlocalpath"> ...
第 11 篇：基于 drf-haystack 的文章搜索接口
作者:HelloGitHub-追梦人物在 django 博客教程中,我们使用了 django-haystack 和 Elasticsearch 进行文章内容的搜索.django-haystack 默 ...
Electron 初识-搭建一个简易桌面应用
Electron 快速入门简介 Electron 可以让你使用纯 JavaScript 调用丰富的原生 APIs 来创造桌面应用.你可以把它看作是专注于桌面应用而不是 web 服务器的,io.j ...
PBR（基于物理的渲染）学习笔记
PBR基本介绍 PBR代表基于物理的渲染,本质上还是 gl_FragColor = Emssive + Ambient + Diffuse + Specular 可能高级一些在考虑下AO也就是环境光遮 ...
转载---最简单的JavaScript模板引擎
转载自:http://www.cnblogs.com/dolphinX/p/3489269.html,http://blog.jobbole.com/56689/
BZOJ2200 道路与航线题解
题目 Farmer John正在一个新的销售区域对他的牛奶销售方案进行调查.他想把牛奶送到T个城镇 $(1 <= T <= 25,000)$,编号为$1T$.这些城镇之间通过\(R ...
深入Mybatis源码——配置解析
@ 目录前言正文配置解析 1. cacheRefElement/cacheElement 2. resultMapElements 3. sqlElement 4. buildStatement ...
小师妹学JVM之:Dirty cards和PLAB
目录简介分代收集器中的空间划分 Write barrier和Dirty cards PLAB old space分配对象总结简介分代垃圾回收器在进行minor GC的时候会发生什么操作呢?有 ...
Qt_Demo3：实现棋盘
1 简介参考视频:https://www.bilibili.com/video/BV1XW411x7NU?p=53 说明:实现一个8*8的棋盘,点击棋盘的任意位置显示一个表情,并打印出当前的坐标( ...

API返回延迟,FPM重启后恢复之后又重现 问题解决方案

背景

重启FPM

重新分析定位问题

日志定位

查看nginx日志

配置 FPM 慢日志

文件描述符

思考

strace调试跟踪

问题修复

总结

API返回延迟,FPM重启后恢复之后又重现 问题解决方案的更多相关文章

随机推荐

热门专题

API返回延迟,FPM重启后恢复之后又重现问题解决方案

API返回延迟,FPM重启后恢复之后又重现问题解决方案的更多相关文章