Select 使用不当引发的core,你应该知道的
排查一个死机问题,搞了好几天时间,最终确定原因;最终确定问题原因,在此分享一下;
第一步:常规根据core文件查看栈信息,gdb –c core xxxx
如下rip不正确,指令地址错乱,栈信息已破坏;在此基础上准确定位非常困难,但是仍可发现一些线索;
根据当前栈信息,大概寻找到怀疑的函数
查看整个栈上下信息,看有无怀疑的函数:
所以很有可能就是fetchNSAddrEv函数导致,需要重点关注;
更深入的细节,限于汇编不深入,比较难分析,不过可以有另外途径;
第二步:因为core是能复现出来,所以思路是重新编译版本,增加编译选项-fstack-protector
-fstack-protector:
启用堆栈保护,不过只为局部变量中含有 char 数组的函数插入保护代码。
-fstack-protector-all:
启用堆栈保护,为所有函数插入保护代码。
详细参见:http://www.cnblogs.com/napoleon_liu/archive/2011/02/14/1953983.html
复现后,栈结构如下:
这个栈结构,看着比较爽了; AsyncConnect返回时stackcheck检查栈溢出了;
第三步、审查代码,所以重点排查该函数:
先贴下代码
int CHttpHandler::AsyncConnect(const char * pszIpAddr, unsigned short usPort, float fSelectTimeout, const std::string& host)
{
if (strlen(pszIpAddr) > 16)
{
SetErrMsg("invalid ip format, pszIpAddr=%s", pszIpAddr);
return -1;
}
m_nSockFD= socket(AF_INET, SOCK_STREAM, 0);
m_fSelectTimeout= fSelectTimeout;
if (m_nSockFD < 0)
{
SetErrMsg("init socket error, m_nSockFD=%d", m_nSockFD);
return -2;
}
// set nonblock
int flags = fcntl(m_nSockFD, F_GETFL, 0);
if (fcntl(m_nSockFD, F_SETFL, flags | O_NONBLOCK) < 0)
{
close(m_nSockFD);
m_nSockFD = -1;
SetErrMsg("set sock nonblock error");
return -3;
}
// set server ip, port
struct sockaddr_in serv_addr;
socklen_t addr_len;
bzero(&serv_addr, sizeof(serv_addr));
serv_addr.sin_family = AF_INET;
inet_aton(pszIpAddr, &serv_addr.sin_addr);
serv_addr.sin_port = htons(usPort);
addr_len = sizeof(serv_addr);
//memset(m_szIPAddr, 0, 17);
memset(m_szIPAddr,0,sizeof(m_szIPAddr));
if(!host.empty())
{
if(host.length()>sizeof(m_szIPAddr)-1)
{
SetErrMsg("hostName too long ,hostName=%s,hostLen=%d,max_len=%d\n",host.c_str(),host.length(),sizeof(m_szIPAddr));
return -9;
}
memcpy(m_szIPAddr, host.c_str(), host.length());
}
else
{
memcpy(m_szIPAddr, pszIpAddr, strlen(pszIpAddr));
}
/*linger m_sLinger;
m_sLinger.l_onoff = 1;
m_sLinger.l_linger = 0;
setsockopt(m_nSockFD, SOL_SOCKET,SO_LINGER,(const char*)&m_sLinger,sizeof(linger));*/
// connect
int nRetCode;
nRetCode = connect(m_nSockFD, (struct sockaddr *)&serv_addr, addr_len);
if (nRetCode < 0)
{
if (errno != EINPROGRESS)
{
SetErrMsg("connect error, errno=%d", errno);
close(m_nSockFD);
m_nSockFD = -1;
return -4;
}
}
if (nRetCode == 0)
{
;
}
else
{
//warning oss find select cause crash while select timeout
fd_set rset, wset;
FD_ZERO(&rset);
FD_SET(m_nSockFD, &rset);
wset = rset;
struct timeval tv;
tv.tv_sec = (int)m_fSelectTimeout;
long usec = int ((m_fSelectTimeout - (int)m_fSelectTimeout)*1000000 );
tv.tv_usec = usec;
nRetCode = select(m_nSockFD + 1, NULL, &wset, NULL, &tv);
if (nRetCode == 0)
{
// timeout
SetErrMsg("connect error: select timeout, select retcode=%d ", nRetCode);
close(m_nSockFD);
m_nSockFD = -1;
return -5;
}
if ( FD_ISSET(m_nSockFD, &wset))//FD_ISSET(m_nSockFD, &rset) ||
{
int error;
socklen_t len = sizeof(error);
if (getsockopt(m_nSockFD, SOL_SOCKET, SO_ERROR, &error, &len) < 0)
{
SetErrMsg("connect error: getsockopt");
close(m_nSockFD);
m_nSockFD = -1;
return -6;
}
if (error)
{
SetErrMsg("connect error in select operation, error=%d", error);
close(m_nSockFD);
m_nSockFD = -1;
return -7;
}
}
else
{
SetErrMsg("connect error");
close(m_nSockFD);
m_nSockFD = -1;
return -8;
}
}
几个人审查代码,看了好久,没有发现该函数有什么问题;
第四步:检查日志及系统配置
进步查看日志发现有大量的select超时的打印,而且core掉时,必然在超时事件之后,此时怀疑select调用是否会出问题;因此,首先修改select为epoll调用进行测试,问题不能复现了;
五、如此,加深怀疑slecect相关处理
@福巴找到内核代码查看select相关实现;
当n值超过1024上限就会导致设置到数组之外,篡改掉内存;
FD_SET(m_nSockFD, &rset); 在m_nSockFD超过1024时,会导致rset数组越界,篡改后续内存;这也佐证了为什么select很多超时错误,因为m_nSockFD大小越界,没有落在select监听的套接字集合内;
从OSS环境上看,压测时,有大量连接并发处理,所以在压测时才最终发现该问题;
六、总结:
所有使用select系统调用的代码应提高警惕,系统使用的套接字超过默认配置的(1024,看系统配置)会导致这个潜在问题;
Select 使用不当引发的core,你应该知道的的更多相关文章
- jedis参数不当引发的问题总结
jedis参数不当引发dubbo服务线程池耗尽异常 现象:一个dubbo服务偶发性的出现个别机器甚至整个集群大量报线程池耗尽的问题.一开始对问题的处理比较粗暴,直接增加了10倍的线程数.但是问题依然偶 ...
- 【转载】select case break引发的血案
原文请看:select case break引发的血案 我也遇到了,浪费了一个多小时. 牢记: for { switch var1{ case "not match": go En ...
- delete数组引发的core分析
delete [] ptr 引发了singnal 6 abort的core错误,跟踪过程发现写入ptr大量数据,引发内存越界,破坏了new数组的尾部数据保护,导致delete的时候core. 问题分析 ...
- std::sort引发的core
#include <stdio.h> #include <vector> #include <algorithm> #include <new> str ...
- select for update引发死锁分析
本文针对MySQL InnoDB中在Repeatable Read的隔离级别下使用select for update可能引发的死锁问题进行分析. 1. 业务案例 业务中需要对各种类型的实体进行编号,例 ...
- 随机数使用不当引发的生产bug
前几天负责的理财产品线上出现问题:一客户赎回失败,查询交易记录时显示某条交易记录为其他人的卡号. 交易的链路如下: 出现该问题后,我们对日志进行了分析,发现主站收到的两笔流水号完全相同,然而主站却没有 ...
- mysql参数max_binlog_cache_size设置不当引发的血案
日常运维中的坑真是防不胜防,不一小心就遇到别人给你挖的坑.最近又遇到经验不足的DBA不知道从哪拷贝的配置文件(据说是当时参加某培训机构视频培训是资料里的模板,真的是误人子弟呀),其中把max_binl ...
- Web安全开发之验证码设计不当引发的撞库问题
感谢某电商平台安全工程师feiyu跟我一起讨论这个漏洞的修复.以往在安全测试的过程中后台经常存在验证码不失效果造成的撞库问题,甚至在一些银行或者电商的登录与查存页面同样存在这个问题,一旦造成撞库无论对 ...
- Proguard中optimize设置不当引发SimException
今天来说一下Proguard中关于optimize的问题.先上一张异常图片 最近项目重构,重新调整了各个组件之间的依赖关系.过程中,在项目Proguard这块卡住了,最开始还好,Proguard只是提 ...
随机推荐
- 2.StringBuffer:线程安全的可变字符串序列
一.String.StringBuffer和StringBuilder的区别 1.String是内容不可变的,而StringBuffer和StringBuilder都是内容可变的. 2.StringB ...
- 【bzoj2259】[Oibh]新型计算机 堆优化Dijkstra
题目描述 Tim正在摆弄着他设计的“计算机”,他认为这台计算机原理很独特,因此利用它可以解决许多难题. 但是,有一个难题他却解决不了,是这台计算机的输入问题.新型计算机的输入也很独特,假设输入序列中有 ...
- 【题解】Atcoder ARC#90 F-Number of Digits
Atcoder刷不动的每日一题... 首先注意到一个事实:随着 \(l, r\) 的增大,\(f(r) - f(l)\) 会越来越小.考虑暴力处理出小数据的情况,我们可以发现对于左端点 \(f(l) ...
- 【题解】Atcoder ARC#90 E-Avoiding Collision
自己做出来固然开心,但是越发感觉到自己写题的确是很慢很慢了……往往有很多的细节反反复复的考虑才能确定,还要加油呀~ 这道题目的突破口在于正难则反.直接求有多少不相交的不好求,我们转而求出所有相交的.我 ...
- [HAOI2006]受欢迎的牛 tarjan缩点 + 拓扑排序
---题面--- 题解: 首先tarjan缩点应该还是容易想到的,因为喜爱具有传递性,所以一个强联通分量里面的点实际上是全部等效的,所以我们可以缩成一个方便判断, 缩完点之后整张图就变成了一个有向无环 ...
- POJ3261:Milk Patterns——题解
http://poj.org/problem?id=3261 给一个序列,求至少出现 k 次的最长重复子串,这 k 个子串可以重叠. 论文题+傻逼题. 上一道题(POJ1743)会做即可. 还是二分长 ...
- BZOJ2653:middle——题解
http://www.lydsy.com/JudgeOnline/problem.php?id=2653 Description 一个长度为n的序列a,设其排过序之后为b,其中位数定义为b[n/2], ...
- bzoj2144: 跳跳棋(二分/倍增)
思维好题! 可以发现如果中间的点要跳到两边有两种情况,两边的点要跳到中间最多只有一种情况. 我们用一个节点表示一种状态,那么两边跳到中间的状态就是当前点的父亲,中间的点跳到两边的状态就是这个点的两个儿 ...
- 【状压DP】【UVA11825】 Hackers' Crackdown
传送门 Description 你是一个hacker,侵入了一个有着n台计算机(编号为1.2.3....n)的网络.一共有n种服务,每台计算机都运行着所有服务.对于每台计算机,你都可以选择一项服务,终 ...
- 2115: [Wc2011] Xor (线性基+dfs)
2115: [Wc2011] Xor Time Limit: 10 Sec Memory Limit: 259 MBSubmit: 5714 Solved: 2420 题目链接:https://w ...