问题引出:A进程与B进程各自独立,都是服务器进程,常驻系统,互不相干。在某次重启A进程后,发现由于固定监听的端口被占用而无法启动。检查,发现是B进程占用了该端口,检查B进程代码,没有相关的打开该固定端口和打开随机端口的动作。问题百思不得其解。

最终,发现B进程不只是占用了该固定端口,还打开了很多本该只有A进程才会打开的句柄资源。很快联想到A是B的子进程,B是A fork之后在子进程中运行的。进一步分析,发现A进程有着类似于监控B进程的作用,在特定情况下,会调用B进程的监控脚本来重启B,调用时用的是system函数。

再来看system函数的实现,用fork产生一个子进程,在子进程中运行脚本,脚本启动B。B就这样降到了A的子孙辈,无论是第几代子孙,都会继承A的资源。

这样,当B重启之后,B也打开了只有A才会使用的端口,对B来说,它根本不使用这些资源,甚至不知道自己打开了哪些句柄,这非常不好。之后,某个时刻,当A重启时,A原来申请的资源会一一释放,但是已经被B继承的那份拷贝还处于打开状态,导致A启动时报端口冲突。

问题分析清楚,也就好解决了。解决的方案有:
1、重写system函数,再派生子进程后,运行脚本之前,将所有不需要的句柄关掉,一般的多进程服务端程序也都这么做。
2、发现java程序并没有打开父进程的资源,可以用java实现一个‘脚本调用器’,解决办法似乎不是特别优雅。
3、在申请资源的时候用fcntl将句柄设置为不被继承。

在分析方案的过程中也学习了vfork与fork的差别,vfork只是父子进程共享堆栈,但是句柄资源还是复制了。也分析了exec与fork的区别。都找不到完美的解决办法。

3方案解决当前问题最简单,但是容易留下坑。2方案总觉得很别扭。决定采用1。问题又来了,A进程本来就不是多进程的模式,因此它并没有集中管理资源,想要从代码中增加全局变量收集零散资源似乎很困难。想到了常用的lsof工具,这个工具不是可以列举任何进程的句柄吗?查阅其源代码,原来是读取proc虚拟文件系统下的数据来实现的。如法炮制,也用这个方法遍历本进程的fd目录,将得到的句柄一一记录,在关闭了proc目录后,将记录下来的句柄关闭,这时还会将已经关闭的proc目录的句柄又关闭一次,不过不会有什么问题。存在的问题是必须以root运行才能得到句柄列表。

奋笔疾书,写完了新的system函数,却发现脚本不能运行完成,总是在中间某个点就退出了。经过在脚本中反复打点,发现总是在同一行上面退出,这一行是一个shell函数调用,猜测,是不是新的system中指定的脚本解析器不支持函数?另外写测试程序,也不是这样的。继续找原因,原来这一行还使用了标准输入、输出、错误重定向。而标准输入输出已经在父进程中关闭了,重定向当然会有错误。保留0,1,2三个句柄后问题彻底解决。其实这三个句柄也是不能随意关闭的,一但句柄关闭后,系统会将句柄号分配给其他资源,这样如果代码中使用了重定向0,1,2,那后果会不堪设想。

system调用导致子进程socket句柄泄漏问题分析的更多相关文章

  1. Java 性能优化实战记录(2)---句柄泄漏和监控

    前言: Java不存在内存泄漏, 但存在过期引用以及资源泄漏. (个人看法, 请大牛指正) 这边对文件句柄泄漏的场景进行下模拟, 并对此做下简单的分析.如下代码为模拟一个服务进程, 忽略了句柄关闭, ...

  2. 内核对象&句柄&泄漏&检测

    今天看到这个问题如何评价王垠的 <讨厌的 C# IDisposable 接口>? - 王垠(人物),答案被歪到windows 内核对象和句柄,答案中谈的太浅显而且有误.翻出陈年老文章(此文 ...

  3. 记一次 .NET 某流媒体独角兽 API 句柄泄漏分析

    一:背景 1. 讲故事 上上周有位朋友找到我,说他的程序CPU和句柄都在不断的增长,无回头趋势,查了好些天也没什么进展,特加wx寻求帮助,截图如下: 看的出来这位朋友也是非常郁闷,出问题还出两个,气人 ...

  4. 【转】Windows10下80端口被PID为4的System占用导致Apache无法启动的分析与解决方案

    昨天刚更新了Windows10,总体上来说效果还是蛮不错的,然而今天在开启Apache服务器的时候却发现,Apache莫名其妙的打不开了,起初以为是权限的问题,于是使用管理员身份的控制台去调用命令ne ...

  5. 在awk中通过system调用sql语句来说明引号的使用

    一个实际应用例子: 在awk中,通过system调用连接数据库并作select操作,select语句中where条件来自于一个文件(file)的第一个域($1). $ cat file ... ... ...

  6. SOCKET句柄泄露带来的内存灾难

    前些时候游戏莫名其妙出现大量内存泄露,我感到很诧异,当然一般情况下游戏的内存管理是极其严苛的,出现如此大量的内存泄露到底是怎么回事? 句柄滥用导致的内存泄露会多夸张呢,尤其SOCKET,在某些客户端系 ...

  7. Win10下80端口被System占用导致Apache无法启动

    Windows10下80端口被PID为4的System占用导致Apache无法启动的分析与解决方案 方法/步骤     最近更新了Windows10,总体上来说效果还是蛮不错的,然而今天在开启Apac ...

  8. 利用windbg分析崩溃,句柄泄漏,死锁,CPU高,内存泄漏

    Windbg的一些简单使用命令 一.崩溃 1.  输入.ecxr;kbn得到崩溃的堆栈 其中源代码如下 2.  查看堆栈和源代码,发现第0帧导致崩溃,代码也是本地代码 输入.frame  0,切到第0 ...

  9. C# DllImport“调用导致堆栈不对称。原因可能是托管的 PInvoke 签名与非托管的目标签名不匹配。请检查 PInvoke 签名的调用约定和参数与非托管的目标签名是否匹配 ”

    调用外部dll时,出现如下问题 C# DllImport“调用导致堆栈不对称.原因可能是托管的 PInvoke 签名与非托管的目标签名不匹配.请检查 PInvoke 签名的调用约定和参数与非托管的目标 ...

随机推荐

  1. Announcing HashiCorp Consul + Kubernetes

    转自:https://www.hashicorp.com/blog/consul-plus-kubernetes We're excited to announce multiple features ...

  2. sqler sql 转rest api 防止sql 注入

    sqler 对于sql Sanitization 的处理,我们可以使用bind 指令 说明: 这个是2.0 的功能,注意版本的使用 参考格式   addpost {    // $input is a ...

  3. 原码,反码与补码的概念以及Java中数的存储方式

    *原码,反码,补码必须满8位,不足在前填0: 1,原码:用符号位和数值位表示一个带符号的数 +  -> 0                 -   -> 1     表示数的范围-127~ ...

  4. 20165308《Java程序设计》第7周学习总结

    20165308<Java程序设计>第7周学习总结 教材学习内容总结 第十一章:JDBC与MySQL数据库 MySQL数据库管理系统 启动MySQL数据库服务器 MySQL客户端管理工具 ...

  5. webpack 中,loader、plugin 的区别

    loader 和 plugin 的主要区别: loader 用于加载某些资源文件. 因为 webpack 只能理解 JavaScript 和 JSON 文件,对于其他资源例如 css,图片,或者其他的 ...

  6. 关于value_count

    value_counts将会对于指定列的数据进行group,然后统计出各个出现的值的数量,并且按照从高到低的顺序进行排序 train_data = load_titanic_data("tr ...

  7. Anaconda 安装 Python 库(MySQLdb)的方法-(转)

    安装python库的过程中,最重要的地方就是版本需要兼容.其中操作系统为64位,Python为2.X 64位,下载安装文件的时候也要注意版本匹配.其中文件名中包含的cp27表示CPython 2.7版 ...

  8. java降低竞争锁的一些方法

    序本文介绍一下提升并发可伸缩性的一些方式:减少锁的持有时间,降低锁的粒度,锁分段.避免热点域以及采用非独占的锁或非阻塞锁来代替独占锁. 减少锁的持有时间降低发生竞争可能性的一种有效方式就是尽可能缩短锁 ...

  9. (转)Mac环境下svn的使用

    在Windows环境中,我们一般使用TortoiseSVN来搭建svn环境.在Mac环境下,由于Mac自带了svn的服务器端和客户端功能,所以我们可以在不装任何第三方软件的前提下使用svn功能,不过还 ...

  10. 【java】匿名对象

    匿名对象使用的场景:1.如果一个对象只调用一个方法一次的时候,就可以用匿名对象来调用. 一般不会用匿名对象给属性赋值,无法获取属性值,每次new 都是一个新的对象. new Car().run();/ ...