一:背景

1.讲故事

最近分享了好几篇关于 非托管内存泄漏 的文章,有时候就是这么神奇,来求助的都是这类型的dump,一饮一啄,莫非前定。让我被迫加深对 NT堆, 页堆 的理解,这一篇就给大家再带来一篇内存泄漏。

前段时间有位朋友找到我,说他的程序出现了非托管泄漏,某一块的操作会导致非托管内存上涨的很快,让我帮忙逆向看下是哪里的操作没有释放资源? 既然找到我,那就上 WinDbg 分析吧。

二:WinDbg 分析

1. 哪里的内存泄漏

看内存泄漏还是老规矩,使用 !address -summary 命令就可以了。


0:000> !address -summary --- Usage Summary ---------------- RgnCount ----------- Total Size -------- %ofBusy %ofTotal
Free 443 7fc`685d1000 ( 7.986 TB) 99.82%
Heap 658 3`563aa000 ( 13.347 GB) 92.89% 0.16%
<unknown> 770 0`1ff5a000 ( 511.352 MB) 3.48% 0.01%
Image 1196 0`108ba000 ( 264.727 MB) 1.80% 0.00%
Stack 108 0`08c40000 ( 140.250 MB) 0.95% 0.00%
Other 31 0`081d8000 ( 129.844 MB) 0.88% 0.00%
TEB 36 0`00048000 ( 288.000 kB) 0.00% 0.00%
PEB 1 0`00001000 ( 4.000 kB) 0.00% 0.00% --- State Summary ---------------- RgnCount ----------- Total Size -------- %ofBusy %ofTotal
MEM_FREE 443 7fc`685d1000 ( 7.986 TB) 99.82%
MEM_COMMIT 2464 3`67933000 ( 13.618 GB) 94.77% 0.17%
MEM_RESERVE 336 0`300ec000 ( 768.922 MB) 5.23% 0.01%

从卦中看,当前进程有 13.6 G 的提交内存,NtHeap 占用了 13G,很明显这是非托管内存泄漏,既然是非托管泄漏,那就需要二番战,也就是让朋友开启 ust,或者启用应用程序验证器 (Application Verifier) 开启页堆,目的就是记录分配这块内存的源头,这里就让朋友用 gflags 开启下 ust,具体怎么开,这里就不介绍了,大家可以网上搜一下。

2. 追踪 ust 加持下的调用栈

有了 ust 的加持,接下来就可以继续分析,使用 !heap -s 观察下 nt 堆的布局。


0:000> !heap -s
SEGMENT HEAP ERROR: failed to initialize the extention
NtGlobalFlag enables following debugging aids for new heaps:
stack back traces
LFH Key : 0x0000004c4f657ebf
Termination on corruption : ENABLED
Heap Flags Reserv Commit Virt Free List UCR Virt Lock Fast
(k) (k) (k) (k) length blocks cont. heap
-------------------------------------------------------------------------------------
0000000000060000 08000002 32576 17212 32576 430 161 6 1 0 LFH
0000000000010000 08008000 64 8 64 5 1 1 0 0
0000000008810000 08001002 1088 500 1088 15 5 2 0 0 LFH
...
0000000029fb0000 08001002 88320 67408 88320 32559 343 47 189 1b7 LFH
External fragmentation 48 % (343 free blocks)
0000000029870000 08001002 512 8 512 3 1 1 0 0
...
-------------------------------------------------------------------------------------

从卦中看,commit 最大的也就是 67408k = 67M, 这和 13G 差的不是一星半点,如果你了解 NtHeap 的布局,应该知道当 分配内存 > 512k 的时候,会进入到 HEAP 的 VirtualAllocdBlocks 双向链表中,言外之意就是当你觉得内存对不上的时候,就要观察下这个链表了,即上图中的 Virt blocks 列,可以看到 handle=0000000029fb0000Virt blocks=189,接下来继续下钻 handle=0000000029fb0000 这个堆。


0:000> !heap -h 0000000029fb0000
SEGMENT HEAP ERROR: failed to initialize the extention
Index Address Name Debugging options enabled
23: 29fb0000
Segment at 0000000029fb0000 to 000000002a7b0000 (007eb000 bytes committed)
Segment at 0000000026070000 to 0000000026170000 (000ff000 bytes committed)
Segment at 0000000027d10000 to 0000000027f10000 (001f7000 bytes committed)
Segment at 00000000318a0000 to 0000000031ca0000 (00400000 bytes committed)
Segment at 0000000044a00000 to 0000000045200000 (005f1000 bytes committed)
Segment at 000000004ae90000 to 000000004be60000 (00efc000 bytes committed)
Segment at 000000005b3b0000 to 000000005c380000 (00e2e000 bytes committed)
Segment at 000000005d8c0000 to 000000005e890000 (00cf1000 bytes committed)
Segment at 000000005c380000 to 000000005d350000 (002e7000 bytes committed)
Flags: 08001002
ForceFlags: 00000000
Granularity: 16 bytes
...
Virtual Alloc List: 29fb0118
Unable to read nt!_HEAP_VIRTUAL_ALLOC_ENTRY structure at 0000000043500000
Uncommitted ranges: 29fb00f8

我去,卦中出现了不愿看到的 Unable to read nt!_HEAP_VIRTUAL_ALLOC_ENTRY structure at 0000000043500000,也就是说显示不出 _HEAP_VIRTUAL_ALLOC_ENTRY 结构,可以用 dt 验证一下。


0:000> dt nt!_HEAP_VIRTUAL_ALLOC_ENTRY
Symbol nt!_HEAP_VIRTUAL_ALLOC_ENTRY not found.

为什么在他的机器上没记录到,可能和它生产服务器的 Windows 系统有关,这里就不细究原因,接下来的问题是: !heap 命令失效,该怎么把 VirtualAllocdBlocks 给挖出来呢?只能纯人肉了...

3. 如何人肉挖 VirtualAllocdBlocks

要想人肉挖,需要一些底层知识,比如下面三点。

  1. VirtualAllocdBlocks 是什么?

VirtualAllocdBlocks 是一个记录大块内存的双向链表结构,可以用 dt nt!_HEAP 0000000029fb0000 命令从 HEAP 中找出来。


0:000> dt nt!_HEAP 0000000029fb0000
ntdll!_HEAP
+0x118 VirtualAllocdBlocks : _LIST_ENTRY [ 0x00000000`43500000 - 0x00000000`32970000 ]
+0x128 SegmentList : _LIST_ENTRY [ 0x00000000`29fb0018 - 0x00000000`5c380018 ]
... 0:000> dt _LIST_ENTRY 0000000029fb0000+0x118
ntdll!_LIST_ENTRY
[ 0x00000000`43500000 - 0x00000000`32970000 ]
+0x000 Flink : 0x00000000`43500000 _LIST_ENTRY [ 0x00000000`47240000 - 0x00000000`29fb0118 ]
+0x008 Blink : 0x00000000`32970000 _LIST_ENTRY [ 0x00000000`29fb0118 - 0x00000000`4ee90000 ]

从卦中可以看到, VirtualAllocdBlocks 是一个拥有 FlinkBlink 的双向链表结构。

  1. _HEAP_VIRTUAL_ALLOC_ENTRY 是什么?

我们都知道 heap 的 block <512k_HEAP_ENTRY 结构,那 block >512k 的块就是 _HEAP_VIRTUAL_ALLOC_ENTRY 结构,不信的话可以用 dt 导出来。


0:016> dt nt!_HEAP_VIRTUAL_ALLOC_ENTRY
ntdll!_HEAP_VIRTUAL_ALLOC_ENTRY
+0x000 Entry : _LIST_ENTRY
+0x010 ExtraStuff : _HEAP_ENTRY_EXTRA
+0x020 CommitSize : Uint8B
+0x028 ReserveSize : Uint8B
+0x030 BusyBlock : _HEAP_ENTRY

从卦中可以看到,除了真正的分配 BusyBlock 之外还有一些附属信息,比如 CommitSize , ReserveSize 等等,接下来就可以抽取 第一个节点地址 加上 +0x30 来找到这个真正的内存分配块,即 0x0000000043500000 + 0x30, 然后使用 !heap -p -a 就可以看到这个分配块的源头在哪里了。


0:000> !heap -p -a 0x0000000043500000 + 0x30
address 0000000043500030 found in
_HEAP @ 29fb0000
HEAP_ENTRY Size Prev Flags UserPtr UserSize - state
0000000043500030 100100 0000 [00] 0000000043500060 1000040 - (busy VirtualAlloc)
775bc35b ntdll! ?? ::FNODOBFM::`string'+0x00000000000153eb
7fed230483b halcon!HXmalloc+0x000000000000008b
7fed22dd81d halcon!HXAllocRLTmp+0x000000000000265d
7fed22d6bd0 halcon!HXAllocTmp+0x0000000000000a80
7fed44a346a halcon!HCancelWait+0x000000000000007a
7fed2386b8f halcon!CCallHProc+0x000000000000073f
7fe83e3bcf6 +0x000007fe83e3bcf6 0:000> !ip2md 0x000007fe83e3bcf6
MethodDesc: 000007fe83c39138
Method Name: HalconDotNet.xxx
Class: 000007fe83c6b890
MethodTable: 000007fe83c3f300
mdToken: 0000000006000df5
Module: 000007fe83a7f498
IsJitted: yes
CodeAddr: 000007fe83e3bb90
Transparency: Safe critical

可以看到第一块 size= 0x1000040 byte = 16M 的内存是 HalconDotNet 分配的,接下来我们多抽几个,或者用脚本来归纳一下,发现有大量的 88M 内存占用,大体上归为两类:

  1. C# 代码分配未释放:

  1. 内部代码:

最后就是把这个结果给了朋友,让朋友看下用 !ip2md 显示出来的托管方法,为什么没有释放,是不是漏了。

三: 总结

这个dump可以看出是因为对 halcon 做了一套 DotNet 版的封装上出现了一些瑕疵,这个 dump 的难点在于当 !heap 扩展命令失效的情况下,如何通过纯手工的方式把 NTHeap 剥离的明明白白。

记一次 .NET 某工控视觉软件 非托管泄漏分析的更多相关文章

  1. 记一次 .NET 某工控数据采集平台 线程数 爆高分析

    一:背景 1. 讲故事 前几天有位朋友在 B站 加到我,说他的程序出现了 线程数 爆高的问题,让我帮忙看一下怎么回事,截图如下: 说来也奇怪,这些天碰到了好几起关于线程数无缘无故的爆高,不过那几个问题 ...

  2. 记一次 .NET 某工控自动化控制系统 卡死分析

    一:背景 1. 讲故事 前段时间遇到了好几起关于窗体程序的 进程加载锁 引发的 程序卡死 和 线程暴涨 问题,这种 dump 分析难度较大,主要涉及到 Windows操作系统 和 C++ 的基础知识, ...

  3. 分享一款免费的工控组态软件(PCHMI)

    PCHMI严格的讲它并不是一款组态软件,也不是一款SCADA软件,而是一个基于.NET构架的DLL文件,开发者可以使用微软的Visual Studio将PCHMI.DLL加载到工具箱里面进行二次开发. ...

  4. 记一次 .NET 某桌面奇侠游戏 非托管内存泄漏分析

    一:背景 1. 讲故事 说实话,这篇dump我本来是不准备上一篇文章来解读的,但它有两点深深的感动了我. 无数次的听说用 Unity 可做游戏开发,但百闻不如一见. 游戏中有很多金庸武侠小说才有的名字 ...

  5. 记一次 .NET 某智能服装智造系统 内存泄漏分析

    一:背景 1. 讲故事 上个月有位朋友找到我,说他的程序出现了内存泄漏,不知道如何进一步分析,截图如下: 朋友这段话已经说的非常言简意赅了,那就上 windbg 说话吧. 二:Windbg 分析 1. ...

  6. 两款工控控件对比评测:Iocomp和ProEssentials

    对于程序员来说,要凭一己之力开发出漂亮逼真的工控仪表和工控图表是非常耗时间和精力的,那么使用专业的第三方控件就是不错的选择,不仅节约开发时间,降低了项目风险,最重要的是第三方控件写的程序更专业,工控图 ...

  7. 开源纯C#工控网关+组态软件(十)移植到.NET Core

    一.   引子 写这个开源系列已经十来篇了.自从十年前注册博客园以来,关注了张善友.老赵.xiaotie.深蓝色右手等一众大牛,也围观了逗比的吉日嘎啦.精密顽石等形形色色的园友.然而整整十年一篇文章都 ...

  8. Wireshark工控协议

    Wireshark是一个强大开源流量与协议分析工具,除了传统网络协议解码外,还支持众多主流和标准工控协议的分析与解码. 序号 协议类型 源码下载 简介 1 Siemens S7 https://git ...

  9. 【转】工控老鬼】西门子S7200入门&精通【1】S7200硬件大全

    转载地址:http://blog.sina.com.cn/s/blog_669692a601016i5f.html     工控老鬼提醒以下的信息和资料可能不全或者不准确,如有疑问可以查阅西门子中国网 ...

随机推荐

  1. 清北学堂 2020 国庆J2考前综合强化 Day6

    目录 1. 题目 T1 双色球计数 题目描述 Sol 炼金术 题目描述 Sol T3 地铁大亨 题目描述 Sol T4 结束的派对 题目描述 Sol 算法 - 分治 1. 分治 2. 二分 3. 倍增 ...

  2. 可以级联的以太网远程IO模块的优点与适用场景

    可以级联的以太网远程IO模块的优点与具体的适用场景 对于数据采集控制点是按照线性分布的场景,比如智慧园区的路灯.桥梁.路灯.数字化工厂.停车场车位监测.智慧停车场.智能停车架.楼宇自动控制系统等场景, ...

  3. 使用flex弹性布局代替传统浮动布局来为微信小程序写自适应页面

    原文转载自「刘悦的技术博客」https://v3u.cn/a_id_109 我们知道,写习惯了前端的人,一般切图后布局页面的话,上手最习惯的是基于盒子模型的浮动布局,依赖 display 属性 + p ...

  4. React报错之useNavigate() may be used only in context of Router

    正文从这开始~ 总览 当我们尝试在react router的Router上下文外部使用useNavigate 钩子时,会产生"useNavigate() may be used only i ...

  5. jsp获取多选框组件的值

    jsp获取多选框组件的值 1.首先写一个带有多选框的前台页 1 <%@ page language="java" contentType="text/html; c ...

  6. 【Azure 应用服务】在 App Service for Windows 中自定义 PHP 版本的方法

    问题描述 在App Service for Windows的环境中,当前只提供了PHP 7.4 版本的选择情况下,如何实现自定义PHP Runtime的版本呢? 如 PHP Version 8.1.9 ...

  7. .net core + eureka + spring boot 服务注册与调用

    .net core + eureka + spring boot 服务注册与简单的调用 假期小长假遇上疫情只能去家里蹲了,刚好有时间总结一下. 概述 微服务架构是当前比较火的分布式架构,本篇基于.ne ...

  8. .NET 反向代理-YARP

    什么是 YARP YARP (另一个反向代理) 设计为一个库,提供核心代理功能,你可以根据应用程序的特定需求进行自定义. YARP 是使用 .NET的基础架构构建在 .NET上的.YARP 的主要不同 ...

  9. Java 多线程:基础

    Java 多线程:基础 作者:Grey 原文地址: 博客园:Java 多线程:基础 CSDN:Java 多线程:基础 顺序.并行与并发 顺序(sequential)用于表示多个操作『依次』处理.比如把 ...

  10. SSTI服务端模板注入漏洞原理详解及利用姿势集锦

    目录 基本概念 模板引擎 SSTI Jinja2 Python基础 漏洞原理 代码复现 Payload解析 常规绕过姿势 其他Payload 过滤关键字 过滤中括号 过滤下划线 过滤点.(适用于Fla ...