一:背景

1. 讲故事

前些天有位朋友找到我,说他的程序内存异常高,用 vs诊断工具 加载时间又太久,让我帮忙看一下到底咋回事,截图如下:

确实,如果dump文件超过 10G 之后,市面上那些可视化工具分析起来会让你崩溃的,除了时间久之外这些工具大多也不是用懒加载的方式,比如 dotmemory 会把数据全部灌入内存,针对这种dump,你没个32G内存就不要分析了,这也是 windbg 在此类场景下的用武之地。

闲话不多说,朋友的dump到了,赶紧分析一波。

2. 到底是谁吃了内存

还是那句话,用 !address -summary 看下是托管内存还是非托管内存的问题。


0:000> !address -summary --- Usage Summary ---------------- RgnCount ----------- Total Size -------- %ofBusy %ofTotal
Free 366 7dbf`3e6cb000 ( 125.747 TB) 98.24%
<unknown> 5970 240`99b78000 ( 2.252 TB) 99.97% 1.76%
Stack 159 0`136a0000 ( 310.625 MB) 0.01% 0.00%
Image 1943 0`0a2e8000 ( 162.906 MB) 0.01% 0.00%
Heap 89 0`0a1e0000 ( 161.875 MB) 0.01% 0.00%
Other 12 0`001da000 ( 1.852 MB) 0.00% 0.00%
TEB 53 0`0006a000 ( 424.000 kB) 0.00% 0.00%
PEB 1 0`00001000 ( 4.000 kB) 0.00% 0.00% --- State Summary ---------------- RgnCount ----------- Total Size -------- %ofBusy %ofTotal
MEM_FREE 366 7dbf`3e6cb000 ( 125.747 TB) 98.24%
MEM_RESERVE 608 23d`fda87000 ( 2.242 TB) 99.52% 1.75%
MEM_COMMIT 7619 2`c3e9e000 ( 11.061 GB) 0.48% 0.01%

从卦中看 ntheap=161M,看样子是托管堆的问题了,继续使用 !eeheap -gc 看下托管堆。


0:000> !eeheap -gc
Number of GC Heaps: 8
------------------------------
Heap 0 (00000277134AD330)
Small object heap
segment begin allocated committed allocated size committed size
generation 0:
000002B727864BB0 00000279A4000020 00000279A43FFFD0 00000279A4400000 0x3fffb0(4194224) 0x400000(4194304)
000002B727869500 00000279BD800020 00000279BDBFFF70 00000279BDC00000 0x3fff50(4194128) 0x400000(4194304)
...
000002B727852950 000002793F000020 000002793F3FFFA0 000002793F400000 0x3fff80(4194176) 0x400000(4194304)
000002B727853080 0000027941800020 00000279419B6FA0 00000279419C1000 0x1b6f80(1798016) 0x1c1000(1839104)
Frozen object heap
segment begin allocated committed allocated size committed size
Large object heap
segment begin allocated committed allocated size committed size
000002B7277F53C0 0000027737800020 00000277378580A8 0000027737879000 0x58088(360584) 0x79000(495616)
Pinned object heap
segment begin allocated committed allocated size committed size
000002B7277F1480 0000027721800020 0000027721833A80 0000027721841000 0x33a60(211552) 0x41000(266240)
Allocated Heap Size: Size: 0x4e17d578 (1310184824) bytes.
Committed Heap Size: Size: 0x4effd000 (1325387776) bytes.
------------------------------
GC Allocated Heap Size: Size: 0x280020b18 (10737552152) bytes.
GC Committed Heap Size: Size: 0x28835f000 (10875170816) bytes.

我去,一下子刷了好几屏,从卦中可以看到内存占用高达 10G+, 往细处看都是 Small object heap 给吃掉了,既然是SOH堆,看样子都是热和着呢,潜台词就是他们的根很可能在线程栈里,经验之谈哈。

有了这些猜测,接下来观察下托管堆,看看谁的占比最大,使用 !dumpheap -stat 即可。


0:000> !dumpheap -stat
Statistics:
MT Count TotalSize Class Name
...
00007ffc41beaa68 4894 1732200 System.Object[]
00007ffc41fc0468 7058 2368001 System.Byte[]
00007ffc41dbf7b8 24209 2517736 System.Reflection.RuntimeMethodInfo
00007ffc43429178 3 536870984 xxxLogEntity[]
000002771340e900 46106634 1866065488 Free
00007ffc41c6fd10 55920839 2125832534 System.String
00007ffc42ddc0b8 50634021 6076082520 xxxxxxxLogEntity

不看不知道,一看吓一跳,这 xxxxxxLogEntity 对象居然高达 5063w,占据着 6G 的内存,那为什么会有这么多的对象呢?用 !gcroot 抽几个看看便知。


0:000> !dumpheap -mt 00007ffc42ddc0b8
Address MT Size
00000279a405b010 00007ffc42ddc0b8 120
...
00000279c31648a0 00007ffc42ddc0b8 120
00000279c3164968 00007ffc42ddc0b8 120
00000279c3164a30 00007ffc42ddc0b8 120
00000279c3164af8 00007ffc42ddc0b8 120
00000279c3164bc0 00007ffc42ddc0b8 120
00000279c3164c88 00007ffc42ddc0b8 120
00000279c3164d50 00007ffc42ddc0b8 120 0:000> !gcroot 00000279c3164d50
Thread a65c:
0000009BA592BD80 00007FFC458F99C8 xxx+<xxx>d__14.MoveNext()
rbx:
-> 0000027723C9B8F8 System.Collections.Generic.List`1[[xxx]]
-> 00000278F2000040 xxxxxxLogEntity[]
-> 00000279C3164D50 xxxxxxLogEntity Found 1 unique roots (run '!gcroot -all' to see all roots). 0:000> !do 0000027723C9B8F8
Name: System.Collections.Generic.List`1[[xxx]]
MethodTable: 00007ffc43024ec0
EEClass: 00007ffc41d956b0
Tracked Type: false
Size: 32(0x20) bytes
File: C:\Program Files\dotnet\shared\Microsoft.NETCore.App\7.0.4\System.Private.CoreLib.dll
Fields:
MT Field Offset Type VT Attr Value Name
00007ffc420fac80 4002149 8 System.__Canon[] 0 instance 00000278f2000040 _items
00007ffc41bee8d0 400214a 10 System.Int32 1 instance 50634020 _size
00007ffc41bee8d0 400214b 14 System.Int32 1 instance 50634020 _version
00007ffc420fac80 400214c 8 System.__Canon[] 0 static dynamic statics NYI

从卦象中可以看到,这 5063w 个对象都被这个 list 持有,更有意思的是果然被我猜到了,这个list的根在 a65c 这个线程里,接下来的问题是这个线程正在做什么?

3. a65c 线程正在做什么

要想看这个神秘线程正在做什么,可以用 ~ 命令切过去看看线程栈,看看哪一个方法在引用这个 list。


0:036> ~~[a65c]s
00007ffc`451fefe6 482bc2 sub rax,rdx 0:036> !clrstack -a
OS Thread Id: 0xa65c (36)
0000009BA592BD80 00007ffc458f99c8 xxxxBase+d__14.MoveNext()
PARAMETERS:
this (<CLR reg>) = 0x0000027723c515b8
LOCALS:
<no data>
<CLR reg> = 0x00000277287cd6d8
<no data>
<no data>
...
<no data>
<CLR reg> = 0x0000027723c9b8f8
<no data>

找到了是 xxxxBase+d__14.MoveNext 方法之后,接下来就需要仔细研读代码,终于找到了,写了一个死循环,真是无语了,截图如下:

终于真相大白,程序员误以为使用 dateTime.AddDays(1.0); 就可以修改 dateTime 的时间,犯了一个低级错误呀。

改成 dateTime=dateTime.AddDays(1.0); 即可。

三:总结

这次内存暴涨把生产服务器弄崩了,就是因为这么个 低级错误导致实属不应该,本以为程序员不会写出什么死循环,还真的遇到了,提高开发人员的代码敏感性迫在眉睫。

记一次 .NET 某餐饮小程序 内存暴涨分析的更多相关文章

  1. 记一次 .NET医疗布草API程序 内存暴涨分析

    一:背景 1. 讲故事 我在年前写过一篇关于CPU爆高的分析文章 再记一次 应用服务器 CPU 暴高事故分析 ,当时是给同济做项目升级,看过那篇文章的朋友应该知道,最后的结论是运维人员错误的将 IIS ...

  2. 微信小程序应用安全分析及设计

    针对微信关于小程序安全设计的分析 针对微信小程序开发配置及部分配置机制分析微信小程序安全设计: AppSecret 管理员生成AppSecret,在与微信后台交互过程中部分接口使用,如 auth.co ...

  3. 记一次基于 mpvue 的小程序开发及上线实战

    小程序名称:一起打车吧 项目地址: 客户端:https://github.com/jrainlau/taxi-together-client 服务端:https://github.com/jrainl ...

  4. 微信小程序开发常见问题分析

    距离微信小程序内测版发布已经有十几天的时间了,网上对微信小程序的讨论也异常火爆,从发布到现在微信小程序一直占领着各种技术论坛的头条,当然各种平台也对微信小程序有新闻报道,毕竟腾讯在国内影响力还是很大的 ...

  5. [微信小程序]初试——成绩分析小程序问题总结

    文件类型说明 第一次打开微信小程序的开发者工具,就是下面这个样子. 好多已经存在的默认文件 .js .json .wxml .wxss 首先当然要搞懂这些文件都是干什么的 app.js是小程序的脚本代 ...

  6. Linux下简单C语言小程序的反汇编分析

    韩洋原创作品转载请注明出处<Linux内核分析>MOOC课程http://mooc.study.163.com/course/USTC-1000029000 写在开始,本文为因为参加MOO ...

  7. 微信小程序跳转分析

    对于路由的触发方式以及页面生命周期函数如下: 路由方式 触发时机 路由前页面 路由后页面 初始化 小程序打开的第一个页面   onLoad, onShow 打开新页面 调用 API wx.naviga ...

  8. 记一次 .NET 某WMS仓储打单系统 内存暴涨分析

    一:背景 1. 讲故事 七月中旬有一位朋友加wx求助,他的程序在生产上跑着跑着内存就飙起来了,貌似没有回头的趋势,询问如何解决,截图如下: 和这位朋友聊下来,感觉像是自己在小县城当了个小老板,规律的生 ...

  9. 记一次 .NET 某电厂Web系统 内存泄漏分析

    一:背景 1. 讲故事 前段时间有位朋友找到我,说他的程序内存占用比较大,寻求如何解决,截图就不发了,分析下来我感觉除了程序本身的问题之外,.NET5 在内存管理方面做的也不够好,所以有必要给大家分享 ...

  10. 记一次 .NET 某工控软件 内存泄露分析

    一:背景 1.讲故事 上个月 .NET调试训练营 里的一位老朋友给我发了一个 8G 的dump文件,说他的程序内存泄露了,一时也没找出来是哪里的问题,让我帮忙看下到底是怎么回事,毕竟有了一些调试功底也 ...

随机推荐

  1. SQLLDR简介 和 Oracle插入大量数据

    SQLLDR简介 一.简介 SQLLOADER是ORACLE的数据加载工具,通常用来将操作系统文件(数据)迁移到ORACLE数据库中.SQLLOADER是大型数据仓库选择使用的加载方法,因为它提供了最 ...

  2. 高精度减法(模板yxc)

    #include <bits/stdc++.h> using namespace std; bool cmp(vector<int> &A, vector<int ...

  3. CHAT-GPT初使用

    拿chatgpt去试验了一下,一个挺小的需求,但是前后还是更改了三次,体验就是它可以不断改进之前实现的代码,但需要提需求的人比较清楚需求内的细节,差不多类似于,我有想法,它来实现,还是可以提高不少效率 ...

  4. 磐舟磐基平台:基于KubeEdge的落地实践

    摘要:实现统一管理.简化多集群的运维系统.减少运营成本:同时也成功将前面提到的500台鲲鹏服务器以及它上面的BC Linux for Euler集群纳入磐基PaaS平台的大家庭之中,运维效率大幅增加. ...

  5. Java 递归的小练习,累加、累乘、斐波那契兔子、文件递归

    递归的小练习, public static void main(String[] args) { System.out.println(sum(10)); System.out.println(mul ...

  6. 自动化SQL注入工具——Sqlmap

    Sqlmap – 简介 Sqlmap是一个自动化检测和利用SQL注入漏洞的免费开源工具 1.支持对多种数据库进行注入测试,能够自动识别数据库类型并注入 2.支持多种注入技术,并且能够自动探测使用合适的 ...

  7. 前端uni-app自定义精美全端复制文本插件,支持全端文本复制插件 可设置复制按钮颜色

    随着技术的发展,开发的复杂度也越来越高,传统开发方式将一个系统做成了整块应用,经常出现的情况就是一个小小的改动或者一个小功能的增加可能会引起整体逻辑的修改,造成牵一发而动全身. 通过组件化开发,可以有 ...

  8. Hexo博客Next主题建立标签云hexo-tag-cloud及效果展示

    hexo-tag-cloud插件介绍 hexo-tag-cloud插件是作者写的一个Hexo博客的标签云插件,旨在直观的展示标签的种类,美观大方且非常优雅. 插件地址: 插件的GitHub地址 插件说 ...

  9. adb如何做Android ui自动化(这一篇就够了)

    一.简介 我们都知道在做Android ui自动化的时候用的是appium,环境搭建贼难受.如果我们在工作中遇到需要实现简单的自动化功能,可以直接使用adb来完成,无需去搭建繁琐的appium.ADB ...

  10. JVM运行时数据区之堆空间

    JVM运行时数据区之堆空间 1.核心概述 一个JVM实例只存在一个堆内存,堆也是Java内存管理的核心区域.堆区在JVM 启动的时候即被创建,其空间大小也就确定了,是JVM管理的最大一块内存空间. & ...