记一次 .NET 某RFID标签管理系统 CPU 暴涨分析
一:背景
1. 讲故事
前段时间有位朋友说他的程序 CPU 出现了暴涨现象,由于程序是买来的,所以问题就比较棘手了,那既然找到我,就想办法帮朋友找出来吧,分析下来,问题比较经典,有必要和大家做一下分享。
二:WinDbg 分析
1. CPU 真的爆高吗
一直关注这个系列的朋友应该知道,用 !tp 验证即可。
0:161> !tp
CPU utilization: 81%
Worker Thread: Total: 486 Running: 486 Idle: 0 MaxLimit: 8191 MinLimit: 24
Work Request in Queue: 0
--------------------------------------
Number of Timers: 1
--------------------------------------
Completion Port Thread:Total: 6 Free: 1 MaxFree: 48 CurrentLimit: 6 MaxLimit: 1000 MinLimit: 24
果然 CPU =81% ,并且当前的 481 个工作线程全部打满,以经验看可能是遇到锁什么的,不过还是先从是否触发 GC 看起。
2. 是触发 GC 了吗?
要查看是否触发 GC,可以用 !t -special 看看是否有 SuspendEE 字样。
0:161> !t -special
ThreadCount: 604
UnstartedThread: 0
BackgroundThread: 587
PendingThread: 0
DeadThread: 11
Hosted Runtime: no
OSID Special thread type
29 2e74 DbgHelper
30 1014 GC SuspendEE
31 4a84 GC
32 4a48 GC
...
52 37c0 GC
53 47a0 GC
54 4620 Finalizer
55 1aa4 ProfilingAPIAttach
...
从卦中看,30号线程果然挂了 SuspendEE,并且还是一个 GC 线程,接下来切过去看看此时 GC 正在做什么?
0:161> ~~[1014]s
eax=00000000 ebx=0724fc10 ecx=00000000 edx=00000000 esi=00000000 edi=0724fc10
eip=77ddf02c esp=0724fbd0 ebp=0724fc34 iopl=0 nv up ei pl nz ac po nc
cs=0023 ss=002b ds=002b es=002b fs=0053 gs=002b efl=00000212
ntdll!NtDelayExecution+0xc:
77ddf02c c20800 ret 8
0:030> k
# ChildEBP RetAddr
00 0724fc34 758345da ntdll!NtDelayExecution+0xc
01 0724fc34 738a74eb KERNELBASE!SleepEx+0x8a
02 0724fc78 73a0f710 clr!EESleepEx+0x59
03 0724fc78 73a0f809 clr!SVR::gc_heap::mark_steal+0x27c
04 0724fcd0 73a17930 clr!SVR::gc_heap::mark_phase+0x3d0
05 0724fd0c 73a17dc9 clr!SVR::gc_heap::gc1+0xf2
06 0724fd5c 73a174a1 clr!SVR::gc_heap::garbage_collect+0x746
07 0724fd78 73a10d7e clr!SVR::gc_heap::gc_thread_function+0x14a
08 0724fd98 73a10d0f clr!SVR::gc_heap::gc_thread_stub+0x72
09 0724fdac 750e62c4 clr!GCThreadStub+0x1f
0a 0724fdc0 77dd1f69 kernel32!BaseThreadInitThunk+0x24
0b 0724fe08 77dd1f34 ntdll!__RtlUserThreadStart+0x2f
0c 0724fe18 00000000 ntdll!_RtlUserThreadStart+0x1b
从卦中的 gc_thread_function 函数看,这是一个阻塞版的 GC 线程,当前正处于 mark_phase 标记阶段,并且还在抢其他 GC 线程的活,有点意思。。。
既然是触发了 GC ,那就看下触发了哪一代以及什么原因触发的。
0:030> x clr!*gc_heap::settings*
73f15da8 clr!WKS::gc_heap::settings = <no type information>
73f13520 clr!SVR::gc_heap::settings = <no type information>
0:030> dp 73f13520
73f13520 00002df0 00000002 00000001 00000001
73f13530 00000000 00000000 00000000 00000000
73f13540 00000000 00000000 00000000 00000000
73f13550 00000000 00000000 00000005 00000001
73f13560 00000000 00000000 00000000 00000001
73f13570 00000000 0000005a 00000000 00000001
73f13580 05f71b40 86b2ee2e 00040000 00000001
73f13590 00000002 00002000 00000002 00000000
从卦中的 00000002 和 00000005 可知,当前触发的是 2代 GC,原因是 5,那 5 是什么意思? 可以看下 clr 中的 gc_reason 即可。
enum gc_reason
{
reason_alloc_soh = 0,
reason_induced = 1,
reason_lowmemory = 2,
reason_empty = 3,
reason_alloc_loh = 4,
reason_oos_soh = 5,
reason_oos_loh = 6,
reason_induced_noforce = 7, // it's an induced GC and doesn't have to be blocking.
reason_gcstress = 8, // this turns into reason_induced & gc_mechanisms.stress_induced = true
reason_lowmemory_blocking = 9,
reason_induced_compacting = 10,
reason_lowmemory_host = 11,
reason_pm_full_gc = 12, // provisional mode requested to trigger full GC
reason_lowmemory_host_blocking = 13,
reason_bgc_tuning_soh = 14,
reason_bgc_tuning_loh = 15,
reason_bgc_stepping = 16,
reason_max
};
也就是上面的 reason_oos_soh,表示当前的小对象堆中的段空间满了,那是不是呢? 可以用 !eeheap -gc 看下托管堆。
0:030> !eeheap -gc
Number of GC Heaps: 24
------------------------------
Heap 0 (06d00138)
generation 0 starts at 0xe8a380ec
generation 1 starts at 0xe8a380e0
generation 2 starts at 0x07311000
ephemeral segment allocation context: (0xe8a380f8, 0xe8a38104)
segment begin allocated size
07310000 07311000 0830fd5c 0xffed5c(16772444)
a86a0000 a86a1000 a969fd10 0xffed10(16772368)
e8a10000 e8a11000 e8a380f8 0x270f8(159992)
Large object heap starts at 0x1f311000
segment begin allocated size
1f310000 1f311000 1f4cafb0 0x1b9fb0(1810352)
Heap Size: Size: 0x21deb14 (35515156) bytes.
------------------------------
...
Heap 22 (06d76910)
generation 0 starts at 0xbfd5d228
generation 1 starts at 0xbfd5ce20
generation 2 starts at 0x1d311000
ephemeral segment allocation context: (0xbfd5d234, 0xbfd5d240)
segment begin allocated size
1d310000 1d311000 1e30fe64 0xffee64(16772708)
bed60000 bed61000 bfd5d234 0xffc234(16761396)
Large object heap starts at 0x2a311000
segment begin allocated size
2a310000 2a311000 2a311010 0x10(16)
Heap Size: Size: 0x1ffb0a8 (33534120) bytes.
...
------------------------------
GC Heap Size: Size: 0x2f6f6d18 (795831576) bytes.
可以看到,heap 上很多都是 segment=16M 打满状态,停。。。为什么 segment 只有 16M ,出现了一个重大线索。
3. 重大线索解读
一个 Server 版的 GC,拥有高达 24 个逻辑核,居然只有 16M 的 segment,这么小的 segment,很容易被一些快进快出的大内存操作给打满,也就更容易造成 GC 触发,而且还是 Full GC,版本信息如下:
0:030> !eeversion
4.7.3416.0 retail
Server mode with 24 gc heaps
SOS Version: 4.7.3416.0 retail build
接下来到线程栈上找找有没有快进快出的大内存操作。
4. 寻找大内存操作
既然有快进快出的操作,在 GC 触发时肯定还会躺在 托管堆 上,我们就从这里入手。
0:030> !dumpheap -stat
Statistics:
MT Count TotalSize Class Name
...
06cd1750 638727 15899642 Free
30361270 171401 19196912 xxxx.Entities.ProductInventoryLog
30360f90 537090 32225400 xxxx.Entities.ProductInventoryEpcDetail
30f9a148 171404 67875600 System.Data.Entity.Core.Objects.StateManagerValue[]
3036074c 694875 97282500 xxxx.Entities.ProductBorrow
727efd60 8419815 394836372 System.String
Total 14577631 objects
Fragmented blocks larger than 0.5 MB:
Addr Size Followed by
9b0bf500 0.5MB 9b141878 System.Byte[]
从托管堆看,有不少的类对象,接下来抽一个 xxxx.Entities.ProductInventoryEpcDetail 看下引用,然后查根对象的 size。
0:161> !gcroot a8780ecc
Thread 40b8:
df90d330 715d143a System.Linq.Enumerable+<JoinIterator>d__38`4[[System.__Canon, mscorlib],[System.__Canon, mscorlib],[System.__Canon, mscorlib],[System.__Canon, mscorlib]].MoveNext()
esi:
-> 090eeba4 System.Linq.Enumerable+<JoinIterator>d__38`4[]
...
-> a8780e80 xxxx.Entities.ProductInventoryEpcDetail[]
-> a8780ecc xxxx.Entities.ProductInventoryEpcDetail
Found 1 unique roots (run '!GCRoot -all' to see all roots).
其实这个引用链特别长,用 !objsize 090eeba4 显示对象大小,一直都是卡住中,size 肯定不小, 接下来我们切入到 40b8 看下这个方法,可以发现一个非常复杂的 EF 写法,又是 outer,又是 inner,又要再关联,截图如下:
到这里大对象操作终于找到了,我发现还有其他方法也有一些 EF 复杂操作,就不一一列举了。
三:总结
这个 dump 给我们两个教训:
当 sql 很复杂时,千万不要用 EF 去写,这中间会产生多少个临时对象你真的搞不清楚,你也hold不住,建议直接改成 sql,简单粗暴。
程序尽量用 64bit 部署,否则你的 segment 会太小,太容易让 GC 上头了。

记一次 .NET 某RFID标签管理系统 CPU 暴涨分析的更多相关文章
- 记一次 .NET WPF布草管理系统 挂死分析
一:背景 1. 讲故事 这几天看的 dump 有点多,有点伤神伤脑,晚上做梦都是dump,今天早上头晕晕的到公司就听到背后同事抱怨他负责的WPF程序挂死了,然后测试的小姑娘也跟着抱怨...嗨,也不知道 ...
- 记一次 .NET游戏站程序的 CPU 爆高分析
一:背景 1. 讲故事 上个月有个老朋友找到我,说他的站点晚高峰 CPU 会突然爆高,发了两份 dump 文件过来,如下图: 又是经典的 CPU 爆高问题,到目前为止,对这种我还是有一些经验可循的. ...
- 记一次 .NET 某医院HIS系统 CPU爆高分析
一:背景 1. 讲故事 前几天有位朋友加 wx 抱怨他的程序在高峰期总是莫名其妙的cpu爆高,求助如何分析? 和这位朋友沟通下来,据说这问题困扰了他们几年,还请了微软的工程师过来解决,无疾而终,应该还 ...
- 记一次 .NET 某旅行社Web站 CPU爆高分析
一:背景 1. 讲故事 前几天有位朋友wx求助,它的程序内存经常飙升,cpu 偶尔飙升,没找到原因,希望帮忙看一下. 可惜发过来的 dump 只有区区2G,能在这里面找到内存泄漏那真有两把刷子..., ...
- 记一次 .NET 某电商交易平台Web站 CPU爆高分析
一:背景 1. 讲故事 已经连续写了几篇关于内存暴涨的真实案例,有点麻木了,这篇换个口味,分享一个 CPU爆高 的案例,前段时间有位朋友在 wx 上找到我,说他的一个老项目经常收到 CPU > ...
- RFID标签
定义: RFID无线射频识别是一种非接触式的自动识别技术,它通过射频信号自动识别目标对象并获取相关数据,识别工作无须人工干预,可工作于各种恶劣环境.RFID技术可识别高速运动物体并可同时识别多个电子标 ...
- RFID标签天线的三种制作方法
在RFID标签中,天线层是主要的功能层,其目标是传输最大的能量进出标签芯片.RFID天线是按照射频识别所要求的功能而设计的电子线路,将导电银浆或导电碳浆网印在PVC.PC或PET上,再与面层.保护层和 ...
- BarTender 通过ZPL命令操作打印机打印条码, 操作RFID标签
注: 由于工作需要, 也是第一次接触到打印机的相关内容, 凑巧, 通过找了很多资料和帮助后, 也顺利的解决了打印标签的问题 (标签的表面信息[二维码,条形码, 文字] 和 RFID标签的EPC写 ...
- 【转】安全加密(三):RFID标签防伪为生活开启安全模式
本文导读 随着RFID技术的快速发展和RFID电子标签的生产成本不断降低,RFID标签防伪技术的应用也得到了极大的普及,逐步出现在各行各业当中,如交通出行.票务安全.商品防伪等领域. RFID技术简介 ...
随机推荐
- learnByWork
2019.5.5(移动端页面) 1.页面的整体框架大小min-width: 300px~max-width: 560px: 2.具体大小单位用px: 3.网页布局用div不是table,在特殊情况,如 ...
- MySQL 的 EXPLAIN 语句及用法
在MySQL中 DESCRIBE 和 EXPLAIN 语句是相同的意思.DESCRIBE 语句多用于获取表结构,而 EXPLAIN 语句用于获取查询执行计划(用于解释MySQL如何执行查询语句). 通 ...
- 透过实例demo带你认识gRPC
摘要:gRPC是基于定义一个服务,指定一个可以远程调用的带有参数和返回类型的的方法.在服务端,服务实现这个接口并且运行gRPC服务处理客户端调用. 本文分享自华为云社区<gRPC介绍以及spri ...
- Helloworld 驱动模块加载
介绍 本文引用<linux设备驱动开发>书中部分解释,记录开篇第一章helloworld程序 以下内容需要掌握如下基础信息linux模块概念.链接编译.c语言基础 内容 helloworl ...
- MyBatis 结果映射总结
前言 结果映射指的是将数据表中的字段与实体类中的属性关联起来,这样 MyBatis 就可以根据查询到的数据来填充实体对象的属性,帮助我们完成赋值操作.其实 MyBatis 的官方文档对映射规则的讲解还 ...
- git指令使用
仓库为空,本地创建git项目之后提交到仓库中1.创建项目文件夹(本地git仓库)2.在项目文件夹中右键:选择Git Bash3.初始化项目:git init -- 会出现一个.git的隐藏文件夹4.将 ...
- CF1681F Unique Occurrences
题意:一棵树,问每条路径上只出现一次的值的个数的和. 思路: 显然想到考虑边贡献.每条边权下放到下面的哪个点.\(up_i\)为上面第一个点权等于它的点.我们需要一个子树内点权等于它的点(如果满足祖孙 ...
- 树形dp基础
今天来给大家讲一下数形dp基础 树形dp常与树上问题(lca.直径.重心)结合起来 而这里只讲最最基础的树上dp 1.选课 题目描述 在大学里每个学生,为了达到一定的学分,必须从很多课程里选择一些课程 ...
- 「ABC 249Ex」Dye Color
考虑停时定理. 初始势能为 \(\sum \Phi(cnt_i)\),末势能为 \(\Phi(n)\),我们希望构造这样一个 \(\Phi:Z\to Z\) 函数,使得每一次操作期望势能变化量为常数. ...
- Go微服务框架go-kratos实战01:quickstart 快速开始
先来感受下用 kratos 快速创建项目 一.环境准备 1.1 安装依赖软件 protoc protoc-gen-go 建议开启 GO111MODULE 1.2 安装 kratos cli go in ...