前言

.NET8里面JIT引入了一个新的机制,叫做Non-GC Heap。JIT可以确保相关对象分配在Non-GC Heap上,该堆像其名称一样,不受GC管理。JIT需要保证这个对象没有被GC引用,并且在这个对象的生命周期内一直是根对象(不会被GC消灭的对象)的状态。原文:.NET8极致性能优化Non-GC Heap

概述

为什么要引入这种机制?先来看一段代码:

public static string GetPrefix() => "https://";
static void Main(string[] args)
{
GetPrefix ();
}

这里的GetPrefix函数返回的是一个常量字符串值,它的ASM如下:

mov  rax,185CAC02068h
mov rax,qword ptr [rax]

两个mov指令,第一个是对象指针的指针,第二个是对象的指针。虽然是简单的两个指令,但是背后的逻辑却较为复杂,基本如下:

一个字符串常量值,.NET7里面JIT也会给这个字符串常量值复制到一个堆分配到字符串对象中,返回的是对象的二级指针。因为是堆对象,可能会被GC移动,每次都需要获取新的地址,频繁增加负担。

这里的问题在哪儿呢?一个字符串常量值需要这么多的步骤操作吗?开销是否太大,我们是否可以简化它呢?有一个常规的很容易想到的方法,就是把这个字符串常量值的地址给它固定起来,每次需要用到这个常量值,就直接去这个固定地址读取,这样行不行呢?GC堆很明显不能硬编码固定。

当然可以,做法就是把这个字符串常量值放到POH(固定对象堆)上,不让GC移动。这样是减少了GC回收的时候移动的开销,但是并没有从根本上解决问题,因为固定对象同样受到GC的管控,上面的步骤除了不能移动一样不少,并且POH不会进行根对象的处理,可能会导致它们被回收,地址指向了其它的数据,进而错误。

特点

要彻底的解决这个问题,本篇的主角:Non-GC Heap出场了。它有三个特点:

1.JIT要保证这个对象没有被GC引用

2.这个对象在生命周期内一直是根对象

3.它不能是可卸载上下文的一部分

你可以认为GC堆包括:小对象堆(SOH-小于85000字节的对象),大对象堆(LOH-大于85000字节的对象),固定对象堆(POH)

而No-GC Heap超脱于GC Heap之外的FOH(冻结堆)。

JIT现在可以避免在生成的代码中访问该对象时的间接寻址,而是直接硬编码对象的地址

GetPrefix函数的ASM在.NET8 Non-GC Heap里面如下:

mov  rax,26180000218h
C3 ret

26180000218h为对象地址,一个mov直接返回。看似只简化了一个mov,但是实际上它这种硬编码固定模式地址,简化的是整个字符串常量值的原理,也就是把字符串常量值分配到FOH里面,而不是GC堆里。性能极大的提升自不必多说。以下测量13倍的性能提升。

Method Job Mean Ratio
GetPrefix .NET 7 1.3450 ns
GetPrefix .NET 8 0.0729 ns

其它Non-GC Heap的操作

一:使用typeof(T)生成的RuntimeType对象

public Type GetTestsType() => typeof(Tests);

二:空数组分配到Non-GC Heap上,使Array.Empty()更加高效

public string[] Test() => Array.Empty<string>();

它俩在.NET8里面都类似于如下ASM,一个mov直接返回:

mov rax,1A0814EAEA8
ret

三:静态值类型字段关联的堆对象,不包含任何GC引用的字段

public partial class Tests
{
private static readonly ConfigurationData s_config = ConfigurationData.ReadData();
public TimeSpan GetRefreshInterval() => s_config.RefreshInterval;
private struct ConfigurationData
{
public static ConfigurationData ReadData() => new ConfigurationData
{
Index = 0x12345,
Id = Guid.NewGuid(),
IsEnabled = true,
RefreshInterval = TimeSpan.FromSeconds(100)
};
public int Index;
public Guid Id;
public bool IsEnabled;
public TimeSpan RefreshInterval;
}
}

RefreshInterval .NET7如下:

mov       rax,13D84001F78
mov rax,[rax]
mov rax,[rax+20]
ret

RefreshInterval .NET8如下:

mov       rax,20D9853AE48
mov rax,[rax]
ret

四:代之间的GC引用判断

代码:

public class Tests
{
public void Write()
{
string dst = "old";
Write(ref dst, "new");
} [MethodImpl(MethodImplOptions.NoInlining)]
private static void Write(ref string dst, string s) => dst = s;
}

Write在.NET7和.NET8上生成如下:

call      CORINFO_HELP_CHECKED_ASSIGN_REF
nop
ret

CORINFO_HELP_CHECKED_ASSIGN_REF是一个JIT帮助程序函数,其中包含所谓的“GC write barrier (GC写屏障)”,一个小代码片段,用于让GC跟踪正在写入的引用,因为它可能需要知道,例如,因为正在分配的对象可能是gen0,而目标可能是gen2。

微调下这个代码:

public class Tests
{
public void Write()
{
string dst = "old";
Write(ref dst);
} [MethodImpl(MethodImplOptions.NoInlining)]
private static void Write(ref string dst) => dst = "new";
}

实现的功能都是一样的,只不过dst直接赋值了常量字符串,记得上面常量字符串的分配是在Non-GC Heap吗?.NET7里面还是需要帮助函数:

mov       rdx,1FF0E4014A0
mov rdx,[rdx]
call CORINFO_HELP_CHECKED_ASSIGN_REF
nop
ret

然.NET8里面则是

mov       rax,1B3814EAEC8
mov [rcx],rax
ret

因为.NET8意识到常量字符串是在Non-GC Heap,不需要GC跟踪判断在那个代码,类似于card_table那种。所以优化掉了CORINFO_HELP_CHECKED_ASSIGN_REF

结尾

作者:江湖评谈

欢迎关注公众号:jianghupt,文章首发,以及更多高阶内容分享。

.NET8极致性能优化Non-GC Heap的更多相关文章

  1. Java GC 专家系列5:Java应用性能优化的原则

    本文是GC专家系列中的第五篇.在第一篇理解Java垃圾回收中我们学习了几种不同的GC算法的处理过程,GC的工作方式,新生代与老年代的区别.所以,你应该已经了解了JDK 7中的5种GC类型,以及每种GC ...

  2. Java GC性能优化实战

    GC优化是必要的吗? 或者更准确地说,GC优化对Java基础服务来说是必要的吗?答案是否定的,事实上GC优化对Java基础服务来说在有些场合是可以省去的,但前提是这些正在运行的Java系统,必须包含以 ...

  3. 【转载】Java性能优化之JVM GC(垃圾回收机制)

    文章来源:https://zhuanlan.zhihu.com/p/25539690 Java的性能优化,整理出一篇文章,供以后温故知新. JVM GC(垃圾回收机制) 在学习Java GC 之前,我 ...

  4. Java性能优化之JVM GC(垃圾回收机制)

    Java的性能优化,整理出一篇文章,供以后温故知新. JVM GC(垃圾回收机制) 在学习Java GC 之前,我们需要记住一个单词:stop-the-world .它会在任何一种GC算法中发生.st ...

  5. JVM GC 机制与性能优化

    目录(?)[+] 1 背景介绍 与C/C++相比,JAVA并不要求我们去人为编写代码进行内存回收和垃圾清理.JAVA提供了垃圾回收器(garbage collector)来自动检测对象的作用域),可自 ...

  6. Android群英传笔记——第十章:Android性能优化

    Android群英传笔记--第十章:Android性能优化 随着Android应用增多,功能越来越复杂,布局也越来越丰富了,而这些也成为了阻碍一个应用流畅运行,因此,对复杂的功能进行性能优化是创造高质 ...

  7. Android应用性能优化(转)

    人类大脑与眼睛对一个画面的连贯性感知其实是有一个界限的,譬如我们看电影会觉得画面很自然连贯(帧率为24fps),用手机当然也需要感知屏幕操作的连贯性(尤其是动画过度),所以Android索性就把达到这 ...

  8. android 性能优化

    本章介绍android高级开发中,对于性能方面的处理.主要包括电量,视图,内存三个性能方面的知识点. 1.视图性能 (1)Overdraw简介 Overdraw就是过度绘制,是指在一帧的时间内(16. ...

  9. JVM内存模型和性能优化 转

    JVM内存模型和性能优化 JVM内存模型优点 内置基于内存的并发模型:      多线程机制 同步锁Synchronization 大量线程安全型库包支持 基于内存的并发机制,粒度灵活控制,灵活度高于 ...

  10. JVM内存模型和性能优化

    JVM内存模型优点 内置基于内存的并发模型:      多线程机制 同步锁Synchronization 大量线程安全型库包支持 基于内存的并发机制,粒度灵活控制,灵活度高于数据库锁. 多核并行计算模 ...

随机推荐

  1. 如何用IoT边缘连接器实现云端应用控制PLC?

    本文分享自华为云社区<数字工厂深入浅出系列(十):IoT边缘连接器实现云端应用控制PLC>,作者: 云起MAE. 通过IoT云平台和边缘计算的技术设施,工厂可以将PLC等OT过程制造控制器 ...

  2. Python实现输入三个整数x,y,z,请把这三个数由小到大输出;

    num1=input('请输入第一个数,x:') num2=input('请输入第二个数,y:') num3=input('请输入第三个数,z:') if num1>num2: # if 语句判 ...

  3. 文心一言 VS 讯飞星火 VS chatgpt (75)-- 算法导论7.2 4题

    四.如果用go语言,银行一般会按照交易时间来记录某一账户的交易情况.但是,很多人却喜欢收到的银行对账单是按照支票号码的顺序来排列的.这是因为,人们通常都是按照支票号码的顺序来开出支票的,而商人也通常都 ...

  4. 如何在linux上安装neovim0.9(以debian和ubuntu为例) – 东凭渭水流

    发布于 1 分钟前  3 次阅读 由于apt中只有neovim-0.72的安装包.想使用新版需要自己安装,以下是安装过程 1.首先需要卸载旧版neovim sudo remove neovim 2.从 ...

  5. ETL之apache hop系列2-hop web安装和入门

    前言 在Docker安装apache hop 首先确保Docker已经安装和运行Java 11 JDK 安装文档参考:https://blog.csdn.net/Chia_Hung_Yeh/artic ...

  6. python如何提取浏览器中保存的网站登录用户名密码

    python如何提取Chrome中的保存的网站登录用户名密码? 很多浏览器都贴心地提供了保存用户密码功能,用户一旦开启,就不需要每次都输入用户名.密码,非常方便.作为python脚本,能否拿到用户提前 ...

  7. Linux 内核设备树时钟绑定

    这种绑定依然处于开发中,并且基于 benh[1] 的一些实验性工作. 时钟信号源可以由设备树中的任何节点表示.这些节点被指定为时钟提供者.时钟消费者节点使用 phandle 和时钟指示符对将时钟提供者 ...

  8. 用OLED屏幕播放视频(2): 为OLED屏幕开发I2C驱动

    下面的系列文章记录了如何使用一块linux开发扳和一块OLED屏幕实现视频的播放: 项目介绍 为OLED屏幕开发I2C驱动 使用cuda编程加速视频处理 这是此系列文章的第2篇, 主要总结和记录一个I ...

  9. Visual Studio 2022 Preview 3和2019 16.11发布

    Visual Studio 2022 Preview 3 主要特点 个人和团队生产力 附加到进程改进 新项目设计器 黑暗主题提升 开发现代应用 远程测试 新的JavaScript和TypeScript ...

  10. Teamcenter RAC 开发之《AbstractRendering》

    背景 关于Teamcenter RAC 客制化渲染表单,做一两个有时间做还是可以的,问题是大批量做的时候就会存在很多重复的代码 例如: 1.定义很多 TCProperty,JTextFiled,ite ...