前言

.NET8里面JIT引入了一个新的机制,叫做Non-GC Heap。JIT可以确保相关对象分配在Non-GC Heap上,该堆像其名称一样,不受GC管理。JIT需要保证这个对象没有被GC引用,并且在这个对象的生命周期内一直是根对象(不会被GC消灭的对象)的状态。原文:.NET8极致性能优化Non-GC Heap

概述

为什么要引入这种机制?先来看一段代码:

public static string GetPrefix() => "https://";
static void Main(string[] args)
{
GetPrefix ();
}

这里的GetPrefix函数返回的是一个常量字符串值,它的ASM如下:

mov  rax,185CAC02068h
mov rax,qword ptr [rax]

两个mov指令,第一个是对象指针的指针,第二个是对象的指针。虽然是简单的两个指令,但是背后的逻辑却较为复杂,基本如下:

一个字符串常量值,.NET7里面JIT也会给这个字符串常量值复制到一个堆分配到字符串对象中,返回的是对象的二级指针。因为是堆对象,可能会被GC移动,每次都需要获取新的地址,频繁增加负担。

这里的问题在哪儿呢?一个字符串常量值需要这么多的步骤操作吗?开销是否太大,我们是否可以简化它呢?有一个常规的很容易想到的方法,就是把这个字符串常量值的地址给它固定起来,每次需要用到这个常量值,就直接去这个固定地址读取,这样行不行呢?GC堆很明显不能硬编码固定。

当然可以,做法就是把这个字符串常量值放到POH(固定对象堆)上,不让GC移动。这样是减少了GC回收的时候移动的开销,但是并没有从根本上解决问题,因为固定对象同样受到GC的管控,上面的步骤除了不能移动一样不少,并且POH不会进行根对象的处理,可能会导致它们被回收,地址指向了其它的数据,进而错误。

特点

要彻底的解决这个问题,本篇的主角:Non-GC Heap出场了。它有三个特点:

1.JIT要保证这个对象没有被GC引用

2.这个对象在生命周期内一直是根对象

3.它不能是可卸载上下文的一部分

你可以认为GC堆包括:小对象堆(SOH-小于85000字节的对象),大对象堆(LOH-大于85000字节的对象),固定对象堆(POH)

而No-GC Heap超脱于GC Heap之外的FOH(冻结堆)。

JIT现在可以避免在生成的代码中访问该对象时的间接寻址,而是直接硬编码对象的地址

GetPrefix函数的ASM在.NET8 Non-GC Heap里面如下:

mov  rax,26180000218h
C3 ret

26180000218h为对象地址,一个mov直接返回。看似只简化了一个mov,但是实际上它这种硬编码固定模式地址,简化的是整个字符串常量值的原理,也就是把字符串常量值分配到FOH里面,而不是GC堆里。性能极大的提升自不必多说。以下测量13倍的性能提升。

Method Job Mean Ratio
GetPrefix .NET 7 1.3450 ns
GetPrefix .NET 8 0.0729 ns

其它Non-GC Heap的操作

一:使用typeof(T)生成的RuntimeType对象

public Type GetTestsType() => typeof(Tests);

二:空数组分配到Non-GC Heap上,使Array.Empty()更加高效

public string[] Test() => Array.Empty<string>();

它俩在.NET8里面都类似于如下ASM,一个mov直接返回:

mov rax,1A0814EAEA8
ret

三:静态值类型字段关联的堆对象,不包含任何GC引用的字段

public partial class Tests
{
private static readonly ConfigurationData s_config = ConfigurationData.ReadData();
public TimeSpan GetRefreshInterval() => s_config.RefreshInterval;
private struct ConfigurationData
{
public static ConfigurationData ReadData() => new ConfigurationData
{
Index = 0x12345,
Id = Guid.NewGuid(),
IsEnabled = true,
RefreshInterval = TimeSpan.FromSeconds(100)
};
public int Index;
public Guid Id;
public bool IsEnabled;
public TimeSpan RefreshInterval;
}
}

RefreshInterval .NET7如下:

mov       rax,13D84001F78
mov rax,[rax]
mov rax,[rax+20]
ret

RefreshInterval .NET8如下:

mov       rax,20D9853AE48
mov rax,[rax]
ret

四:代之间的GC引用判断

代码:

public class Tests
{
public void Write()
{
string dst = "old";
Write(ref dst, "new");
} [MethodImpl(MethodImplOptions.NoInlining)]
private static void Write(ref string dst, string s) => dst = s;
}

Write在.NET7和.NET8上生成如下:

call      CORINFO_HELP_CHECKED_ASSIGN_REF
nop
ret

CORINFO_HELP_CHECKED_ASSIGN_REF是一个JIT帮助程序函数,其中包含所谓的“GC write barrier (GC写屏障)”,一个小代码片段,用于让GC跟踪正在写入的引用,因为它可能需要知道,例如,因为正在分配的对象可能是gen0,而目标可能是gen2。

微调下这个代码:

public class Tests
{
public void Write()
{
string dst = "old";
Write(ref dst);
} [MethodImpl(MethodImplOptions.NoInlining)]
private static void Write(ref string dst) => dst = "new";
}

实现的功能都是一样的,只不过dst直接赋值了常量字符串,记得上面常量字符串的分配是在Non-GC Heap吗?.NET7里面还是需要帮助函数:

mov       rdx,1FF0E4014A0
mov rdx,[rdx]
call CORINFO_HELP_CHECKED_ASSIGN_REF
nop
ret

然.NET8里面则是

mov       rax,1B3814EAEC8
mov [rcx],rax
ret

因为.NET8意识到常量字符串是在Non-GC Heap,不需要GC跟踪判断在那个代码,类似于card_table那种。所以优化掉了CORINFO_HELP_CHECKED_ASSIGN_REF

结尾

作者:江湖评谈

欢迎关注公众号:jianghupt,文章首发,以及更多高阶内容分享。

.NET8极致性能优化Non-GC Heap的更多相关文章

  1. Java GC 专家系列5:Java应用性能优化的原则

    本文是GC专家系列中的第五篇.在第一篇理解Java垃圾回收中我们学习了几种不同的GC算法的处理过程,GC的工作方式,新生代与老年代的区别.所以,你应该已经了解了JDK 7中的5种GC类型,以及每种GC ...

  2. Java GC性能优化实战

    GC优化是必要的吗? 或者更准确地说,GC优化对Java基础服务来说是必要的吗?答案是否定的,事实上GC优化对Java基础服务来说在有些场合是可以省去的,但前提是这些正在运行的Java系统,必须包含以 ...

  3. 【转载】Java性能优化之JVM GC(垃圾回收机制)

    文章来源:https://zhuanlan.zhihu.com/p/25539690 Java的性能优化,整理出一篇文章,供以后温故知新. JVM GC(垃圾回收机制) 在学习Java GC 之前,我 ...

  4. Java性能优化之JVM GC(垃圾回收机制)

    Java的性能优化,整理出一篇文章,供以后温故知新. JVM GC(垃圾回收机制) 在学习Java GC 之前,我们需要记住一个单词:stop-the-world .它会在任何一种GC算法中发生.st ...

  5. JVM GC 机制与性能优化

    目录(?)[+] 1 背景介绍 与C/C++相比,JAVA并不要求我们去人为编写代码进行内存回收和垃圾清理.JAVA提供了垃圾回收器(garbage collector)来自动检测对象的作用域),可自 ...

  6. Android群英传笔记——第十章:Android性能优化

    Android群英传笔记--第十章:Android性能优化 随着Android应用增多,功能越来越复杂,布局也越来越丰富了,而这些也成为了阻碍一个应用流畅运行,因此,对复杂的功能进行性能优化是创造高质 ...

  7. Android应用性能优化(转)

    人类大脑与眼睛对一个画面的连贯性感知其实是有一个界限的,譬如我们看电影会觉得画面很自然连贯(帧率为24fps),用手机当然也需要感知屏幕操作的连贯性(尤其是动画过度),所以Android索性就把达到这 ...

  8. android 性能优化

    本章介绍android高级开发中,对于性能方面的处理.主要包括电量,视图,内存三个性能方面的知识点. 1.视图性能 (1)Overdraw简介 Overdraw就是过度绘制,是指在一帧的时间内(16. ...

  9. JVM内存模型和性能优化 转

    JVM内存模型和性能优化 JVM内存模型优点 内置基于内存的并发模型:      多线程机制 同步锁Synchronization 大量线程安全型库包支持 基于内存的并发机制,粒度灵活控制,灵活度高于 ...

  10. JVM内存模型和性能优化

    JVM内存模型优点 内置基于内存的并发模型:      多线程机制 同步锁Synchronization 大量线程安全型库包支持 基于内存的并发机制,粒度灵活控制,灵活度高于数据库锁. 多核并行计算模 ...

随机推荐

  1. python分割多个分隔符

    想一次指定多个分隔符,可以用re模块 import retext='3.14:15'result = re.split('[.:]', text)print(result) 输出结果如下: ['3', ...

  2. jenkins打包报错的排查思路与解决

    背景 废话少说, 在新建一个jenkins流水线时, 碰到了打包死活无法成功的问题, 相关配置如下图 运行后最后的日志如图 定位问题 通过查看日志, 发现报错的模块是构建后执行shell的时候, 但是 ...

  3. tensorflow.js 多分类,机器学习区分企鹅种类

    前言: 在规则编码中,我们常常会遇到需要通过多种区间判断某种物品分类.比如二手物品的定价,尽管不是新品没有 SKU 但是基本的参数是少不了.想通过成色来区分某种物品,其实主要是确定一些参数.然后根据参 ...

  4. [nginx]lua读取请求体

    前言 nginx默认不读取请求体的数据,但可以通过$request_body内置变量来获取.$request_body存在内存中,如果它的字节大小超过nginx配置的client_body_buffe ...

  5. 关于Openssh版本升级问题及版本升级到最新版8.7p1流程(CentOS7系统)

    前言: 对linux服务器做过漏洞扫描的都知道,常常服务器会被扫出一大堆关于openssh的漏洞,诸如下面这些,而其中的原因就是因为openssh版本比较低.于是就需要升级openssh的版本.下面就 ...

  6. 后缀数组C++详解

    后缀定义 "后缀i"代表以第i个字符开头的后缀,存储是用i代表字符串s的后缀s[i...n] 后缀数组是什么? 后缀数组(Suffix Array)主要关系到两个数组:sa 和 r ...

  7. Python 潮流周刊#16:优雅重要么?如何写出 Pythonic 的代码?

    你好,我是猫哥.这里每周分享优质的 Python.AI 及通用技术内容,大部分为英文.标题取自其中两则分享,不代表全部内容都是该主题,特此声明. 本周刊由 Python猫 出品,精心筛选国内外的 25 ...

  8. 《SQL与数据库基础》16. 锁

    目录 锁 全局锁 表级锁 表锁 元数据锁 意向锁 行级锁 行锁 间隙锁 临键锁 本文以 MySQL 为例 锁 锁是计算机协调多个进程或线程并发访问某一资源的机制.在数据库中,除传统的计算资源(CPU. ...

  9. Remix-Ethereum IDE连接本地详解

    Remix-Ethereum IDE连接本地 ​ 由于在学习和做项目的过程中,很多人用的都是网页版的Remix,而在网页中的代码是存储在缓存中的,在使用过程中容易丢失,所以将Remix与本地文件连接起 ...

  10. C#应用程序的多语言方案 - 开源研究系列文章

    今天讲讲笔者自创的C#应用程序多语言的方案. 这个多语言方案,主要是对应用的窗体及其控件进行检索,然后根据控件的名称进行在语言字典里进行检索获取到对应的语言文本进行赋值显示的.笔者对网上的多语言方案进 ...