本文转载自Java对象内存布局

导语

首先直接抛出问题

Unsafe.getInt(obj, fieldOffset)中的fieldOffset是什么, 类似还有compareAndSwapX(obj, fieldOffset, oldValue, newValue)?
如何实现原子读, 原子写的
Java反射是怎么实现
Java synchronized锁是如何实现

要解答这些问题, 需要了解Java对象内存布局

Java对象内存布局

主要分为对象头和实例数据2部分

对象头又分成Mark Word和Class Metadata Pointer2部分

实例数据就是对象里定义的Field列表, 顺序并非严格按照源码里声明的顺序(但有一定的规则), Unit的起始位置相对于对象的位置就是字段的偏移量, 字段的偏移量需要满足内存对齐的要求

普通对象的内存整体布局

+-------------+------------------+

|             |     Mark Word    |

| Object Head +------------------+

|             | Metadata Pointer |

+-------------+------------------+

|             |       Unit       |

|  Instance   +------------------+

|             |       ...        |

|   Data      +------------------+

|             |       Unit       |

+-------------+------------------+

数组对象的内存布局

+-------------+------------------+

|             |     Mark Word    |

|             +------------------+

| Object Head | Metadata Pointer |

|             +------------------+

|             |   array length   |

+-------------+------------------+

|             |       Unit       |

|  Instance   +------------------+

|             |       ...        |

|   Data      +------------------+

|             |       Unit       |

+-------------+------------------+

下面逐一介绍每部分的结构及作用

Mark Word

任何Java对象都有此部分信息及内存消耗, 这部分归JVM管理,JDK层面无API修改此部分数据

这里主要记录对象锁信息和GC标记, 32bit虚拟机与64位虚拟机给Mark Word区域分配的空间分为是32bit和64bit

但为了最大效率使用这部分空间, Mark Word的结构是非固定的

比如在32bit虚拟机中, 对于无锁态类型的对象, 其中25位用来存储hashcode;

而在偏向锁类型的对象中, 23bit用来记录当前获取锁的线程ID

32bit的JDK结构如下:

+--------+-----------------------+-------+----------+------------------+--------------+

| 锁状态 |         23bit         |  2bit |   4bit   | 1bit(是否偏向锁) | 2bit(锁标志) |

+--------+-----------------------+-------+----------+------------------+--------------+

| 无锁态 |        对象的Hascode          | 分代年龄 |        0         |      01      |

+--------+-------------------------------+----------+------------------+--------------+

|轻量级锁|                   指向栈中锁记录的指针                      |      00      |

+--------+-------------------------------------------------------------+--------------+

|重量级锁|                 指向互斥量(重量级锁)的指针                  |      10      |

+--------+-------------------------------------------------------------+--------------+

| GC标记 |                              空                             |      11      |

+--------+-------------------------------------------------------------+--------------+

| 偏向锁 |     线程ID            | Epoch | 分代年龄 |        1         |      01      |

+--------|-----------------------+-------+----------+------------------+--------------+

Java中任何对象都可以用来做锁, synchronized关键字底层实现原理跟Mark Word相关

在JDK1.6之前, synchronized实现的锁是重量级, 性能较差(锁状态切换,涉及OS的线程在用户态与系统态之间切换)

在1.6之后, 针对各种场景进行优化, 如偏向锁, 轻量级锁(自旋锁), synchronized的性能也有了很大提升, 并且synchronized的使用比Lock要简单安全, 所以JDK推荐优先使用synchronized; 并且由于synchronized语义比较明确, 后续还有优化的空间

由于本文重点不在说明synchronized的实现原理, 想了解更多可以参考zejian大神的这篇文章深入理解Java并发之synchronized实现原理, 附上一张大神绘制的图以表敬意

Class Metadata Pointer

主要是获取对象的一些元信息, 比如类名, 包名, 字段列表, 方法列表等等

Instance Data

这里就是每个对象实例数据, 具体点就是对象里每个字段的值或数组对象里每个元素的值; 既然有值就一定会有类型, 在Java里数据类型分为基本类型与引用类型

数据类型

对于基本类型, 每种类型的占用空间大小如下, 单位B

+------+---------+-------+------+-----+-------+------+--------+

| byte | boolean | short | char | int | float | long | double |

+------+---------+-------+------+-----+-------+------+--------+

|  1   |    1    |   2   |   2  |  4  |   4   |   8  |    8   |

+------+---------+-------+------+-----+-------+------+--------+

而对于Reference类型, 一般跟OS的位数相同, 在64bit的操作系统上, 就是64位长度, 也就8B, 同理在32bit的虚拟机里就是4B; 这样对于有些从32位虚拟机移植过来的程序, 可能内存开销增加了50%以上;

所以Java提供了一个启动参数用来设置Reference的大小, 也就是内存地址压缩, 默认是开启压缩的; 注意: 地址压缩只是针对64位虚拟机的引用类型的优化

开启参数

-XX:+UseCompressedOops

关闭参数

-XX:-UseCompressedOops

差别就在那个+和-

内存对齐

内存对齐是提升程序性能的关键, 具体原因可以参考文章后面的附录, 也可以自行检索

简单的理解就是: 如果变量的内存地址是类型长度的整数倍, CPU只需一次访问即可; 否则就要多次访问并把每次结果进行拼接才能获得最终值

看看最上面的对象结构里的实例数据部分, 我按照自己的理解画成了一个个Unit

每个Unit里面可放一个或多个Field, 同一个Unit里的类型可以不同, 但是长度必须相同, 比如byte和boolean, short和char可以放在一起

对齐规则:

上一数据结束位置 % 类型长度 == 0

需要补齐的大小

类型长度 - 上一数据结束位置 % 类型长度

比如对于一个long类型的字段来说, 如果当前的偏移量是12, 那么 12 % 8 != 0, 不对齐, 需要padding=8-12*8=4bit;

具体可以见下面的例子

字段偏移量

每个对象在内存都有一个内存地址, 通过内存地址+类型, 我们就可以取出对象的值; 对于对象里的字段, 也是相似操作地址的值一般来讲也是比较长的, 如果每个对象的字段地址都是用真实的地址值, 也比较浪费内存; 所以Java里采用了字段偏移量来实现, 可以理解为相对于对象起始位置的距离, 要获取真实地址只需要

FieldAddress = ObjectAddress + objectFieldOffset

由于Java里字段又分为类字段(静态的, 跟类相关)和实例字段(非静态, 跟对象相关), 对于静态字段

StaticFieldAddress = ClassAddress + staticFieldOffset

我们可以通过Unsafe.objectFieldOffset(Field)来获取一个对象的字段偏移量, 通过Unsafe.staticFieldOffset(Field)来获取一个类的字段偏移量

字段偏移量的值可以通过以下数学归纳法计算:

如果是第一个字段

fieldOffset1 = ObjectHeaderLength

在64bit, 地址压缩的情况下, 对象头长度是12byte(8byte mark word + 4byte metadata pointer);

同理, 地址不压缩对象头长度是16byte(8byte mark word + 8byte metadata pointer)

如果是非第一个字段

fieldOffset1 = 上一数据结束位置 + padding = 上一个字段的偏移量 + 上一个字段的长度 + padding

如果fieldOffset1可以对齐field的类型长度, 则field的偏移量地址=fieldOffset1

如果fieldOffset1不能对齐field的类型长度, 则field的偏移量地址=fieldOffset1+padding

判断是否对齐及padding的计算参见上一节内存对齐

最终的计算结果跟3个因素相关

内存对象字段排序, 这个在下一节重点说明
补齐(Padding)
地址压缩

字段的排序规则

排序规则的目的是尽可能减少Padding
先基本类型, 再引用类型; 先长后短, 长度相同就按声明顺序
基本类型先大后小(8,4,2,1), 但有例外

Java类型的长度无非是1byte,2byte,4byte,8byte这4种, 实例的数据也就是这4值的各种组合; 先长后短还是先短后长并不能减少Padding的浪费, 但是先长后短可以减少内存碎片化, 或者说是连续的内存地址空间, 因为Padding的部分都在对象的尾部(理解可能有误)

在于64bit压缩情况下, 对象头是12byte, 如果对象有3个Field, 分别是int, long, boolean;

如果严格按照先大后小, 则应该是long, int, boolean; 按照上一节偏移量的计算:

offset1 = 12

而long是8byte, 12%8!=0, 需要padding=8-12%8=4byte; 整个内存布局大概类似如下:

+----------------------+---------------+------------+-----------+---------------+---------------+

| Object Head 12 bit   | padding 4 bit | long 8 bit | int 4 bit | boolean 1 bit | padding 3 bit |

0                      12              16           24          28              29              32

累计padding=4+3=7bit, 仔细分析, 在这种场景下, 还有更好的排列可以节省掉第一个padding

我们可以把后面的int放到空缺的4bit里, 反正这4bit不用白不用, 即如下布局

+----------------------+-----------+------------+---------------+---------------+

| Object Head 12 bit   | int 4 bit | long 8 bit | boolean 1 bit | padding 3 bit |

0                      12          16           24              25              28

这就是规则3的例外情况, 对于这空缺的4bit, 优先拿4bit类型的数据来填充, 次之2bit, 次之1bit; 如果都没有, 那就只能浪费了

对于64bit地址压缩的JVM, 内存对象字段大概是如下布局:

+----------------------------+

|           4 byte           |

+----------------------------+

|   Object Header  12 byte   |

|     Mark Word     8 byte   |

|  Metadata Pointer 4 byte   |

+----------------------------+

|   int or float    4 byte   |

+----------------------------+

|   long or double  8 byte   |

+----------------------------+

|   int or float    4 byte   |

+----------------------------+

|   char or short   2 byte   |

+----------------------------+

|   byte or boolean 1 byte   |

+----------------------------+

|   Reference       4 byte   |

+----------------------------+

对于64bit非地址压缩的JVM, 内存对象字段大概是如下布局:

+----------------------------+

|           8 byte           |

+----------------------------+

|   Object Header  16 byte   |

|     Mark Word     8 byte   |

|  Metadata Pointer 8 byte   |

+----------------------------+

|   long or double  8 byte   |

+----------------------------+

|   int or float    4 byte   |

+----------------------------+

|   char or short   2 byte   |

+----------------------------+

|   byte or boolean 1 byte   |

+----------------------------+

|   Reference       8 byte   |

+----------------------------+

以下通过代码来对上面的规则做一个证明

public class MemoryLayout {

    private String name;

    private int age;

    private boolean sex;

    private byte young;

    public static void main(String[] args) {

        long ageOffset = getFieldOffset("age");

        long sexOffset = getFieldOffset("sex");

        long youngOffset = getFieldOffset("young");

        long nameOffset = getFieldOffset("name");

        System.out.println("--> " + ageOffset);

        System.out.println("--> " + sexOffset);

        System.out.println("--> " + youngOffset);

        System.out.println("--> " + nameOffset);

    }

    public static long getFieldOffset(String fieldName) {

        try {

            Field field = MemoryLayout.class.getDeclaredField(fieldName);

            return UnsafeKit.getUnsafe().objectFieldOffset(field);

        } catch (Exception e) {

            throw new RuntimeException("not exist field [" + fieldName + "] in MemoryLayout");

        }

    }

}

我的JVM环境是64bit, 默认地址压缩, 程序的输出结果是:

--> 12

--> 16

--> 17

--> 20

数值分别表示每个字段的偏移量
每个字段的偏移量跟源码里的声明顺序并不一致, 按先基本类型, 再引用类型, 先大后小的规则, 字段的顺序是: age, sex, young, name
age是第一个字段, 所以偏移量就是对象头大小, 在64bit地址压缩的JVM里就是12
sex的计算过程: 上一个字段的偏移量 + 上一个字段的长度=12+4=16, boolean类型1bit, 16%1==0, 内存对齐, 所以结果就是16
young的计算过程: 上一个字段的偏移量 + 上一个字段的长度=16+1=17, byte类型1bit, 17%1==0, 内存对齐, 所以结果就是17
name的计算过程: 上一个字段的偏移量 + 上一个字段的长度=17+1=18, 引用类型4bit, 18%4!=0, 不对齐需要padding 4-18%4=2bit, 所以结果是18+2=20

总结

Java所有对象都是有个ObjectHead, 由JVM维护; 主要用于锁及GC相关的
为了提升Java读写效率, Java所有字段在内存中需要内存对齐
为了减少Padding消耗, Java对对象的字段进行了一定规则的重排序
通过Java地址+字段的偏移量, 就可以操作内存里的数据; 整个Unsafe类就是基于这个来实现原子读写
Java反射就是用Unsafe实现, 来直接操作数据
整个Java并发包都是基于Unsafe来实现并发安全, 包括但不限于: AQS, CAS, Lock, 信号量, Condition

参考

Java对象内存布局的更多相关文章

图文详解Java对象内存布局
作为一名Java程序员,我们在日常工作中使用这款面向对象的编程语言时,做的最频繁的操作大概就是去创建一个个的对象了.对象的创建方式虽然有很多,可以通过new.反射.clone.反序列化等不同方式来创建 ...
附 Java对象内存布局
注意:本篇博客,主要参考自<深入理解Java虚拟机(第二版)> 1.对象在内存中存储的布局分为三块对象头存储对象自身的运行时数据:Mark Word(在32bit和64bit虚拟机上长 ...
Java单个对象内存布局.md
我们在如何获取一个Java对象所占内存大小的文章中写了一个获取Java对象所占内存大小的工具类(ObjectSizeFetcher),那么接下来,我们使用这个工具类来看一下Java中各种类型的对象所占 ...
Java虚拟机14：Java对象大小、对象内存布局及锁状态变化
一个对象占多少字节? 关于对象的大小,对于C/C++来说,都是有sizeof函数可以直接获取的,但是Java似乎没有这样的方法.不过还好,在JDK1.5之后引入了Instrumentation类,这个 ...
Java虚拟机18：Java对象大小、对象内存布局及锁状态变化
一个对象占多少字节? 关于对象的大小,对于C/C++来说,都是有sizeof函数可以直接获取的,但是Java似乎没有这样的方法.不过还好,在JDK1.5之后引入了Instrumentation类,这个 ...
Ehcache计算Java对象内存大小
在EHCache中,可以设置maxBytesLocalHeap.maxBytesLocalOffHeap.maxBytesLocalDisk值,以控制Cache占用的内存.磁盘的大小(注:这里Off ...
JAVA 对象内存结构
JAVA对象内存结构 HotSpot虚拟机中,对象在内存中存储的布局可以分为三块区域:对象头(Header).实例数据(Instance Data)和对齐填充(Padding). 对象头 markWo ...
[Java基础] Java对象内存结构
转载地址:http://www.importnew.com/1305.html 原文于2008年11月13日发表, 2008年12月18日更新:这里还有一篇关于Java的Sizeof运算符的实用库的 ...
java对象内存大小评估
Java对象的内存布局:对象头(Header).实例数据(Instance Data)和对齐填充(Padding).无论是32位还是64位的HotSpot,使用的都是8字节对齐.也就是说每个java对 ...

随机推荐

Spark日志，及设置日志输出级别
Spark日志,及设置日志输出级别 1.全局应用设置 2.局部应用设置日志输出级别 3.Spark log4j.properties配置详解与实例(摘录于铭霏的记事本) 文章内容来源: 作者:大葱拌豆 ...
WPS Excel启用正则表达式
WPS Excel启用正则表达式新建一个空白表格文件进入VB编辑器插入模块工具-引用-勾选正则表达式 (Microsoft VBScript Regular Express 5.5) 复制代码 ...
JMM和volatile
1.volatile 2.JMM 3.代码示例 package com.yanshu; class MyNmuber{ volatile int number=10; public void addT ...
python爬虫模板 - 最好大学网
import requests from bs4 import BeautifulSoup import bs4 def get_html_text(url): try: #kv = {'user-a ...
hdu 5316 Magician 线段树维护最大值
题目链接:Magician 题意: 给你一个长度为n的序列v,你需要对这个序列进行m次操作,操作一共有两种,输入格式为 type a b 1.如果type==0,你就需要输出[a,b]区间内的美丽序列 ...
P1280 尼克的任务（DP）
题目描述尼克每天上班之前都连接上英特网,接收他的上司发来的邮件,这些邮件包含了尼克主管的部门当天要完成的全部任务,每个任务由一个开始时刻与一个持续时间构成. 尼克的一个工作日为N分钟,从第一分钟开始 ...
Codeforces Round #681 (Div. 1, based on VK Cup 2019-2020 - Final) B. Identify the Operations (模拟,双向链表)
题意:给你一组不重复的序列\(a\),每次可以选择一个数删除它左边或右边的一个数,并将选择的数append到数组\(b\)中,现在给你数组\(b\),问有多少种方案数得到\(b\). 题解:我们可以记 ...
NLP论文阅读一：Paper阅读方法
参考:https://pan.baidu.com/s/1MfcmXKopna3aLZHkD3iL3w 一.为什么要读论文? 基础技术:读论文中的related works可以帮助了解该领域的一些主要的 ...
CS144学习（1）Lab 0: networking warmup
CS144的实验就是要实现一个用户态TCP协议,对于提升C++的水平以及更加深入学习计算机网络还是有很大帮助的. 第一个Lab是环境配置和热身,环境按照文档里的配置就行了,前面两个小实验就是按照步骤来 ...
【非原创】sg函数模板
学习博客:戳这里解题模型: 1.把原游戏分解成多个独立的子游戏,则原游戏的SG函数值是它的所有子游戏的SG函数值的异或. 即sg(G)=sg(G1)^sg(G2)^...^sg(Gn) ...

Java对象内存布局

导语

Java对象内存布局

Mark Word

Class Metadata Pointer

Instance Data

数据类型

内存对齐

字段偏移量

字段的排序规则

总结

参考

Java对象内存布局的更多相关文章

随机推荐

热门专题