Boxed 对象

Boxed 对象是比较复杂的对象,在 Erlang 中主标签为 10 的 Eterm 表示一个对 boxed 对象的引用。这个 Eterm 除去标签之后剩下的实际上是一个指针,指向具体的 boxed 对象。如下图所示,boxed 对象由对象头和具体的数据组成,这些字都排布在一起,占用进程栈中的一段连续空间(不像列表那样会分开)。

对象头分为 3 部分:主标签固定为 00(因此也没有 Eterm 以 00 为主标签),然后是 4 个位表示的 header 标签,这个标签表示了这个 boxed 对象的具体类型。接下来剩下的部分就是对象的大小 n,在对象头之后的 n 个字就是这个对象的具体数据。具体数据的格式和意义取决于具体的对象类型。对象头中表示大小的值也称为对象的 arity,目前在 Erlang 虚拟机中规定最多使用 24 位表示这个 n,因此对象最大不超过 \(2^{24} = 16777215\) 个字。

下面列出了 Erlang 虚拟机支持的所有 header 标签:

  • 0000:表示元组,高位的 size 即元组中元素个数。
  • 0001:内部使用的 binary 匹配状态。
  • 001x:大数(bignum),x 为符号位,可以表示任意大的整数,限制取决于内存。
  • 0100:本地 ref
  • 0101:fun
  • 0110:浮点数
  • 0111:export 信息
  • 1000:refc_binary,引用计数的 binary,即大 binary
  • 1001:heap_binary,小 binary,直接放在堆中
  • 1010:sub_binary,分离 binary 时产生的子 binary
  • 1011:没有使用
  • 1100:外部 pid
  • 1101:外部 port
  • 1110:外部 ref
  • 1111:没有使用

以上这些 boxed 对象在 Erlang 虚拟机内都称为 thing。这些“东西”有一些是表示 Erlang 开发者可以直接使用的数据类型,有一些则表示内部数据类型。下面我们来依次了解这些数据类型。

元组

元组很简单,实际上就是一个数组,如下图所示的一个 3 元素的元组:

元组中的元素在内存中依次排开,中间没有间隔,每一个元素都是一个 Eterm,所以元组中的元素可以是任意类型的。和列表一样,如果创建一个元组的时候引用了其他对象,那么这些被引用的对象也是共享的。但是当元组跨越了进程的边界的时候,也会被扁平化。

大整数,浮点数

大整数的符号保存在对象头的标签中,因此大整数对象本身的数据保存的就是大整数的绝对值。由于 Erlang 支持任意大的整数,所以大整数的长度一定是至少 1 个字的。那么大整数是以什么样的格式保存在这些机器字中的呢?假设某个大整数需要用 n 个字表示,而且每一个机器字宽度为 64 位元,那么这个大整数的值为:

\[ S = (2^{64})^{n-1} \times w_{n-1} + (2^{64})^{n-2} \times w_{n-2} + \cdots + (2^{64})^{0} \times w_{0} = \sum_{i=0}^{n-1} (2^{64})^{i} \times w_{i} \]

其中 \(w_{i}\) 表示第 \(i\) 个机器字。可以看出,低地址处的机器字表示大整数中的低位。实际上,就是从高地址到低地址一段一段拼起来。Erlang 虚拟机在操作大整数的时候,计算方法和我们笔算算数是一样的。我们做算数笔算的时候,是一个数字一个数字地挨个计算的,如果碰到进位,则加到更高一位的数字中。Erlang 虚拟机的大数算法在做计算的时候,也是一个数字一个数字地算,只不过刚好使用一个机器字作为我们笔算时的一个数字,在虚拟机的代码中,也是把一个机器字 typedef 为 ErtsDigit。换句话说,我们笔算是在算 10 进制数,而 64 位 Erlang 虚拟机内部则是在进行\(2^{64}\)进制的整数计算。Erlang 大数计算的算法都在 erts/emulator/beam/big.c 文件中,有兴趣的读者可以读一读,虽然原理挺简单,但是里面还是有不少技巧的。比如说 Erlang 虚拟机在进行大数计算之前,要事先为结果分配好空间,分配好空间之后大数对象的大小就固定了,大数算法在计算的过程中将结果填在分配好的空间中。此外还有不少大数到字符串(各种进制的表达)之间的转换,在这种转换过程中需要在两个方向预估对方数据类型所需的空间大小。Erlang 虚拟机采用了信息熵的方法,通过查表的方式查找某个进制下的一个数码(应该是 digit,但是在代码中由于已经用 digit 表示一个固定机器字,所以 big.c 代码中用了 character 这个词表示大整数的一个数码)所需的位元数(即 \(\log_{2}r\),\(r\) 表示进制)。

浮点数就比较简单了。Erlang 中的浮点数是双精度浮点数,实际上就是编译器原生的 double 类型,因此在 64 位的机器上刚好是一个机器字的大小。那么浮点数对象的 header 很简单,除去固定标签之外,arity 值固定为 1。然后后面跟着的一个字大小的数据就是浮点数符合 IEEE 754 规范的表示形式(注4)。

本地 ref

如果是在 32 位机器上,ref 对象表示形式如下所示:

header 里面的 arity 总是设置为 3,后面跟着 3 个 32 位的机器字,其中第 0 个只用了 18 位。这个图也结解释了为什么 ref 的值超过了 \(2^{82}\) 之后就会绕回为 0(18+32+32=82)。

在 64 位的机器上,ref 能表示的数据宽度也是 82 位,如果和 32 位机器不一样的话就不好交换数据了。那么如果在 64 位的机器上,只是简单地拓宽 header 以及后面的 3 个字,那么每个 ref 就要浪费 \(4 \times 3=12\) 个字节的空间,所以在小尾顺序的 64 位机器上,就成下面这样子了:

其中 word 0 依然只使用了 18 位,而且在 header 后面的第一个机器字的低 32 位还保存了一个数字 3,即后面跟着的 32 位元字数。

Erlang 虚拟机通过 3 个全局变量分别表示 word 0、1 和 2 的当前值。调用 BIF make_ref() 的时候,Erlang 虚拟机会创建一个新的 ref。由于全局当前 ref 值是用多个变量表示的,所以 make_ref() 会通过一个自旋锁保护对这些变量的操作,递增全局 ref 的值,然后根据新的 ref 值创建新的 ref 对象并返回对应的 Eterm。递增操作针对 word 0 递增,如果 word 0 超过了 \(2^{18}\),则进位到 word 1,word 1 归零的话则进位到 word 2。

我们打印 ref 的时候,得到的是类似 #Ref<0.0.0.2055> 这样的输出,通过 3 个句点将输出结果分为 4 段。第 1 段,和 pid 和 port 的第一段是一样的,表示节点,在本地节点总是为 0,后面 3 段分别为上面的 word 2、1 和 0。所以 ref 较少的时候前面几段都为 0。

binary

binary 的内容比较繁多,单独放在本系列的第 5 篇了。

外部 pid、port 和 ref

外部 Eterm 是 Erlang 虚拟机的分布式节点之间交换 Eterm 时所用的格式。由于具体涉及到分布式 Erlang 的工作细节,所以打算在专门介绍 Erlang 分布式机制的博文中具体讨论。

fun 和 export

涉及到 Beam 虚拟机的代码格式和工作原理,打算放在专门介绍 Beam 虚拟机的博文中具体讨论。


[注4] 参见 http://en.wikipedia.org/wiki/IEEE_floating_point

Erlang数据类型的表示和实现(4)——boxed 对象的更多相关文章

  1. Erlang数据类型的表示和实现(5)——binary

    binary 是 Erlang 中一个具有特色的数据结构,用于处理大块的“原始的”字节块.如果没有 binary 这种数据类型,在 Erlang 中处理字节流的话可能还需要像列表或元组这样的数据结构. ...

  2. Erlang数据类型的表示和实现(2)——Eterm 和立即数

    Erlang 数据类型的内部表示和实现 Erlang 中的变量在绑定之前是自由的,非绑定变量可以绑定一次任意类型的数据.为了支持这种类型系统,Erlang 虚拟机采用的实现方法是用一个带有标签的机器字 ...

  3. Erlang数据类型的表示和实现(3)——列表

    列表 Erlang 中的列表是通过链表实现的,表示列表的 Eterm 就是这个链表的起点.列表 Eterm 中除去 2 位标签 01 之外,剩下的高 62 位表示指向列表中第一个元素的指针的高 62 ...

  4. Erlang数据类型的表示和实现(1)——数据类型回顾

    本文介绍 Erlang 语言中使用的各种数据类型以及这些数据类型在 Erlang 虚拟机内部的表示和实现.了解数据类型的实现可以帮助大家在实际开发过程中正确选择数据类型,并且可以更好更高效地操作这些数 ...

  5. 基本数据类型用 == 判断的是值 ,对象用 == 判断的是地址 , 判断值的话用 equals()

    基本数据类型用 == 判断的是值   ,对象用 == 判断的是地址 ,  判断值的话用 equals() 字符串是String的实例

  6. JavaScript---js语法,数据类型及方法, 数组及方法,JSON对象及方法,日期Date及方法,正则及方法,数据类型转换,运算符, 控制流程(三元运算),函数(匿名函数,自调用函数)

    day46 一丶javascript介绍 JavaScript的基础分为三个       1.ECMAScript:JavaScript的语法标准.包括变量,表达式,运算符,函数,if语句,for语句 ...

  7. JavaScript 基础(数据类型、函数、流程控制、对象)

    一.JavaScript概述 1.1 JavaScript的历史 1992年Nombas开发出C-minus-minus(C--)的嵌入式脚本语言(最初绑定在CEnvi软件中).后将其改名Script ...

  8. Java中,一切皆是对象!为何数据类型中还分为:基本类型和对象?

    Java中一切皆是对象!这句话没错,因为八种基本类型都有对应的包装类(int的包装类是Integer),包装类自然就是对象了. 基本类型一直都是Java语言的一部分,这主要是基于程序性能的考量, 基本 ...

  9. [Erlang 0114] Erlang Resources 小站 2013年7月~12月资讯合集

    Erlang Resources 小站 2013年7月~12月资讯合集,方便检索.     附 2013上半年盘点: Erlang Resources 小站 2013年1月~6月资讯合集    小站地 ...

随机推荐

  1. [python]decimal常用操作和需要注意的地方

    decimal模块 简介 decimal意思为十进制,这个模块提供了十进制浮点运算支持. 常用方法 1.可以传递给Decimal整型或者字符串参数,但不能是浮点数据,因为浮点数据本身就不准确. 2.要 ...

  2. C++ 封装互斥对象

    多线程程序中为了防止线程并发造成的竞态,需要经常使用到Mutex进行数据保护.posix提供了phtread_mutex_t进行互斥保护数据.Mutex的使用需要初始化和释放对应(phtread_mu ...

  3. Mysql学习笔记(八)索引

    PS:把昨天的学习内容补上...发一下昨天学的东西....五月三日...继续学习数据库... 学习内容: 索引.... 索引的优点: 1.通过创建唯一索引,可以保证数据库每行数据的唯一性... 2.使 ...

  4. wcf服务返回json

    private static void CreateErrorReply(OperationContext operationContext, string key, HttpStatusCode s ...

  5. 五分钟,运用cocoaui库,搭建主流iOS app中我的界面

    本项目基于天天团购项目,在上一篇中有说到! 首先介绍一些cocoaui,是国内的一名程序员做的开源的开源系统,目的是为了简化ios布局!官网地址:www.cocoaui.com,github地址:ht ...

  6. C# 文字转声音

    添加COM组件引用:Microsoft Speech object library private SpVoice voice; private void button1_Click(object s ...

  7. [Test] 单元测试艺术(2) 打破依赖,使用模拟对象,桩对象,隔离框架

    在上节中,完成了第一个单元测试,研究了各种特性,在本节,将介绍一些更实际的例子.SUT依赖于一个不可操控的对象,最常见的例子是文件系统,线程,内存和时间等. 本系列将分成3节: 单元测试基础知识 打破 ...

  8. C#如何获取CPU处理器核心数量

    有几条不同的处理器信息,您可以获得有关的信息:物理处理器数量.核心数量和逻辑处理器数量,这些可以不同.两颗双核超线程(启用)处理器的机器情况下有:2个物理处理器.4个核心和8个逻辑处理器. 逻辑处理器 ...

  9. 【C#】线程之Parallel

    在一些常见的编程情形中,使用任务也许能提升性能.为了简化变成,静态类System.Threading.Tasks.Parallel封装了这些常见的情形,它内部使用Task对象. Parallel.Fo ...

  10. 【原创】有关Silverlight控件DataGrid的绑定数据后单元格单独复制的功能实现分析

    前些日子,公司新需求需要对silverlight的datagrid进行局部任意单元格数据可复制,查阅了半天网络资料愣是没找到相关资料,开始还以为是silverlight的bug根部无法实现, 最后还是 ...