UTF-16究竟是怎么编码的

首先要注意的是，代理Surrogate是专属于UTF-16编码方式的一种机制，UTF-8和UTF-32是不用代理的。

如前文所述，为了让UTF-16能继续编码基本平面后面的增补平面中的码点值，于是扩展了UTF-16编码方式。

具体的扩展方法就是为其增加了代理机制，用两个对应于基本平面码点(即BMP代理区中的码点)的16位码元来表示一个增补平面码点，这两个用来表示一个增补平面码点的特殊16位码元就被称为“代理对”。

如果要用简单的一句话来概括，就是——所有大于0xFFFF的码点值(即增补平面码点编号，范围为0x10000~0x10FFFF，十进制为65536~1114111；注意，0xFFFF是十六位二进制数的最大值的十六进制表示)要编码成UTF-16编码方式的话，就必须使用代理机制(也就是用代理对来表示)。

在UTF-16编码方式中，被合起来称为”代理对“的这两个16位码元就其中的任一单个码元而言，其实就直接对应于基本平面BMP中的某一个码点(即BMP中每一个码点的值必然对应于一个16位码元的值，因为基本平面中的码点总数为2^16=65536个，而16位码元能表示的值也等于2^16=65536个)。

这样一来，就产生了冲突：某个UTF-16码元到底是用于表示基本平面字符的码元，还是用于表示增补平面字符的代理对中的代理码元？

因此，为避免冲突，这些被用作“代理”的任一码元所对应的码点在基本平面中均未定义字符，即均没有指定字符。

“代理”的真实含义或许就在于此：用两个基本平面中未定义字符的码点合起来“代为署理”增补平面中的码点。

因此，基本平面中这些用作“代理”的码点区域就被称之为“代理区(Surrogate Zone)”，其码点编号范围为0xD800~0xDFFF(十进制55296~57343)，共2048个码点。

增补平面一共有16个平面(即第2平面~第17平面)，码点编号范围为0x10000~0x10FFFF(十进制为65536~1114111，码点总数为1048576个)。用两个代理码元表示，第一个码元的取值范围为0xD800~0xDBFF(二进制为1101 1000 0000 0000 ~ 1101 1011 1111 1111，十进制为55296 ~ 56319)，第二个码元的取值范围为0xDC00~0xDFFF(二进制为1101 1100 0000 0000 ~ 1101 1111 1111 1111，十进制为56320 ~ 57343)。

因此，增补平面的第一个码点的编号0x10000其UTF-16编码就是0xD800 0xDC00(即0x10000经UTF-16编码后的码元序列为0xD800 0xDC00)，其余类推。展现为二进制形式后如下：

====代理码元1==== ====代理码元2====

1101 10pp ppxx xxxx 1101 11xx xxxx xxxx

其中代理码元1中的110110、代理码元2中的110111是定数，p、x是变数。去掉定数后组合起来就是pppp xxxx xxxx xxxx xxxx，共20位(2^20=1048576)，刚好能够表示增补平面中的全部码点(0x10000~0x10FFFF，共1048576个)。其中pppp共4位，表示16个增补平面之一的编号(2^4=16)；紧接着的16位x表示某个增补平面内的某个码点(2^16=65536，而65536*16=1048576)。

按照上面的编码方式，代理对里面的两个代理码元分别称之为高16位代理码元(或称为lead surrogates引导代理、前导代理)，和低16位代理码元(或称为trail surrogates尾随代理、后尾代理)。

由于引导代理和尾随代理的值分别在0xD800~0xDBFF(十进制为55296 ~ 56319)之间和0xDC00~0xDFFF(十进制为56320 ~ 57343)之间，所以首尾两个代理总共可以组合出(56319-55296+1)*(57343-56320+1)=1048576个代理对，也就是总共可以表示1048576个增补码点，而目前Unicode标准所确定的16个增补平面的码点总和也就是65536*16=1048576个。

（笨笨阿林原创文章，转载请注明出处）

从增补平面的码点值通过基本平面中的代理对编码为增补平面字符的码元序列的具体算法如下：

1）增补平面中的码点值(0x10000~0x10FFFF，二进制为0001 0000 0000 0000 0000~1 0000 1111 1111 1111 1111，对应的字符名称为U+10000~U+10FFFF)减去0x10000(二进制为0001 0000 0000 0000 0000)，可得到20位长的比特组(值的范围为0x00000~0xFFFFF，二进制为0000 0000 0000 0000 0000 ~ 1111 1111 1111 1111 1111)；

2）将得到的20位长的比特组分拆为两部分：高位10比特和低位10比特；

3）20位长的比特组中的高位10比特(值的范围为0x000~0x3FF，二进制为00 0000 0000~11 1111 1111)加上0xD800(二进制为1101 1000 0000 0000)，得到第一个代理码元即引导代理(值的范围是0xD800~0xDBFF，二进制为1101 1000 0000 0000 ~ 1101 1011 1111 1111)；

4）20位长的比特组中的低位10比特(值范围也是0x000~0x3FF，二进制为00 0000 0000~11 1111 1111)加上0xDC00(二进制为1101 1100 0000 0000)，得到第二个代理码元即尾随代理(值的范围是0xDC00~0xDFFF，二进制为1101 1100 0000 0000 ~ 1101 1111 1111 1111)；

5）将引导代理与尾随代理按前后顺序组合在一起成为“代理对”，就得到了增补平面字符的码元序列。

例如，增补平面中码点值为10437(字符名称为U+10437)的字符(

刨根究底字符编码之十四——UTF-16究竟是怎么编码的的更多相关文章

刨根究底字符编码之十六——Windows记事本的诡异怪事：微软为什么跟联通有仇？（没有BOM，所以被误判为UTF8。“联通”两个汉字的GB内码，其第一第二个字节的起始部分分别是“110”和“10”，，第三第四个字节也分别是“110”和“10”）
1. 当用一个软件(比如Windows记事本或Notepad++)打开一个文本文件时,它要做的第一件事是确定这个文本文件究竟是使用哪种编码方式保存的,以便于该软件对其正确解码,否则将显示为乱码. 一般 ...
刨根究底字符编码之十二——UTF-8究竟是怎么编码的
UTF-8究竟是怎么编码的 1. UTF-8编码是Unicode字符集的一种编码方式(CEF),其特点是使用变长字节数(即变长码元序列.变宽码元序列)来编码.一般是1到4个字节,当然,也可以更长. 为 ...
刨根究底字符编码之十一——UTF-8编码方式与字节序标记
UTF-8编码方式与字节序标记一.UTF-8编码方式 1. 接下来将分别介绍Unicode字符集的三种编码方式:UTF-8.UTF-16.UTF-32.这里先介绍应用最为广泛的UTF-8. 为满足基 ...
刨根究底字符编码之十三——UTF-16编码方式
UTF-16编码方式 1. UTF-16编码方式源于UCS-2(Universal Character Set coded in 2 octets.2-byte Universal Character ...
刨根究底字符编码之—UTF-16编码方式
在网上已经转悠好几天了, 这篇文章让我知道了UTF-16的前世今生, 感谢作者https://cloud.tencent.com/developer/article/1384687 1. UTF-16 ...
刨根究底字符编码之五——简体汉字编码方案(GB2312、GBK、GB18030、GB13000)以及全角、半角、CJK
简体汉字编码方案(GB2312.GBK.GB18030.GB13000)以及全角.半角.CJK 一.概述 1. 英文字母再加一些其他标点字符之类的也不会超过256个,用一个字节来表示一个字符就足够 ...
刨根究底字符编码之八——Unicode编码方案概述
Unicode编码方案概述 1. 前面讲过,随着计算机发展到世界各地,于是各个国家和地区各自为政,搞出了很多既兼容ASCII但又互相不兼容的各种编码方案.这样一来同一个二进制编码就有可能被解释成不 ...
刨根究底字符编码之四——EASCII及ISO 8859字符编码方案
EASCII及ISO 8859字符编码方案 1. 计算机出现之后,从美国发展到欧洲,由于欧洲很多国家中所用到的字符中,除了基本的美国也用的那128个ASCII字符之外,还有很多衍生的拉丁字母等字符 ...
JAVA之旅（二十四）——I/O流，字符流，FileWriter，IOException，文件续写，FileReader，小练习
JAVA之旅(二十四)--I/O流,字符流,FileWriter,IOException,文件续写,FileReader,小练习 JAVA之旅林林总总也是写了二十多篇了,我们今天终于是接触到了I/O了 ...

随机推荐

Spring Security教程系列（一）基础篇-1
第 1 章一个简单的HelloWorld 第 1 章一个简单的HelloWorld Spring Security中可以使用Acegi-1.x时代的普通配置方式,也可以使用从2.0时代才出现的命名 ...
XInput和DirectInput
原文链接:https://msdn.microsoft.com/en-us/library/windows/desktop/ee417014(v=vs.85).aspx XInput是一个允许应用从W ...
在wamp下使用netbeans开启Xdbug
1.到http://www.xdebug.org 下载与PHP对应的xdebug版本,也可以把phpinfo源码粘贴到http://www.xdebug.org/find-binary.php,提交后 ...
使用 zabbix 自动发现监控 MySQL
介绍使用 zabbix 的 low-level 自动发现功能完成单主机多端口的监控, 详见low_level_discovery, 整体上监控类似 percona 的 zabbix 监控插件, 不过 ...
crontab表达式执行时间计算,crontab在线测试
熟悉Unix和Linux的朋友都知道Crontab表达式,通过crontab指令可以周期性调用或执行某个程序. 但是大家写完crontab表达式后,心里总是担心表达式写的不对,可以又没法去验证.比 ...
java中的各种流（老师的有道云笔记）
内存操作流-字节之前的文件操作流是以文件的输入输出为主的,当输出的位置变成了内存,那么就称为内存操作流.此时得使用内存流完成内存的输入和输出操作. 如果程序运行过程中要产生一些临时文件,可采用虚拟文 ...
Python抓取成都房价信息
Python里scrapy爬虫 scrapy爬虫,正好最近成都房价涨的厉害,于是想着去网上抓抓成都最近的房价情况,顺便了解一下,毕竟咱是成都人,得看看这成都的房子我以后买的起不~ 话不多说,进入正题: ...
测序分析软件-phred的安装
1.进入phred官网,给作者写信,获得所需的软件,大约需要两三天的时间即可收到回信. 2.根据作者的指示下载,解压相应软件. 3.以笔者本人的安装为例unbuntu系统(phred自带的instal ...
面向面试编程——javascript对象的几种创建方式
javascript对象的几种创建方式总共有以下几个模式: 1.工厂模式 2.构造函数模式 3.原型模式 4.混合构造函数和原型模式 5.动态原型模式 6.寄生构造函数模式 7.稳妥构造函数模式 1 ...
ssh无密码登录远程主机
方法:在客户端生成公/私钥对,将私钥文件保存在客户端,再将公钥文件上传到服务器端(远程主机) 1.在客户端生成公/私钥对 cb@cb251#ssh-keygen...cb@cb251#ls .ssh/ ...

刨根究底字符编码之十四——UTF-16究竟是怎么编码的

UTF-16究竟是怎么编码的

刨根究底字符编码之十四——UTF-16究竟是怎么编码的的更多相关文章

随机推荐

热门专题