Unicode 与 Unicode Transformation Format（UTF-8 / UTF-16 / UTF-32)

ASCII(American Standard Code for Information Interchange)：早期它使用7 bits来表示一个字符，总共表示2^{7 =}128个字符；后来扩展到8 bits，即用一个字节来表示一个字符，总共表示2^{8 =}256个字符，这种ASCII扩展字符集如IBM字符集和ISO Latin-1，首位为1(128~255)的编码区域表示扩展字符
Unicode：由于ASCII字符集总数有限且只适用于欧洲语言国家，不同语言体系的国家要统一使用同一种字符集，就需要一种更大的字符集。Unicode早期采用2个字节编码，总共可表示2¹⁶ = 65536个字符，它通过增加一个高字节对ISO Latin-1字符集进行扩展，当这些高字节位为0时，低字节就是ISO Latin-1字符；然而，可以用ASCII表示的字符使用Unicode并不高效，因为Unicode比ASCII占用大一倍的空间，对ASCII来说高字节的0对他毫无用处。为了解决这个问题，就出现了一些中间格式的字符集，他们被称为通用转换格式，即UTF（Unicode Transformation Format），如UTF-8、UTF-16、UTF-32。Universal Character Set(UCS）是由ISO制定的ISO 10646（或称ISO/IEC 10646）标准所定义的标准字符集，UCS-2用两个字节编码，UCS-4用4个字节编码。从Unicode 2.0开始，Unicode采用了与ISO 10646-1相同的字库和字码，以保持两者兼容。Unicode计划使用17个平面(Plane，包含2¹⁶ = 65536个码位。Plane 0被称为Basic Multilingual Plane)，一共有17×65536=1114112个码位(0~1114111)。ISO承诺ISO 10646将不会替超出U+10FFFF(1114111)的UCS-4编码赋值，以使得两者保持一致
BOM(Byte Order Mark，字节顺序标记)：特殊字符U+FEFF叫做 "Zero Width No-Break Space" ，中文译作“零宽无间断间隔”的字符，实际不会出现在正常字节流中。但在传输字节流前，先传输字符 "Zero Width No-Break Space"，如果收到FFFE，就表明这个字节流是 Little- Endian (小端序、小字节序、低字节序、小尾序，即低位字节排放在内存的低地址端，高位字节排放在内存的高地址端)的；如果收到 FEFF，就表明这个字节流是 Big-Endian (大端序，字节顺序与 Little- Endian 刚好相反)的。因此字符 "Zero Width No-Break Space" 又被称作 BOM，它将出现在文本文件头部，表明文件的编码方式。UTF-8 虽是字节顺序无关的，但仍然可以用 BOM (EF BB BF)来表明其编码方式。下图展示了编码方式与BOM的对应关系：

PHP并不会忽略UTF-8文件的BOM，所以在读取、包含或者引用这些文件时，会把BOM作为该文件开头正文的一部分。因此，PHP文件采用UTF-8编码时可保存无BOM格式。

如果U+FEFF出现在数据流中，该怎么办呢？下面这段来自Wikipedia，关于Word Joiner(WJ， U+2060)：
```
The word joiner replaces the zero-width no-break space (ZWNBSP), a deprecated use of the Unicode character at code point U+FEFF. Character U+FEFF is intended for use as a Byte Order Mark at the start of a file. However, if encountered elsewhere it should, according to Unicode, be treated as a "zero-width non-breaking space." The deliberate use of U+FEFF for this purpose is deprecated as of Unicode 3.2, with the word joiner strongly preferred.
```
UTF-8(万国码)：它是可变长编码，即用1~4个字节来编码Unicode字符集。其与Unicode的转换关系如下：
另外，以下部分非Unicode编码范围，属于UCS-4 编码早期的规范：

UTF-8用1个字节(U+0000~U+007F)来编码所有ASCII字符，并且与ASCII字符表示是一样的，故其与ASCII兼容，而那些ISO Latin-1扩展ASCII字符集的字符(128~255)是Unicode的子集，但不是UTF-8的子集；其他的字符UTF-8编码将需要2～4个字节，首字节连续的1的个数表示字符编码所需的字节数。“编”的Unicode编码是U+7F16，因此UTF-8需要3个字节来表示，形如1110xxxx 10xxxxxx 10xxxxxx这种格式。

由于UTF-8采用的是变长字符编码，与UTF-16和UTF-32相比，无论是计算字符数，还是执行索引操作效率都不高，因此UTF-8适合在传输数据中使用，可在数据接收完毕后将其转换为UTF-16或UTF-32进行处理，最后再转换回UTF-8(但这转换本身也会有性能损耗)；但UTF-8空间足够大，无字节序问题，且容错性高，局部的字节错误（丢失、增加、改变）不会导致连锁性的错误，因为 UTF-8 的字符边界很容易检测出来。另外，utf8mb4是utf8的一个超集，支持最多4个字节来表示一个字符，如emoji表情字符就占用4个字节。
UTF-16：以2个字节16bits为编码基本单位。假设U代表字符的Unicode编码，如果U < 0x10000且U∉[0xD800,0xDFFF]，U的UTF-16编码就是U对应的16位无符号整数(0x00000~0xFFFF，除去0xD800-0xDFFF作为BMP的代理区部分)；如果U ≥ 0x10000，则使U' = U - 0x10000(最大为0x10FFFF - 0x10000 = 0xFFFFF)，然后将U'写成二进制形式：yyyy yyyy yyxx xxxx xxxx，U的UTF-16编码二进制表示就是：110110yyyyyyyyyy(0xD800~0xDBFF) 110111xxxxxxxxxx(0xDC00~0xDFFF)。由此可见，Unicode字符的UTF-16表示要么是2个字节长度，要么是4个字节长度，为将二者区分开来、防止冲突，设计者将0xD800-0xDFFF保留下来，称代理区(Surrogate)：

High Surrogates就是指这个范围的码位是Unicode字符4字节UTF-16编码的头两个字节；Low Surrogates就是指这个范围的码位是Unicode字符4字节UTF-16编码的后两个字节；High Private Use Surrogates是指这个范围的码位是Unicode字符4字节UTF-16编码的头两个字节，但该Unicode字符属于平面15和平面16这两个专用区
UTF-32：用4个字节32bits来编码一个Unicode字符，Unicode的UTF-32编码就是其对应的32位无符号整数
更多信息参考链接：http://www.unicode.org/faq/utf_bom.html

Unicode 与 Unicode Transformation Format（UTF-8 / UTF-16 / UTF-32)的更多相关文章

Unicode 与 Unicode Transformation Format(UTF，UTF-8 / UTF-16 / UTF-32)
ASCII(American Standard Code for Information Interchange):早期它使用7 bits来表示一个字符,总共表示27 = 128个字符:后来扩展到8 ...
细说Unicode(一) Unicode初认识
https://segmentfault.com/a/1190000007992346 细说Unicode(一) Unicode初认识网站开发中经常会被乱码问题困扰.知道文件编码错误会导致乱码,但对 ...
Ansi、GB2312、GBK、Unicode（utf8、16、32）
关于ansi,一般默认为本地编码方式,中文应该是gb编码他们之间的关系在这边文章里描写的很清楚:http://blog.csdn.net/ldanduo/article/details/820353 ...
js 中文汉字转Unicode、Unicode转中文汉字、ASCII转换Unicode、Unicode转换ASCII、中文转换&#XXX函数代码
最近看不少在线工具里面都有一些编码转换的代码,很多情况下我们都用得到,这里脚本之家小编就跟大家分享一下这些资料 Unicode介绍 Unicode(统一码.万国码.单一码)是一种在计算机上使用的字符编 ...
杂项-Unicode：Unicode
ylbtech-杂项-Unicode:Unicode Unicode(统一码.万国码.单一码)是计算机科学领域里的一项业界标准,包括字符集.编码方案等.Unicode 是为了解决传统的字符编码方案的局 ...
java 中文转Unicode 以及 Unicode转中文
package com.sun; public class Snippet { public static void main(String[] args) { String cn ...
.net C#实现中文转Unicode、Unicode转中文及与js对应关系
中文转Unicode:HttpUtility.UrlEncodeUnicode(string str); 转换后中文格式:"%uxxxx" 举例:"柳_abc123&q ...
unicode和unicode编码
unicode编码是什么? 这其实是两个问题,unicode 是什么什么?unicode是怎样编码的? What is Unicode? Unicode provides a unique numbe ...
JAVA中String.format的用法转16进制,还可以补0
1.对整数进行格式化:%[index$][标识][最小宽度]转换方式我们可以看到,格式化字符串由4部分组成,其中%[index$]的含义我们上面已经讲过,[最小宽度]的含义也很好理解, ...

随机推荐

elasticsearch索引合并
参考地址:http://cwiki.apachecn.org/display/Elasticsearch/Reindex+API 1.首先插入准备数据,创建两个索引. (1).PUT http:// ...
一、VS2017支持Github
选择工具-->扩展和更新,搜索GitHub,安装GitHub的VS插件安装完插件,打开视图-->团队资源管理器,我们可以看到Git插件菜单.通过菜单我们可以新建Git存储库,可以提交修 ...
css的特性
一.继承性: 继承是一种规则,它允许样式不仅应用于某个特定html标签元素,而且应用于其后代. /* 不具有继承性的css样式: */p{border:1px solid red;} 二.特殊性(优先 ...
hdu-5687（字典树）
题意:中文题: 解题思路:增加和查询就不说了,标准操作,就是删除操作:删除操作的时候,我们把给定字符串先在字典树中遍历一遍,然后算出这个字符串最后一个字符的出现次数,然后在遍历一遍,每个节点都减去这个 ...
牛客网-2018年湘潭大学程序设计竞赛-F
题目链接:https://www.nowcoder.com/acm/contest/105/F 解题思路:这道题第一眼直接思路就是搜索,但想了半天没想到有什么好办法搜,然后就转成最短路写了, 因为多入 ...
PC平台的SIMD支持检测
如果我们希望在用SIMD来提升程序处理的性能,首先需要做的就是检测程序所运行的平台是否支持相应的SIMD扩展.平台对SIMD扩展分为两部分的支持: CPU对SIMD扩展的支持.SIMD扩展是随着CPU ...
【NLP】Recurrent Neural Network and Language Models
0. Overview What is language models? A time series prediction problem. It assigns a probility to a s ...
EasyUI-datebox设置开始日期小于结束日期，并且结束日期小于当前日期
datebox设置开始日期小于结束日期,并且结束日期小于当前日期 //日期控制扩展选择日期小于等于当前日期,开始日期小于等于结束日期 $("#datebox1").datebox( ...
OneinStack——PHP多版本共存
前言我事先安装的是LNMP环境,PHP版本为7.2,但是现在环境需要一个PHP5.6,所以就准备安装个上版本,顺带写个安装教程,写完后我发现了原来有直接安装的命令!所以后面的内容大家可以忽略了!从配 ...
Django+Xadmin打造在线教育系统(七)
全局导航&个人中心&全局搜索配置全局导航让index页面也继承base页面,注意首页有个单独的__index.js__ base页面的导航栏也进行配置 <nav> &l ...

Unicode 与 Unicode Transformation Format（UTF-8 / UTF-16 / UTF-32)

Unicode 与 Unicode Transformation Format（UTF-8 / UTF-16 / UTF-32)的更多相关文章

随机推荐

热门专题