Unicode,UTF-32,UTF-16,UTF-8到底是啥关系?
编码的目的,就是给抽象的字符赋予一个数值,好在计算机里面表示。常见的ASCII使用8bit给字符编码,但是实际只使用了7bit,最高位没有使用,因此,只能表示128个字符;ISO-8859-1(也叫Latin-1,或者直接8859)使用全8bit编码,可以看成是ASCII的超集,因为它的低128个字符编码和ASCII一样,也就是说,如果一个字符使用ASCII编码,那么转换成ISO-8859-1后,编码值不变。
但是,无论是ASCII,还是ISO-8859-1,都无法满足用来表示像中文这样的字符,所以,为了国际化的需要,诞生了Unicode编码。Unicode本质上是一套标准,而UTF-32,UTF-16,UTF-8是Unicode的三种不同实现方式。
Unicode
Unicode规定了一个数值范围,这个数值范围叫code space。Unicode的code space为0到10FFFF,这个空间里面的每一个数值,叫做一个code point,因此,Unicode总共有1114112个code point。Unicode中,在表示一个code point的时候,常常使用U+前缀,比如表示code point 201DF:U+201DF。
Unicode将code space中的code point分配给要编码的字符,有时一个字符用一个code point表示,有时一个字符会重复编码,也就是说可能不同的两个或者多个code point代表同一个字符,而有时候,可能连续多个code point表示一个字符,而这里面的每一个code point都表示一个其他的字符。code point和字符的关系如下图所示:

在上图中,A+一个小圈这个字符就有3种编码,其中U+00C5和U+212B虽然code point不同,但是代表的都是这个字符,而这个字符还可以看成是字母A和一个小圈组合而成,A的code point是U+0041,小圈的code point是U+030A,因此,用A和小圈的code point组合在一起,也可以表示这个字符。
Unicode规定了code space和code point,那计算机到底怎么表示这些code point呢?是直接使用,还是会做一些形式的转换呢?
UTF-32(UCS-4)
在计算机中,Unicode字符的code point会被表示成一个,后者多个code unit,code unit可以和code point一样,也可以不一样。UTF-32,或者说UCS-4就是Unicode最简单的实现方式。在UTF-32中,一个code unit使用32bit,4个字节,并且Unicode中的每一个code point,都有一个与它相等的code unit对应,换句话说,UTF-32对Unicode规定的code point没有做任何转换,直接拿过来用了。
UTF-16(UCS-2)
对于UTF-16,或者UCS-2来说,每一个code unit使用16bit,2个字节。对于Unicode中位于U+0000-U+FFFF的code point,UTF-16使用一个code unit表示,对于Unicode位于U+10000-U+10FFFF的code point,UTF-16使用一对code unit表示,这样成对的code unit叫做surrogate pairs。
UTF-8
对于UTF-8,使用8bit的code unit。对于Unicode中位于U+0000-U+007F的code point,UTF-8使用一个code unit表示,因此,编码方式和ASCII没有任何区别;对于U+0100-U+07FF,UTF-8使用2个code unit表示;对于U+0800-U+FFFF,UTF-8使用3个code unit表示;对于U+10000-U+10FFFF,UTF-8使用4个code unit表示。
Unicode,UTF-32,UTF-16,UTF-8到底是啥关系?的更多相关文章
- JS原型的问题Object和Function到底是什么关系
var F = function(){}; Objcert.prototype.a = function(){}; Function.prototype.b = function(){}; F 既能访 ...
- 内核与ramdisk到底是什么关系
转自:http://www.lupaworld.com/forum.php?mod=viewthread&tid=61425 原名:内核与ramdisk到底是什么关系? 个人Notes: ...
- SOA和微服务到底是什么关系
本文原创,原文地址为:http://www.cnblogs.com/fengzheng/p/5847441.html SOA和微服务到底是什么关系? 说实话,我确实不明白SOA和微服务到底有什么本质上 ...
- SOA和微服务到底是什么关系?
SOA和微服务到底是什么关系? 说实话,我确实不明白SOA和微服务到底有什么本质上的区别,两者说到底都是对外提供接口的一种架构设计方式.我倒觉得微服务其实就是随着互联网的发展,复杂的平台.业务的出现, ...
- C语言变量长度在32位和64位处理器上的关系
C语言变量长度在32位和64位处理器上的关系 理论上来讲 我觉得数据类型的字节数应该是由CPU决定的,但是实际上主要由编译器决定(占多少位由编译器在编译期间说了算).常用数据类型对应字节数 ...
- Ansi、GB2312、GBK、Unicode(utf8、16、32)
关于ansi,一般默认为本地编码方式,中文应该是gb编码 他们之间的关系在这边文章里描写的很清楚:http://blog.csdn.net/ldanduo/article/details/820353 ...
- PHP返回32位与16位的md5加密值
字符串“123456”,经过md5算法加密之后是 32位: e10adc3949ba59abbe56e057f20f883e16位: 49ba59abbe56e057 PHP自带的 md5() 函数, ...
- Java Android 32位16位 MD5加密
// md5加密 32位小写 private String Md5(String sourceStr) { String result = ""; try { MessageDig ...
- 2018.9.10 Java语言中的int及char数据类型的长度分别为(32,16 )
Byte类型 (8) Character类型(16) Integer类型 (32) Double类型 (64) Long类型 (64)
随机推荐
- C++笔记006:关于类的补充
原创笔记,转载请注明出处! 点击[关注],关注也是一种美德~ 关于类的补充: 类是一个数据类型(固定大小内存块的别名),定义一个类,是一个抽象的概念,不会给你分配内存,用数据类型定义变量的时候,才会分 ...
- shell习题第1题:每日一文件
[题目要求] 请按照这样的日期格式(xxxx-xx-xx)每日生成一个文件 例如生成的文件为2019-04-25.log,并且把磁盘使用情况写入到这个文件中 不用考虑cron,仅仅写脚本即可 [核心要 ...
- VirtualBox复制的虚拟机无法获取IP解决办法
自从建立了这个账号后写了一篇,好几年没来了,今天来看看,顺便分享一下. 昨天晚上想玩玩zookeeper集群,在vb里复制了一台主机,可怎么也无法获取IP,经研究,终于还是解决了. 1.复制主机时勾选 ...
- JS DOM 1
接触JS也有快一个月了,现在来总结一下看过的书,一本本总结,之后再融会贯通,也许更有助于学习.废话不多说,现在看的是<JavaScript DOM编程艺术>,该书挺薄的,不太会望而生畏,( ...
- canvas常用属性方法由浅下沉
首先引入<canvas></canvas>标签就不必说了. 其次就是得到canvas的2d环境了( var ctx = canvasDom.getContext('2d') ) ...
- 【 es搜索】
地图搜索实现: ①参数: 左下角经纬度和右上角经纬度 图层数(zoom) 关键字等各种数据库中的字段 排序方式 具体的坐标点+距离 ②实现 a.用es作为关系库,首先先mapping所有的字段,然后用 ...
- python 爬虫(爬取网页的img并下载)
from urllib.request import urlopen # 引用第三方库 import requests #引用requests/用于访问网站(没安装需要安装) from pyquery ...
- UART学习之路(四)VerilogHDL实现的简单UART,VIVADO下完成仿真
用VerilogHDL实现UART并完成仿真就算是对UART整个技术有了全面的理解,同时也算是Verilog入门了.整个UART分为3部分完成,发送模块(Transmitter),接收模块(Recei ...
- 推荐 的FPGA设计经验(4) 时钟和寄存器控制架构特性使用
Use Clock and Register-Control Architectural Features FPGAs provide device-wide clocks and register ...
- POJ2431_Expedition_KEY
题目传送门 由题目可得,在一条路上有N个加油站,在距离终点a[i](细节)的位置上,你需要通过长度为L的路,油箱的容量是无限的,但是初始只有P点油,经过每个加油站时可以选择加b[i]的油,问最少加油几 ...