你真的理解编码吗?unicode,utf8,utf16详解
背景
前两天在网上看到一篇关于编码的讨论,仔细学习了一下unicode,utf8,utf16的定义。这篇博客旨在让读者真正理解他们是什么。
什么是编码
在阅读本文之前建议读者先去阅读这篇文章:http://www.freebuf.com/articles/others-articles/25623.html,如果你没有耐心读完他也没关系,只需要明白三个道理:
1,这个世界上从来没有纯文本这回事,如果你想读出一个字符串,你必须知道它的编码。如果你不知道一段数据流的编码方式,你就永远不会知道这里面的内容。
2,Unicode是一个简单的标准,用来把字符映射到数字上。Unicode协会的人会帮你处理所有幕后的问题,包括为新字符指定编码。我们用的所有字符都在unicode里面有对应的映射,每个映射称为一个码点(http://en.wikipedia.org/wiki/Code_point)
3,Unicode并不告诉你字符是怎么编码成字节的。这是被编码方案决定的,通过UTF来指定。
读完前面这篇文章之后你也许就了解了一个二进制流到屏幕字符的过程:
二进制流->根据编码方式解码出码点->根据unicode码点解释出字符->系统渲染绘出这个字符
文本字符保存到计算机上的过程:
输入字符->根据字符找到对应码点->根据编码方式把码点编码成二进制流->保存二进制流到硬盘上
从这个过程我们可以知道能不能从二进制流读取出字符关键就在于能不能找到二进制流的编码,掌握了编码方式的信息就可以用对应的逆过程解码。
看到这里有读者一定会问:为什么要编码,根据二进制流计算码点不好吗?
原因是良好设计的编码可以为我们提供很多附加的功能,包括容错纠错(在网络通信中尤其重要),自同步(不必从文本头部开始就可以解码)等等。编码从信息论的角度上来说就是增加了冗余的信息,冗余的这部分信息就可以为我们提供额外的功能。
utf8的编码规则
我们来看utf8和utf16具体是如何编码的:
Utf8有如下特点:
1.可变长编码,由第一个字节决定该字符编码长度
2.向下兼容ascii码(这也是为什么用utf8编码可以完美打开ascii文本文件)
Utf8的编码规则:
- 一个字节的编码完全用于ascii码(从0-127)
- 大于127的码点都用多字节来编码,多字节包含开头字节和后续字节
开头字节以若干个1开头(长度为几就有几个1,因此只要读完开头字节就可以知道本字符共有多少个字节),后接1个0.后续字节都以10开头
- 从右到做,后续字节每个字节占用原码点6个位,剩余的放在开头字节。
- 开头字节和后续字节不共享任何数据,因此utf8是自同步的。举例来说我们看到一个字节以110…开头时,我们就知道这是一个2字节的字符的开头字节。
具体来举几个例子: