【转】【编码】ASCII 、UNICODE和UTF-8之二

字符发展

1. 美国

ASCII-（American standard code information interchange) 美国信息互换标准代码

范围：1-127 ; 单字

备注：前部用作控制码，0x20以下的字节状态称为"控制码"；后面跟数字，字母大小写至127

2. 美国

ASCII扩展编码

范围:128-255; 单字

备注：很多画表格时需要用下到的横线、竖线、交叉等形状，一直把序号编到了最后一个状态255

3. 中国GB2312

原由：中国人们得到计算机时，有6000多个常用汉字需要保存呢

规定：一个小于127的字符的意义与原来相同，但两个大于127的字符连在一起时，就表示一个汉字，

前面的一个字节（他称之为高字节）从0xA1用到 0xF7，后面一个字节（低字节）从0xA1到0xFE，

这样我们就可以组合出大约7000多个简体汉字了

范围：0xA1A1~0xF7FE;双字

备注：连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码，

这就是常说的"全角"字符，而原来在127号以下的那些就叫"半角"字符了

4. 中国GBK

原由：但是中国的汉字太多了，我们很快就就发现有许多人的人名没有办法在这里打出来

规定：于是干脆不再要求低字节一定是127号之后的内码，只要第一个字节是大于127就固定表示这是一个汉字的开始

范围：0xA100~0xFFFF双字

备注：GBK兼容GB2312，此时20000个新的汉字（包括繁体字）和符号

后来少数民族也要用电脑了，于是我们再扩展，又加了几千个新的少数民族的字，GBK 扩成了GB18030

5. 双字时代

我们看到这一系列汉字编码的标准是好的，于是通称他们叫做 "DBCS"（Double Byte Charecter Set 双字节字符集）

原因：台湾出现BIG5;日本出现了XXX

ISO - (international standard orginaztion) 国际标谁化组织的出现，提出规范化编码措施

废除所有地区编码规范，提出统一编码原则

6. UNICODE (Universal Multiple-Octet Coded Character Set"，简称 UCS)

规定:于是 ISO 就直接规定必须用两个字节，也就是16位来统一表示所有的字符，

对于ascii里的那些“半角”字符，UNICODE 包持其原编码不变，

只是将其长度由原来的8位扩展为16位，而其他文化和语言的字符则全部重新统一编码。

由于"半角"英文符号只需要用到低8位，所以其高 8位永远是0，

英文文本时会多浪费一倍的空间。

范围：0x0000~0xFFFF双字

备注：他们为了在不同的国家销售同一套软件，

就不得不在区域化软件时也加持那个双字节字符集咒语，

不仅要处处小心不要搞错，

还要把软件中的文字在不同的字符集中转来转去。UNICODE 对于他们来说是一个很好的一揽子解决方案

，于是从 Windows NT 开始，MS 趁机把它们的操作系统改了一遍，

把所有的核心代码都改成了用 UNICODE 方式工作的版本，

从这时开始，WINDOWS 系统终于无需要加装各种本土语言系统，就可以显示全世界上所有文化的字符了。

UNICODE 在制订时没有考虑与任何一种现有的编码方案保持兼容；

这使得 GBK 与UNICODE 在汉字的内码编排上完全是不一样的，这种转换必须通过查表来进行。

7. 网络数据交换时代

UNICODE -2 (65535) 二字节(简写UCS-2)

UNICODE - 4 (....) 四节节(简写UCS-4)

A)、字符是如何保存在内存中的呢？

在字符或字符串前加L表示后面跟的是UNICODE

wchar_t wch = L'1'; // 2 bytes, 0x0031

wchar_t* wsz = L"Hello"; // 12 bytes, 6 wide characters

1)、单字节字符串都是字符一一保存，以0结尾。

"Bob" 内存中形式为：

42 6F 62 00

B o b EOS

2)、Big Endian和Little Endian

上面提到了一个字符可能占用多个字节，那么这多个字节在计算机中如何存储呢？比如字符0xabcd，它的存储格式到底是 AB CD，还是 CD AB 呢？

实际上两者都有可能，并分别有不同的名字。如果存储为 AB CD，则称为Big Endian；如果存储为 CD AB，则称为Little Endian。

具体来说，以下这种存储格式为Big Endian，因为值(0xabcd)的高位(0xab)存储在前面：

系统开发者应该对Little-endian和Big-endian模式非常了解。采用Little-endian模式的CPU对操作数的存放方式是从低字节到高字节，

而Big-endian模式对操作数的存放方式是从高字节到低字节。

例如，16bit宽的数0x1234在Little-endian 模式CPU内存中的存放方式（假设从地址0x4000开始存放）为：

内存地址 0x4000 0x4001

存放内容 0x34 0x12

而在Big-endian模式CPU内存中的存放方式则为：

内存地址 0x4000 0x4001

存放内容 0x12 0x34

32bit宽的数0x12345678在 Little-endian模式CPU内存中的存放方式（假设从地址0x4000开始存放）为：

内存地址 0x4000 0x4001 0x4002 0x4003

存放内容 0x78 0x56 0x34 0x12

而在Big-endian 模式CPU内存中的存放方式则为：

内存地址 0x4000 0x4001 0x4002 0x4003

存放内容 0x12 0x34 0x56 0x78

3)、任何文字在Unicode中都对应一个值，这个值称为代码点（code point）。

规定存储方式的称为UTF（Unicode Transformation Format），其中应用较多的就是UTF-16和UTF-8了。

UTF-16BE和UTF-16LE不难理解，而UTF-16就需要通过在文件开头以名为BOM（Byte Order Mark）的字符来表明文件是Big Endian还是Little Endian。

BOM为U+FEFF这个字符。

举个例子。“ABC”这三个字符用各种方式编码后的结果如下：

UTF-16BE 00 41 00 42 00 43

UTF-16LE 41 00 42 00 43 00

UTF-16(Big Endian) FE FF 00 41 00 42 00 43

UTF-16(Little Endian) FF FE 41 00 42 00 43 00

UTF-16(不带BOM) 00 41 00 42 00 43

4)、UTF-8

UTF-16和UTF-32的一个缺点就是它们固定使用两个或四个字节，这样在表示纯ASCII文件时会有很多00字节，造成浪费。而RFC3629定义的UTF-8则解决了这个问题。

UTF-8用1～4个字节来表示代码点。表示方式如下：

Unicode是一个字符集，而UTF-8是Unicode的其中一种，Unicode是定长的都为双字节，而UTF-8是可变的，

对于汉字来说Unicode占有的字节比UTF-8占用的字节少1个字节。Unicode为双字节，而UTF-8中汉字占三个字节。

UTF-8编码字符理论上可以最多到6个字节长,然而16位BMP（Basic Multilingual Plane）字符最多只用到3字节长。下面看一下UTF-8编码表：

U-00000000 - U-0000007F: 0xxxxxxx

U-00000080 - U-000007FF: 110xxxxx 10xxxxxx

U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx

U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

【转】【编码】ASCII 、UNICODE和UTF-8之二的更多相关文章

字符编码 ASCII,Unicode和UTF-8的关系
转自:http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/00143166410626 ...
字符编码 ASCII unicode UTF-8
字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题. 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机在设计时采用8个比特(bit)作为一个字节(b ...
35 编码 ASCII Unicode UTF-8 ,字符串的编码、io流的编码
* 编码表: * 信息在计算机上是用二进制表示的,这种表示法让人理解就很困难.为保证人类和设备,设备和计算机之间能进行正确的信息交换,人们编制的统一的信息交换代码,这就是ASCII码表 *ASCII ...
文字编码ASCII，GB2312，GBK，GB18030，UNICODE，UCS，UTF的解析
众所周知,一个文字从输入到显示到存储是有一个固定过程的,其过程为:输入码(根据输入法不同而不同)→机内码(根据语言环境不同而不同,不同的系统语言编码也不一样)→字型码(根据不同的字体而不同)→存储码( ...
【转】【编码】ANSI,ASCII,Unicode,UTF8之一
不同的国家和地区制定了不同的标准,由此产生了 GB2312.GBK.GB18030.Big5.Shift_JIS 等各自的编码标准.这些使用多个字节来代表一个字符的各种汉字延伸编码方式,称 ...
聊聊计算机中的编码（Unicode，GBK，ASCII，utf8，utf16，ISO8859-1等）以及乱码问题的解决办法
作为一个程序员,一个中国的程序员,想来“乱码”问题基本上都遇到过,也为之头疼过.出现乱码问题的根本原因是编码与解码使用了不同而且不兼容的“标准”,在国内一般出现在中文的编解码过程中. 我们平时常见的编 ...
编码 ASCII, GBK, Unicode+utf-8
0. 1.参考网页编码就是那点事阮一峰字符编码笔记:ASCII,Unicode 和 UTF-8 2.总结美国 ASCII 码发音: /ˈæski/ :128个字符,只占用了一个字节的后面7位 ...
ASCII, Unicode, UTF-8, 8进制, 16进制等各种编码学习理解笔记
字符编码的发展历史 Unicode和UTF-8有何区别? 在这个问题下的于洋的最高票回答中,比较完整地介绍了字符编码的发展历史,为了便于记忆,再次简要概括一番. 一个字节:最初一个字节的标准是混乱的, ...
ASCII,unicode, utf8 ,big5 ,gb2312,gbk,gb18030等几种常用编码区别（转载）
原文出处:http://www.blogjava.net/xcp/archive/2009/10/29/coding2.html 最近老为编码问题而烦燥,下定决心一定要将其弄明白!本文主要总结网上一些 ...
初学者对ASCII编码、Unicode编码、UTF-8编码的理解
最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是 255(二进制 11111111=十进制 255),如果要表示更大的整数,就必须用更多的字节. ...

随机推荐

Hosts知多少?
Hosts知多少? 老D hosts 定期更新地址: http://laod.cn/hosts/2016-google-hosts.html 老Dhosts 页面长期更新最新Google.谷歌 ...
nginx配置文件详解( 看着好长，其实不长，看了就知道了，精心整理，有些配置也是没用到呢 )
user www www; #定义Nginx运行的用户和用户组 worker_processes ; #nginx进程数,建议设置为CPU核数2倍. error_log var/log/ ...
jQuery监听键盘事件及相关操作使用教程
一.首先需要知道的是: 1.keydown() keydown事件会在键盘按下时触发. 2.keyup() keyup事件会在按键释放时触发,也就是你按下键盘起来后的事件 3.keypress() k ...
css书写规则总结
1. JavaScript钩子使用的class不能是css class,要加j或j-前缀 2. 选择器 2.1 css选择器尽量简短,层级要少,最好是1-2层例如:.nav{} 优于 ul.nav{ ...
（转载）ecshop制作成手机网站的方法
ecshop用手机访问的时候,会自动跳转到 /mobile 目录下,ecshop自带的wap模板是用wml制作的,如果按这种情况,又需要制作一套模板,太麻烦,现在都是智能手机时代,wml模板已经不能 ...
php生成唯一随机码
最终使用: echo md5(time() . mt_rand(1,1000000)) //A:利用时间戳的方法 md5("admin"); // B:32位MD5加密 subst ...
@SuppressWarnings的使用、作用、用法
在java编译过程中会出现很多警告,有很多是安全的,但是每次编译有很多警告影响我们对error的过滤和修改,我们可以在代码中加上 @SuppressWarnings(“XXXX”) 来解决例如:@S ...
【9-20】vimtutor学习笔记
第一节 ghjk移动光标 :q!:强制退出vim x:删除光标处的字符 i:在光标处插入 A:附加文本 :wq:保存文档并退出第二节 dw:删除一个单词 d$:删除至行尾 de:删除光标处到该单词结 ...
弹出框一之基于bootstrap和jquery的自定义弹出框
(function ($) { window.Ewin = function () { var html = '<div id="[Id]" class="moda ...
vijos1741 观光公交（贪心）
https://www.vijos.org/p/1741 P1741观光公交请登录后递交标签:NOIP提高组2011[显示标签] 描述风景迷人的小城Y市,拥有n个美丽的景点.由于慕名而来的游 ...

【转】【编码】ASCII 、UNICODE和UTF-8之二

【转】【编码】ASCII 、UNICODE和UTF-8之二的更多相关文章

随机推荐

热门专题