关于编码的发展演变：ASCII、GB2312、GBK、gb18030、Unicode、UTF-8

【1】ASCII 每个字符占据1bytes（字节），第一次以规范标准发表是在1967年，最后一次修订是在1986年。用二进制表示的话最高位必须为0（扩展的ASCII不在考虑范围内），因此ASCII只能表示128个字

【2】GB2312 最早一版的中文编码（1980年），每个字占据2bytes。由于要和ASCII兼容，那这2bytes最高位不可以为0了（否则和ASCII会有冲突）。在GB2312中收录了6763个汉字以及682个特殊符号，已经囊括了生活中最常用的所有汉字。

【3】GBK 由于GB2312只有6763个汉字，汉语博大精深，怎么够？于是GBK中在保证不和GB2312、ASCII冲突（即兼容GB2312和ASCII）的前提下，也用每个字占据2bytes的方式又编码了许多汉字。经过GBK编码后，可以表示的汉字达到了20902个，另有984个汉语标点符号、部首等。值得注意的是这20902个汉字还包含了繁体字。

【4】GB18030 然而，GBK的两万多字也已经无法满足我们的需求了，还有更多可能你自己从来没见过的汉字需要编码。这时候显然只用2bytes表示一个字已经不够用了（2bytes最多只有65536种组合，然而为了和ASCII兼容，最高位不能为0就已经直接淘汰了一半的组合，只剩下3万多种组合无法满足全部汉字要求）。

因此GB18030多出来的汉字使用4bytes编码。当然，为了兼容GBK，这个四字节的前两位显然不能与GBK冲突（实操中发现后两位也并没有和GBK冲突）。我国在2000年和2005年分别颁布的两次GB18030编码，其中2005年的是在2000年基础上进一步补充。至此，GB18030编码的中文文件已经有七万多个汉字了，甚至包含了部分少数民族文字。由于全球200多个国家和地区，加上每个国家的差异，如果都占据一个表，那解码就太尴尬了。

【5】Unicode 万国码，统一码，1994年正式发布，以2bytes将各个国家的编码整合在一起，没有改变编码位置，所以Unicode是可以向下兼容GBK、GB2312的。但是由于原本ASCII码是用1bytes的，很多使用ASCII码的，如果采用这种方式编码，体积将变大一倍，造成资源浪费于是有了UTF-8。

【6】UTF-8，是Unicode码的压缩，重排。ASCII码部分仍旧使用1字节，汉字等使用3字节。如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间

字符	ASCII	Unicode	UTF-8
A	01000001	00000000 01000001	01000001
中	x	01001110 00101101	11100100 10111000 10101101

微软默认的中文编码就是GBK，

 print u"我爱拍森！"

 #前面加个u，就可以将中文字符串，转换为Unicode，可以向下兼容GBK，因此不会乱码，主要是Python2下

关于编码的发展演变：ASCII、GB2312、GBK、gb18030、Unicode、UTF-8的更多相关文章

字符编码-ASCII,GB2312,GBK,GB18030
ASCII ASCII,GB2312,GBK,GB18030依次增加,向下兼容. 手机只需要支持GB2312 电脑中文windows只支持GBK 发展历程如果你使用编译器是python2.0版本,默 ...
汉字编码：GB2312, GBK, GB18030, Big5
前一篇博文:ANSI是什么编码?中有这样一段小故事: 话说计算机是由美国佬搞出来的嘛,他们觉得一个字节(可以表示256个编码)表示英语世界里所有的字母.数字和常用特殊符号已经绰绰有余了(其实ASCII ...
GB2312,GBK,GB18030,UTF8四种汉字编码标准有什么差别和联系
从GB2312.GBK 到 GB18030,这些编码方法是向下兼容的,即同一个字符在这些方案中总是有同样的编码,后面的标准支持很多其它的字符.在这些编码中,英文和中文能够统一地处理. 区分中文编 ...
ASCII,unicode, utf8 ,big5 ,gb2312,gbk,gb18030等几种常用编码区别（转载）
原文出处:http://www.blogjava.net/xcp/archive/2009/10/29/coding2.html 最近老为编码问题而烦燥,下定决心一定要将其弄明白!本文主要总结网上一些 ...
字符编码的发展（ASCII、Unicode、utf-8）
最近一直在看廖雪峰老师的python网上教程,python内容简单易理解,就没整理,但是字符串编码作为一直困扰自己的问题,看了几遍文章,最终还是将其整理如下,本篇博客总结自廖雪峰老师的网上教程:htt ...
编码方式ASCII、GBK、Unicode、UTF-8比较
文章内容深度较浅,详细了解可到下链接:https://blog.csdn.net/QuinnNorris/article/details/78705723; 总结了以下几种编码方式: ASCII.GB ...
字符编码的故事（ASCII，ANSI，Unicode，Utf-8区别）转载
http://www.imkevinyang.com/2009/02/字符编解码的故事(ascii,ansi,unicode,utf-8区别).html 很久很久以前,有一群人,他们决定用8个可以开合 ...
汉字编码（GB2312 GBK GB18030）
GB2312 收录简化汉字及符号.字母.日文假名等共7445个图形字符,其中汉字占6763个每个符号都用两个字节表示,每个字节均采用七位编码表示,习惯上第一个字节是高字节,第二个字节是低字节 GB ...

随机推荐

FTP主动模式与被动模式说明
FTP是仅基于TCP的服务,不支持UDP.与众不同的是FTP使用2个端口,一个数据端口和一个命令端口(也可叫做控制端口).通常来说这两个端口是21(命令端口)和20(数据端口).但FTP工作方式的不同 ...
关于distinct 和group by的去重逻辑浅析
在数据库操作中,我们常常遇到需要将数据去重计数的工作.例如: 表A,列col A C A B C D A B 结果就是一共出现4个不同的字母A.B.C.D 即结果为4 大体上我们可以选择count(d ...
copyTo和clone的区别/制作mask的fillpoly函数（有问题）
OpenCV中mat::copyto( )函数使用方法 OpenCV的fillPoly函数使用OpenCV库进行图像处理时,经常会用到clone和copyTo函数,这里对两个函数进行介绍. copy ...
agc014F Strange Sorting
这套题比较简单,以为自己能够独立A掉D和E,或许就能自己A掉F,看来还真是想多了题意:给一个$n$的全排列,每次操作把$max(a[1],a[2],...,a[i]) = a[i]$的记为$high ...
Connection reset问题,INFO: I/O exception (java.net.SocketException) caught when processing reques
困扰我多年的Connection reset问题第一次出现:是thrift的python client去请求server,发现偶尔出现这个问题第二次:接入第三方的api,去请求数据时,发现一个接入 ...
windows 环境下搭建docker私有仓库
windows 环境下搭建docker私有仓库 1.在公用仓库中pull仓库镜像 docker pull regitry 2.启动仓库镜像 //-d意思是后台运行,-p是做端口映射,这里是将本地的50 ...
python基础--线程、进程
并发编程: 操作系统:(基于单核研究) 多道技术: 1.空间上的复用多个程序共用一个计算机 2.时间上的复用切换+保存状态例如:洗衣烧水做饭切换: 1.程序遇到IO操作系统会立刻剥夺着CP ...
Ubuntu 安装 RabbitMQ 和PHP扩展 - CSDN博客
1.ubuntu16.04中安装RabbitMQ 1).首先必须要有Erlang环境支持安装之前要装一些必要的库: sudo apt-get install build-essential sud ...
两张图搞清composer install与update区别 - 今日头条(www.toutiao.com)
composer update : 主要是在开发阶段使用,根据我们在composer.json文件中指定的内容升级项目的依赖包. composer install : 主要是在部署阶段使用,以便在生产 ...
GitHub的注册与使用
1. 注册账号: 地址: https://github.com/输入账号.邮箱.密码,然后点击注册按钮. 2. 初始设置注册完成后,选择Free免费账号完成设置 3.验证账号新建一个仓库发现邮箱 ...

关于编码的发展演变：ASCII、GB2312、GBK、gb18030、Unicode、UTF-8

关于编码的发展演变：ASCII、GB2312、GBK、gb18030、Unicode、UTF-8的更多相关文章

随机推荐

热门专题