通过对比ASCII编码来理解Unicode编码

Unicode是个规范，可以理解为一个索引表，世界上所有字符基本上在这个索引表中都能找到唯一一个数码与之对应，就像ASCII码表一样，也是一个规范，也可以看成是一个索引表，所有的英文字符都可以在这个索引表中找到唯一一个数码与之对应。

在ASCII码表中，'\x61'对应的是字母'a'，\x表示告诉计算机以十六进制方式在ASCII表中找到第61（对应10进制的97）个字符，那么'\u'就是告诉计算机以Unicode的格式在Unicode表中找到相应的字符，比如'\u4e2d'就是告诉计算机在Unicode表中找到第4e2d（十六进制）个字符（计算机中肯定是保存了这个Unicode表的，不然上哪去查），也就是“中”这个字符。

对应到python代码：

至于utf-8或utf-16等等是Unicode这个规范的具体实现，比如“中”这个字，如果采用utf-8编码，那么在将“中”保存在文件中的时候，其实写入文件中的是\xe4\xb8\xad（即16进制的e4,b8,ad），而不是“中”对应的Unicode码（即4e2d）。

那么为什么不直接用Unicode码来表示Unicode字符本身，就像ASCII码直接就用来表示ASCII字符那样？

因为ASCII码对应的就那么一百来个字符，一个字节就能搞定了，但是Unicode规范收录的是全世界的字符，是一个相当庞大的集合，如果统一用Unicode码来表示每个字符，那么每个字符需要占用四个字节才能行，这样的话，对于像“中”这样的明明可以用两个字节就能表示的字符，为了统一，也必须占用4个字节才行，这样就浪费了大量的空间。

那么如果不统一占用四个字节，而是占多少就分配多少空间呢，比如“中”就占两个字节就行了，那就给它分配两个字节空间？这样的话，计算机就没法识别字符编码的边界了，比如“中”，你如果不告诉计算机它占用两个字节，计算机怎么会知道读两个字节就是“中”的编码边界。

所以为了解决空间浪费问题和计算机如何识别具体字符的编码的边界问题，就需要用不同的编码方式去实现Unicode规范，所以就有了utf8，utf16等编码方式。

阮一峰的博客可以参考一下：http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

通过对比ASCII编码来理解Unicode编码的更多相关文章

ASCII 、UTF-8、Unicode编码
1.各种编码的由来 1.1.计算机编码的由来因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.所以只能是用一些数字来表示文本,这就是编码的由来.最早的计算机在设计时采用8个比 ...
转换编码，将Unicode编码转换成可以浏览的utf-8编码
//转换编码,将Unicode编码转换成可以浏览的utf-8编码 public function unicodeDecode($name) { $pattern = '/([\w]+)|(\\\u([ ...
学习：多字节编码(ANSI)和UNICODE编码的关系
Windows 既可以使用 Unicode 字符集又可以使用传统的字符集(如多字节编码)来实现对多种语言的支持,以适应国际市场的要求.与传统的字符集编码相比,Unicode 是世界通用的字符编码标准, ...
UTF-8 - ASCII 兼容的多字节 Unicode 编码
描述 The Unicode 字符集使用的是 16 位(双字节)码.最普遍的 Unicode 编码方法( UCS-2) 由一个 16 位双字序列组成.这样的字符串中包括了的一些如‘\0’或‘/’这样的 ...
编码标准：ASCII、GBK、Unicode（UTF8、UTF16、UTF32）
英文编码(单字节字符集,码值范围0~127):字节最高位是0 ASCII编码,用于英文字符.中文编码(双字节字符集):首字节(8位)的最高位是1.可依据首字节最高位来判断中英文. GB2312, 旧版 ...
BIG5, GB(GB2312, GBK, ...), Unicode编码, UTF8, WideChar, MultiByte, Char说明与区别
汉语unicode编译方式,BIG5是繁体规范,GB是简体规范 GB是大陆使用的国标码,BIG5码,又叫大五码,是台湾使用的繁体码. BIG5编码, GB编码(GB2312, GBK, ...), U ...
.Net(c#)汉字和Unicode编码互相转换
{"Tilte": "\u535a\u5ba2\u56ed", "Href": "http://www.cnblogs.com&q ...
.Net(c#)汉字和Unicode编码互相转换实例
{"name": "\u676d\u5dde", "href": "www.baidu.com"} 经常遇到这样内容的j ...
汉字编码（【Unicode】【UTF-8】【Unicode与UTF-8之间的转换】【汉字 Unicode 编码范围】【中文标点Unicode码】【GBK编码】【批量获取汉字UNICODE码】）
Unicode与UTF-8互转(C语言实现):http://blog.csdn.net/tge7618291/article/details/7599902 汉字 Unicode 编码范围:http: ...

随机推荐

nginx 访问控制之 user_agent
user_agent大家并不陌生,可以简单理解成浏览器标识,包括一些蜘蛛爬虫都可以通过user_agent来辨识. 通过访问日志,可以发现一些搜索引擎的蜘蛛对网站访问特别频繁,它们并不友好. 为了减少 ...
mac mysql 使用注意事项
mac mysql 使用注意事项 .安装直接通过下载官网上的dmg安装包进行安装,mysql--osx10.-x86_64(我的安装文件) ,安装完成后在系统偏好设置里面有mysql选项,我们可以通 ...
阿里云服务器25端口禁用之如何使用Java发邮件(解决25端口禁用问题)
通常我们在本地使用Java发送邮件,通常是没有问题的,但是部署到服务器的话,就可能遇到问题.当然了,这与运营商也有关系.比如我之前在咖啡主机上购买虚拟机,然后将个人网站部署上去,通常是没有问题的,没有 ...
Octopus501工作站安装记录
cmake libreadline-dev 没有运行程序,nvidia-smi查看GPU-Util 达到100% 解决方案:需要把驱动模式设置为常驻内存才可以,设置命令:nvidia-smi -pm ...
php 对接微信接口 {"errcode":41001,"errmsg":"access_token missing hint
这里是针对所有token微信都有这种机制 1.token被多次访问无效访问微信接口->得到token,缓存起来2小时内有效,期间2小时内每次都取缓存即可,不必每次都去微信那边兑换问题:缓存期 ...
避免git clone和push时每次都需要输入用户名和密码
有三种方式解决git clone时每次都需要输入用户名和密码, 1. SSH免密方式使用git bash ssh-keygen或puttygen.exe生成公钥. 2. 配置全局开机存储认证信息下 ...
mysql5.7的主从切换
mysql5.7的主从切换主库: master 10.11.0.211 从库: slave 10.11.0.210 目标:主从切换,将slave切换为master,master切换为slave 一. ...
asp.net 的log4net的helper类
using log4net; using System; using System.Diagnostics; namespace MxWeiXinPF.Common.log { public stat ...
【GMT43智能液晶模块】例程十六：LAN_TCPS实验——以太网数据传输
源代码下载链接: 链接:https://pan.baidu.com/s/1e5Qp-xASjlA0pje3S7TdIg提取码:9v37 复制这段内容后打开百度网盘手机App,操作更方便哦 GMT43购 ...
mysql删除唯一索引
在项目中用spring data jpa指定了一个唯一索引: @Entity @Table(name = "t_product") @Getter @Setter @AllArgs ...

通过对比ASCII编码来理解Unicode编码

通过对比ASCII编码来理解Unicode编码的更多相关文章

随机推荐

热门专题