ASCII、 Unicode 和 UTF8

ASCII：英文字母与数字编号的一一对应。每个英文字母对应一个编号。范围0~127
Unicode：全世界所有语言中字符与数字编号的一一对应。也即为存在的每个字符指定一个唯一的编号。范围为0~0x10FFFF。

所以，

ASCII与Unicode是类似的东西，都是为一个字符指定一个唯一的数字编号

只不过Unicode的范围更大，能够表示更多的字符。

在计算机的世界里，只有数字，而不会有什么字符。一个字符在计算机看来就是一个数字。ASCII与Unicode就是将字符与数字一一对应起来的映射。比如对于字符'A'，在计算机看来，它就是一个数字65。

当字符串被写入文件时，也是将字符串中每个字符对应的数字编号保存在文件。

以上是ASCII和Unicode的相同点。那么，二者有什么区别？

一个显著的区别是，对于同一段文本，二者保存到文件后占用的字节数不同。对于ASCII，每个数字编号占用一个字节。而对于Unicode，每个编号则需要占用3个字节。因此对于同一段文本：'abcd'，采用ASCII格式保存时，文件的大小为4个字节。采用Unicode保存时，文件的大小则为12个字节。

由此也可看出，当待保存文本为纯英文字母时，

采用Unicode的存储效率太低了

UTF8便是为了解决Unicode存储效率低下而产生的。具体的规则就不讲了，先来看一下UTF8能够达到的效果。

对于相同的文本：'abcd'，Unicode需要12个字节，而UTF8只需要4个字节（和ASCII一样，达到最优）。

UTF8之所以可以用一个字节存储英文字母，是因此它使用了变长的编码方式。也即，对于英文字母，它采用一个字节保存这个字符。对于英文字母之后的字符，它采用两个字节保存这个字符。对于再之后的字符，采用三个字节保存。最多采用四个字节保存一个字符。

所以UTF8对于存储英文字母的高效率来源于对之后字符保存效率的牺牲。这里的合理性在于：如果待保存的文本中字符大多数为英文字母，则存储效率能够提高，因为大多数字符都是采用一个字节保存。

总结来说，

UTF8是对Unicode在存储效率上的优化

以上便是三者的关系。

ASCII和Unicode都是为一个字符指定一个唯一的数字编号，Unicode能够表达更多的字符，相当于是ASCII的扩展。Unicode存在存储效率低下的问题，UTF8是在这个方面对Unicode的优化。

ASCII、 Unicode 和 UTF8的更多相关文章

关于ASCII,Unicode和UTF-8
自己也不是很明白这些编码,百度了一下,整理出来与大家分享分享,在此感谢作者. 先说说这些编码 ANSI:最早的时候计算机ASCII码只能表示256个符号(含控制符号),这个字符集表示英文字母足够,其中 ...
字符编码 ASCII,Unicode和UTF-8的关系
转自:http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/00143166410626 ...
码表 ASCII Unicode GBK UTF-8
2017-1-3 [ASCII]一个字节(7位,128个字符,2个16进制) 不包含中文 ASCII(American Standard Code for Information Interchang ...
ASCII, Unicode 与 UTF-8
1,ASCII 由于计算机是美国人发明的,最早只有127个字符,即大小写英文字母.数字.一些符号,被编码到计算机里,这个编码表就是ASCII表.这时每个字符用1 Byte表示. 2,Unicode 当 ...
ASCII、Unicode、UTF-8、UTF-8（without BOM）、UTF-16、UTF-32傻傻分不清
ASCII.Unicode.UTF-8.UTF-8(without BOM).UTF-16.UTF-32傻傻分不清目录 ASCII.Unicode.UTF-8.UTF-8(without BOM). ...
字符编码笔记：ASCII，Unicode和UTF-8
很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到8个开关状态是好的,于是他们把这称为"字节". 再后来,他们又做了一些可以处理 ...
字符编码笔记：ASCII，Unicode和UTF-8 转
本文出处 http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html 只是为了记录一下省得要去搜. 今天中午,我突然想搞清楚 ...
理解记忆三种常见字符编码：ASCII, Unicode,UTF-8
理解什么是字符编码? 计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是25 ...
[转]字符编码笔记：ASCII，Unicode和UTF-8
转自:http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html 作者: 阮一峰日期: 2007年10月28日今天中午, ...
字符编码笔记：ASCII，Unicode和UTF-8(转载)
作者: 阮一峰日期: 2007年10月28日今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料. 结果,这个问题比我想象的复杂,从午饭后一直看到晚上9点,才算初步 ...

随机推荐

【一天一道LeetCode】#44. Wildcard Matching
一天一道LeetCode系列 (一)题目 Implement wildcard pattern matching with support for '?' and '*'. '?' Matches a ...
STL - string（典型操作demo）
1String概念 string是STL的字符串类型,通常用来表示字符串.而在使用string之前,字符串通常是用char*表示的.string与char*都可以用来表示字符串,那么二者有什么区别呢 ...
hadoop上C++开发两种方式的例子
百度在使用Hadoop过程中同样发现了Hadoop因为Java语言带来的低效问题,并对Hadoop进行扩展. 而在此之前,百度也尝试了 Hadoop PIPES 和 Hadoop Streamming ...
Windows7 64位机上，OpenCV中配置CUDA，实现GPU操作步骤
原文地址:http://blog.csdn.net/haorenka2010/article/details/24385955 按语:首先感谢http://blog.csdn.net/fengbing ...
Android中代码运行指定的Apk
有时候,当我们编写自己的应用的时候,需要通过代码实现指定的apk,安装指定的主题,或者安装新的apk.可以通过以下方法实现: private void installAPK(String apkUrl ...
深度剖析linux内核万能--双向链表,Hash链表模版
我们都知道,链表是数据结构中用得最广泛的一种数据结构,对于数据结构,有顺序存储,数组就是一种.有链式存储,链表算一种.当然还有索引式的,散列式的,各种风格的说法,叫法层出不穷,但是万变不离其中,只要知 ...
网站开发进阶(二十)JS中window.alert()与alert()的区别
JS中window.alert()与alert()的区别前言 alert与window.alert没什么区别,如果有人觉得有区别,那就来解释一下:所有以window.开始的语句,都可以直接把wind ...
细说Android事件传递
一.View的dispatchTouchEvent和onTouchEvent 探讨Android事件传递机制前,明确android的两大基础控件类型:View和ViewGroup.View即普通的控件 ...
关于getchar函数缓冲区的问题
最近,看到有同学问我关于getchar()这个函数缓冲区的问题,结合我以前的学习,我将对getchar()进行一次总结,当然,这些都是别人已经提过的东西,我只是总结,接下来我们来看看. 首先,用get ...
javascript、ruby和C性能一瞥(3) :上汇编
在博文(1)和(2)里分别用了4中方式写一个素数筛选的算法,分别是javascript in browser.node.js.ruby和c:最终的结果是c最快,node.js其次,js in b虽然也 ...

ASCII、 Unicode 和 UTF8

ASCII、 Unicode 和 UTF8的更多相关文章

随机推荐

热门专题