字符编码ASCII、Unicode、GB

计算机的存储都是二进制的，那么我们平时看到的各种字符都需要通过按照一定的格式转换成为二进制才能在被计算机识别与处理。这个过程便成为编码。常见的编码方式有ASCII、Unicode、GB2312等。

1.ASCII码；

2.Unicode字符集；

3.GB2312汉字编码；

1.ASCII码：

我们知道计算机中一个字节(byte)是由八位二进制表示的，每个二进制为0或者1，因此一个字节一共可以表示256个字符。ASCII码是指使用一个字节的低七位表示128种字符,这些字符有些是可以打印的，有些是用于控制起到特定效果的非打印字符。对于ASCII码我们应该都很熟悉，比如大小写的拉丁字母、数字、和标点符号,./等都可以通过ASCII码来编码。

但是ASCII码仅能表示128个字符，这对于除了英语以外，其它的语言是不够用的，因此有些地方便保持低七位不变仍对应原先的128个字符，而将高八位也使用上去变成一共256个字符，用来表示基础ASCII码未能表示的字符，和其它国家的语言字符。但是这又造成了不同的国家后128个字符各不相同的情况，而且256个字符对于汉字等语言是远远不够的。因此便出现了Unicode字符集。

2.Unicode字符集：

相对于ASCII码只能表示128或256个字符的情况，Unicode是联合国制定的用于涵盖所有国家字符的字符集，它用双字节或者多个字节表示。需要说明的是Unicode只是一个字符集，它表明了字符和二进制之间的对应关系，并不说明字符是如何编码存储的。而实现其编码方式的是UTF-8、UTF-16等。所以UTF-8、UTF-16等才是其对应的编码方式。

UTF-8：

UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。而且他是兼容ASCII码的，也就是说原先的ASCII字符用UTF-8编码仍是占用一个字节，并且编码与ASCII相同。
UTF-8的编码规则很简单，只有二条：
1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。
2）对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

下表总结了编码规则，字母x表示可用编码的位。

UTF-16：

与UTF-8相似，只是UTF-8使用8位编码，占用1-4个字节，而UTF-16使用16位编码，占用2或4个字节。

对于Unicode字符集还存在一个问题，就是编码是字节排序的问题，即Little
endian和Big endian。比如使用双字节表示Unicode码E1 A5时。按照Little
endian方式是低位在前高位在后，即存储为E1 A5；而按照Big endian方式时是高字节在前低字节在后，即存储为A5 E4。

3.GB2312汉字编码：

GB2312与GB18030是国标对汉字的编码。GB18030兼容GB2312。都使用双字节表示。而GBK则是对国标码的扩充。同样也用双字节表示。

字符编码ASCII、Unicode、GB的更多相关文章

字符编码 ASCII,Unicode和UTF-8的关系
转自:http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/00143166410626 ...
字符编码 ASCII unicode UTF-8
字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题. 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机在设计时采用8个比特(bit)作为一个字节(b ...
彻底搞清楚字符编码: ASCII, ISO_8859, GB2312,UCS, Unicode, Utf-8
彻底搞清楚字符编码: ASCII, ISO_8859, GB2312,UCS, Unicode, U 1.ASCII: 0-127(128-255未使用),美国标准 2.IS0-8859-1(lati ...
字符编码(ASCII，Unicode和UTF-8) 和大小端
本文包括2部分内容:“ASCII,Unicode和UTF-8” 和 “Big Endian和Little Endian”. 第1部分 ASCII,Unicode和UTF-8 介绍 1. ASCII码 ...
字符编码 ASCII，Unicode 和 UTF-8 概念扫盲
今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料. 结果,这个问题比我想象的复杂,从午饭后一直看到晚上9点,才算初步搞清楚. 下面就是我的笔记,主要用来整理自己的思 ...
字符编码ASCII，Unicode 和 UTF-8
一直对编码的概念很模糊,今天抽空突然想了解下,就找到了这个文章,看完真的豁然开朗,必须感谢阮一峰先生. 一.ASCII 码我们知道,计算机内部,所有信息最终都是一个二进制值.每一个二进制位(bit) ...
Java 字符编码 ASCII、Unicode、UTF-8、代码点和代码单元
1 ASCII码统一规定英语字符与二进制位之间的关系.ASCII码一共规定了128个字符的编码.例如,空格“SPACE”是32(二进制00100000),大写字母A是65(二进制01000001). ...
字符编码(ASCII，Unicode和UTF-8) 和大小端(zz)
本文包括2部分内容:“ASCII,Unicode和UTF-8” 和 “Big Endian和Little Endian”. 第1部分 ASCII,Unicode和UTF-8 介绍 1. ASCII码 ...
字符编码 ASCII、Unicode和UTF-8的关系
摘抄自廖雪峰教程字符编码我们已经讲过了,字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题. 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机 ...

随机推荐

第一个Spring Boot程序启动报错了
创建完成第一个Spring Boot项目后,准备运行,尝一下胜利的果实. 启动日志如下 . ____ _ __ _ _ /\\ / ___'_ __ _ _(_)_ __ __ _ \ \ \ \ ( ...
docker 存储定义成direct-lvm 模式
配置direct-lvm模式 1. 停止Docker systemctl stop docker 2. 安装依赖包 device-mapper-persistent-data,lvm2, and ...
VOFM 例程
SAP ERP 实施中,经常会用到例程开发(TCODE:VOFM).这个开发目前我用到的是影响SD和MM的定价过程.创建例程需要ACCESS KEY,这个可以通过申请得到,创建后例程会被包含在一个RE ...
Django模型系统——ORM校园管理系统代码
1.models.py from django.db import models # Create your models here. class Class(models.Model): id = ...
python开发环境必备之vim配置
俗话说:工欲善其事,必先利其器.最近使用python,习惯了liunx和vim,打算将vim作为python开发工具,下面就配置vim,以让它成为python开发的利器,增强我们的开发体验!废话少说, ...
广义表(C++实现)
广义表是非线性结构,其定义是递归的. 以下给出几种简单的广义表模型: 由上图我们可以看到,广义表的节点类型无非head.value.sub三种,这里设置枚举类型,利用枚举变量来记录每个节点的类型: e ...
<再看TCP/IP第一卷>TCP/IP协议族中的最压轴戏----TCP协议及细节
题外话:刚刚过去的半个月实在是忙得我喘不过来气,虽然手里还压着几个项目得在期末考试之前做完,但是想想还是更新一下随笔,稍微换个心情.另外小吐槽一下那些在博客园里原封不动抄书当随笔的人,唉真是....算 ...
Windows 7 比Windows XP 难用的功能
Windows 7 的搜索功能做得实在难用,不仅慢,还经常搜不到文件(明明存在的文件却搜不到).相比Windows XP,这个功能差的太远了. Windows 7 的无线连网功能,即使设置为不要自动连 ...
java入门了解06
1.进程 : (一)正在执行的程序称作为一个进程. 进程负责了内存空间的划分. (二)问题: windows号称是多任务的操作系统,那么windows是同时运行多个应用程序吗? 从宏观的角度: ...
App开发流程之创建项目和工程基本配置
我的开发环境为:Mac OS X EI Capitan(10.11.6),Xcode 7.3.1 首先说明一下这个项目的初衷,我并非要创建一个完整的上架应用,旨在创建一个可运行的,通用配置.架构,提供 ...

字符编码ASCII、Unicode、GB

字符编码ASCII、Unicode、GB的更多相关文章

随机推荐

热门专题