Unicode字符集和UTF-8, UTF-16, UTF-32编码

ASCII

在过去的计算中，ASCII码被用来表示字符。英语只有26个字母和其他一些特殊字符和符号。

下表提供了ASCII字符及其相应的十进制和十六进制值。

可以从上面的表中推断，在十进制数系统中，ASCII值可以表示为0到127。

让我们看一下0和127的二进制表示形式，在8位字节中。

0表示为

127表示为

可以从上面的二进制表示中推断出，0到127的十进制值可以用7位表示，而不是8位。

这就是事情开始变得混乱的地方。

人们想出了不同的方法来使用剩下的8位，它代表了从128到255的十进制值，并且开始发生碰撞。

例如使用的十进制值182在越南代表越南字母ờ而相同的值182被印第安人代表印地语字母घ。

如果电子邮件写的一个印度包含字母表घ如果是阅读一个人在越南似乎ờ。不打算出现的方法。

这就是Unicode字符集来保存这一天的地方。

Unicode和代码点

Unicode字符集将世界上的每个字符映射到一个唯一的数字。这确保了不同语言的字母表之间没有冲突。这些数字是平台无关的。

这些独特的数字被称为unicode术语中的代码点。

让我们看看它们是如何被引用的。

拉丁字符ṍ被称为使用代码点

U+1E4D
U +表示unicode和1 e4d十六进制值分配给角色ṍ
英文字母A被表示为U+0041。
请访问http://www.unicode.org/charts/了解代码点对所有语言和世界的字母
utf - 8编码
现在我们知道了什么是unicode，以及如何将世界上的每个字母表分配给一个惟一的代码点，我们需要一种方法来表示计算机内存中的这些代码点。这就是角色编码进入画面的地方。一个这样的编码方案是UTF-8。

UTF-8编码是一种可变大小的编码方案，用于表示内存中的unicode代码点。可变大小的编码意味着代码点使用1、2、3或4字节表示，这取决于它们的大小。

utf - 8 1字节编码
一个1字节的编码是通过在第一个比特中出现0来确定的。

英文字母A有unicode码点U+0041。它的二进制表示是1000001。

A用UTF-8编码表示。

红色0位表示使用1字节编码，其余的位表示代码点。

utf - 8 2字节编码
带有代码点U+00F1的拉丁字母n有二进制值11110001。这个值大于使用1字节编码格式表示的最大值，因此这个字母表将使用UTF-8 2字节编码表示。

2字节编码是由位序列110在第1位和第10位在第2位中出现。

unicode代码点U+00F1的二进制值为1111 0001。将这些位填充到2字节编码格式中，我们得到了如下所示的UTF-8 2字节编码表示。
填充是先从最不重要的代码点开始，然后将其映射到第二个字节中最不重要的部分。

蓝色11110001中的二进制数字表示代码点U+00F1的二进制值，红色的是2字节编码标识符。黑颜色的零被用来填充字节中的空比特。

utf - 8 3字节编码
ṍ的拉丁字符的代码点U + 1 e4d表示使用3字节编码是大于最大值,可以使用2字节编码表示。

一个3字节的编码是通过在第一个字节中出现的位序列1110和第二个和第三个字节中的10来标识的。

十六进制代码点0x1E4D的二进制值是1111001001101。填充这些位在上面的编码格式给我们的utf - 8 3字节编码表示ṍ显示如下。
开始填充的时候，最不重要的代码点映射到第三个字节中最不重要的部分。

红色位表示3字节编码，黑色表示填充位，蓝色表示代码点。

utf - 8 4字节编码
的Emoji												

											Unicode字符集和UTF-8, UTF-16, UTF-32编码的更多相关文章	

						转：Unicode字符集和多字节字符集关系
		原文地址: http://my.oschina.net/alphajay/blog/5691 unicode.ucs-2.ucs-4.utf-16.utf-32.utf-8 http://stallm ...
		
						Unicode字符集和多字节字符集关系
		  在计算机中字符通常并不是保存为图像,每个字符都是使用一个编码来表示的,而每个字符究竟使用哪个编码代表,要取决于使用哪个字符集(charset). 在最初的时候,Internet上只有一种字符集—— ...
		
						Unicode字符集和编码方式
		通常将一个标准中能够表示的所有字符的集合称为字符集,比如ISO/Unicode所定义的字符集为Unicode.在Unicode中,每个字符占据一个码位/Unicode 编号(用4位十六进制数表示,Co ...
		
								有关UNICODE、ANSI字符集和相关字符串操作
		Q UNICODE字符串如何显示 A 如果程序定义了_UNICODE宏直接用 WCHAR *str=L"unicodestring"; TextOut(0,0,str); 否则就需 ...
		
						字符集研究之多字节字符集和unicode字符集
		作者:朱金灿 来源:http://blog.csdn.net/clever101 本文简介计算机中两大字符集:多字节字符集和unicode字符集的出现及关系. 首先我们须要明确的是计算机是怎样找到字符 ...
		
						Unicode 字符和UTF编码的理解
		Unicode 编码的由来 我们都知道,计算机的内部全部是由二进制数字0, 1 组成的, 那么计算机就没有办法保存我们的文字, 这怎么行呢? 于是美国人就想了一个办法(计算机是由美国人发明的),也把文 ...
		
						Unicode字符以16进制表示
		int(x [,base ])         将x转换为一个整数 long(x [,base ])        将x转换为一个长整数 float(x )               将x转换到一个 ...
		
						转载一篇关于unicode字符编码的文章
		很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们认为8个开关状态作为原子单位很好,于是他们把这称为"字节". 再后来,他们又做了一 ...
		
						字符集和字符编码（Charset & Encoding）
		字符集和字符编码(Charset & Encoding)[转] 1.基础知识 计算机中储存的信息都是用二进制数表示的:而我们在屏幕上看到的英文.汉字等字符是二进制数转换之后的结果.通俗的说,按 ...
		
		
	

随机推荐	

									springboot在阿里CentOS 7后台永久运行
			查看Java进程可以使用 ps -ef|grep java 首次后台永久启动,会把日志输出到新建的log.file文件 nohup java -jar demo-0.0.1-SNAPSHOT.jar  ...
			
						撩课-Python-每天5道面试题-第3天
			一. 代码实现: 计算1到100之间, 所有的奇数之和 result = , ): result += i print(result) 二. 代码实现: 接收用户输入数字, 求出从0至这个数字的累加和 ...
			
						第N次学习javaIO之后
			io按流分 输入流.输出流 io按类型分(是类型吧) 字节流.字符流 ------------------------------------- 先说说一直以来混淆什么时候用输入流,什么时候用输出流. ...
			
						轻松学习java可重入锁(ReentrantLock)的实现原理（转 图解）
			前言 相信学过java的人都知道 synchronized 这个关键词,也知道它用于控制多线程对并发资源的安全访问,兴许,你还用过Lock相关的功能,但你可能从来没有想过java中的锁底层的机制是怎么 ...
			
						python学习之老男孩python全栈第九期_day024知识点总结——单继承、多继承
			一. 单继承 class A:pass # 父类,也叫基类,也叫超类 class B:pass # 父类,也叫基类,也叫超类 class AB_son(A,B):pass # 子类,也叫派生类 cla ...
			
						JavaWeb学习总结（九）：Cookie进行会话管理
			一.会话的概念 会话可简单理解为:用户开一个浏览器,点击多个超链接,访问服务器多个web资源,然后关闭浏览器,整个过程称之为一个会话. 有状态会话:一个同学来过教室,下次再来教室,我们会知道这个同学曾 ...
			
						C++多线程编程（★入门经典实例★）
			原文:http://www.cnblogs.com/codingmengmeng/p/5913068.html 多线程在编程中有相当重要的地位,我们在实际开发时或者找工作面试时总能遇到多线程的问题,对 ...
			
						MUI框架-03-自定义MUI控件样式
			MUI框架-03-自定义MUI控件样式 开发请查阅:官方文档:http://dev.dcloud.net.cn/mui/ui/ 如何自定义MUI控件样式 mui 以 iOS 7的 UI 为基础,补充了 ...
			
						volley6--CacheDispatcher从缓存中获取数据
			源码: /* * Copyright (C) 2011 The Android Open Source Project * * Licensed under the Apache License, V ...
			
						在Windows下为PHP5.6安装redis扩展和memcached扩展
			一.php安装redis扩展   1.使用phpinfo()函数查看PHP的版本信息,这会决定扩展文件版本       2.根据PHP版本号,编译器版本号和CPU架构, 选择php_redis-2.2 ...

Unicode字符集和UTF-8, UTF-16, UTF-32编码

ASCII

Unicode字符集和UTF-8, UTF-16, UTF-32编码的更多相关文章

随机推荐

热门专题