Unicode 与 utf8 utf16 utf32的关系

Unicode是计算机领域的一项行业标准，它对世界上绝大部分的文字的进行整理和统一编码，Unicode的编码空间可以划分为17个平面（plane），每个平面包含2的16次方（65536）个码位。17个平面的码位可表示为从U+0000到U+10FFFF，共计1114112个码位，第一个平面称为基本多语言平面（Basic Multilingual Plane, BMP），或称第零平面（Plane 0）。其他平面称为辅助平面（Supplementary Planes）。基本多语言平面内，从U+D800到U+DFFF之间的码位区段是永久保留不映射到Unicode字符，所以有效码位为1112064个。

Unicode的编码方式

unicode 只是一种字符码表，而在计算机中进行存储时，必须指定一种具体的存储方式。常见的如utf8, utf16, utf32

比如，对于英文字符A , 在unicode中的值是65, 其在计算机中存储时，使用utf8 utf16 utf32等不同格式存储时，是完全不同的。

utf8存储，在内存中就是0x41； utf16存储，在内存中就是0x0041 ; utf32存储，在内存中就是0x00000041

在windows编程中，字符格式通常有多字节(ansic)与宽字符(unicode)之分。很多时候，我们认为unicode就是用两个字符来表示英文字母，其实这是不准确的。因为windows中，默认的unicode编码方式就是utf16, 所以英文字符才是两个字节。

UTF-8(8-bit Unicode Transformation Format)

UTF-8是一种变长编码，对于一个Unicode的字符被编码成1至4个字节。Unicode编码与UTF-8的编码的对应关系:

Unicode编码	UTF-8编码(二进制)
U+0000 – U+007F	0xxxxxxx
U+0080 – U+07FF	110xxxxx 10xxxxxx
U+0800 – U+FFFF	1110xxxx 10xxxxxx 10xxxxxx
U+10000 – U+10FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

一个字节的uft8表示的unicode 码范围为(0 ~0x7F)

两个字节长度的uft8 表示的unicode码范围为(0x80 ~ 0x07FF)

三个字节长度的uft8 表示的unicode码范围为(0x0800 ~ 0xFFFF)

四个字节长度的uft8 表示的unicode码范围为( 0x10000 ~ 0x10FFFF)

其中绝大部分的中文用三个字节编码，部分中文用四个字节编码，举例如下:

Unicode	字符	UTF-8编码
U+0041	A	0x41
U+7834	破	0xE7 0xA0 0xB4
U+6653	晓	0xE6 0x99 0x93
U+2A6A5	Unicode 与 utf8 utf16 utf32的关系的更多相关文章 Unicode与UTF-8/UTF-16/UTF-32的区别 Unicode的最初目标,是用1个16位的编码来为超过65000字符提供映射.但这还不够,它不能覆盖全部历史上的文字,也不能解决传输的问题 (implantation head-ache's),尤其在 ... 彻底搞懂字符编码(unicode,mbcs,utf-8,utf-16,utf-32,big endian,little endian...)[转] 最近有一些朋友常问我一些乱码的问题,和他们交流过程中,发现这个编码的相关知识还真是杂乱不堪,不少人对一些知识理解似乎也有些偏差,网上百度, google的内容,也有不少以讹传讹,根本就是错误的(例如说 ... 细说：Unicode, UTF-8, UTF-16, UTF-32, UCS-2, UCS-4 1. Unicode与ISO 10646 全世界很多个国家都在为自己的文字编码,并且互不想通,不同的语言字符编码值相同却代表不同的符号(例如:韩文编码EUC-KR中“한국어”的编码值正好是汉字编码GB ... 关于编码：Unicode/UTF-8/UTF-16/UTF-32 关于编码,绕不开下面这些概念 ①Unicode/UTF-8/UTF-16/UTF-32 ②大小端字节序(big-endian/little-endian) ③BOM(Byte Order Mark) ... 从字节理解Unicode（UTF8/UTF16) 如果你不知道或者不了解什么是Unicode/UTF8/UTF16,请详细阅读这篇文章(这也是这篇博文的先决条件): 学点编码知识又不会死:Unicode的流言终结者和编码大揭秘但是如果你看完以上文章 ... 编码（2）从字节理解Unicode（UTF8/UTF16) https://www.cnblogs.com/zizifn/p/4716712.html 从字节理解Unicode(UTF8/UTF16) 如果你不知道或者不了解什么是Unicode/UTF8/UT ... UTF-8, UTF-16, UTF-32 & BOM FAQ - UTF-8, UTF-16, UTF-32 & BOM http://www.unicode.org/faq/utf_bom.html General questions, rel ... UTF-8/UTF-16/UTF-32 UTF-8/UTF-16/UTF-32 一.UTF-8/UTF-16/UTF-32三者的区别二.BOM的检测与删除 1.用VIM去除<feff>,即 U+FEFF.注意:这是一个字符,而 ... 从C# String类理解Unicode（UTF8/UTF16) 上一篇博客:从字节理解Unicode(UTF8/UTF16).这次我将从C# code 中再一次阐述上篇博客的内容. C# 代码看UTF8 代码如下: string test = "UTF- ... 随机推荐 SSM-SpringMVC-28：SpringMVC类型转换之自定义日期类型转换器 ------------吾亦无他,唯手熟尔,谦卑若愚,好学若饥------------- 例子很简易,要明白的是思路,话不多说,开讲上篇博客不是说springmvc默认的日期转换格式是yyyy/M ... json数据取值 var data = JSON.parse(JSON.stringify(position, null, 4)); vue学习之响应式原理的demo实现 Vue.js 核心: 1.响应式的数据绑定系统 2.组件系统. 访问器属性访问器属性是对象中的一种特殊属性,它不能直接在对象中设置,而必须通过 defineProperty() 方法单独定义. va ... MyEclipse代码提示设置 (一)普通代码提示 1. 打开MyEclipse ,然后"window"→"Preferences" 2. 选择"java",展开,&quo ... Python中str()与repr()函数的区别在 Python 中要将某一类型的变量或者常量转换为字符串对象通常有两种方法,即str()或者 repr() . >>> a = 10 >>> type(str(a ... Python 字典(Dictionary) has_key()方法描述 Python 字典(Dictionary) has_key() 函数用于判断键是否存在于字典中,如果键在字典dict里返回true,否则返回false. 语法 has_key()方法语法:dic ... return_fun.go 源码阅读 ] } else { receive.To = "" } return receive } 什么？云数据库也能C位出道？欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 是的,你没有看错.腾讯智造,新一代云数据库CynosDB,"C"位出道了! CynosDB是腾讯云自研的新一代高性能高可 ... Postman----支持markdown可自动生成接口文档 1.postman支持markdown作为集合中的请求,对集合和文件夹进行文字描述的方式,您可以嵌入屏幕截图和其他图像已获得更多描述性的介绍. 2.已markdown语法为准,填写自己想要展示的内容 ... Python核心编程对<Python核心编程>的褒奖" The long-awaited second edition of Wesley Chun's Core PythonProgramming ... 热门专题 openvpn读取文档中账号密码 odoo int类型自增部署在服务器基础提供程序在打开时失败 vue-router 动态路由 name 创建时间 date java splunk 模糊匹配某字段 Minio 挂载到文件系统 fastadmin 给视图uri 参数 abp vue 通用管理 vueyyyy年mm月dd日转换成yyyy-mm-dd 在apache tomcat服务器中部署web应用程序 jeecg-boot集合问卷 pytest 一个test case里面两个assert mac启动docker后访问不到 matlab怎么旋转xlabel opencv的freetype使用 Ubuntu如何挂载远程window 0欧电阻串连3.7负会怎么样 hive和plsql ubuntu 降低风扇转速 Home Powered By WordPress

Unicode 与 utf8 utf16 utf32的关系

Unicode的编码方式

UTF-8(8-bit Unicode Transformation Format)

Unicode 与 utf8 utf16 utf32的关系的更多相关文章

随机推荐

热门专题