字符编码笔记:ASCII,Unicode 和 UTF-8(理解)
- 1、ASCII 码
- 美国制定的字符编码规则,对英语字符与二进制位之间的关系做了统一规定。
- 占一个字节,8 位,最多可表示 2^8 = 256 种状态(字符)
- 实际共有 128 个字符,只占用一个字节的后面 7 位。首位统一规定为 0。
- 2、非 ASCII 编码
- 其他国家各自制定的编码规则。映射本国字符和二进制之间的关系。
- 适合本国字符数在256以内的国家。
- 其他国家(字符数 > 256),则有自己的编码规则。比如中文的:GB2312
- 其他国家各自制定的编码规则。映射本国字符和二进制之间的关系。
- 3、Unicode
- 容纳世界上所有符号的符号集。每个符号都有自己的二进制代码。
- 只是一个符号集,只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。
- 比如:英文字符全部可用 1 个字节表示,但是汉字可能需要 2 或 3 个字节。一种编码格式全部都用2个或者3个字节表示会有浪费。所以该如何存储呢?
- 4、UTF-8
- 1、概念:
- 互联网上使用最广的一种 Unicode 的实现方式。(Unicode 也有其他实现方式)
- 2、特点:
- 变长的编码方式。它可以使用 1~4 个字节表示一个符号,根据不同的符号而变化字节长度。
- 3、编码规则:
- 1)对于单字节的符号,字节的第一位设为 0,后面 7 位为这个符号的 Unicode 码。
- 因此对于英语字母,UTF-8 编码和 ASCII 码是相同的。
- 2)对于 n 字节的符号(n > 1),第一个字节的前 n 位都设为 1,第 n + 1 位设为 0,后面字节的前两位一律设为 10。
- 剩下的没有提及的二进制位,全部为这个符号的 Unicode 码。
- 1)对于单字节的符号,字节的第一位设为 0,后面 7 位为这个符号的 Unicode 码。
- 4、Unicode 和 UTF-8的对应关系()
- 4.1 关系图:
- 图:
- 说明:
- 总感觉这个图不理解,不过还是做一些解读和说明吧。
- 第一行:
- 字符最多占7位(0-7位)
- 所以:Unicode 符号范围:0(十六进制:0)-111 1111(十六进制:7F)
- 第二行:
- 字符最多占11位(8-11位)
- Unicode 符号范围:1000 0000(十六进制:80)-111 1111 1111(十六进制:7FF)
- 第三行:
- 字符最多占16位(12-16位)
- Unicode 符号范围:1000 0000 0000(十六进制:800)-111 1111 1111(十六进制:7FF)
- 第四行:
- 字符最多占21位
- Unicode 符号范围:同上
- 4.2 转换:
- Unicode 和 UTF-8都用16位表示,需要从中提取出来具体的值,然后转换。
- Unicode 到 UTF-8 的转换
- 根据Unicode 的值,确定其符号范围对应的 UTF-8 是多少位。然后,高位补0填充。
- UTF-8 提取 Unicode
- 看其是多少位,提取相关的 Unicode 值。
- 4.1 关系图:
- 1、概念:
- 5、编码存储方式:Little endian 和 Big endian
- 5.1 概念理解
- 以汉字严为例,Unicode 码是 4E25,需要用两个字节存储,一个字节是 4E,另一个字节是 25。
- 存储时,4E 在前,25 在后,这就是 Big endian 方式;
- 25 在前,4E 在后,这是 Little endian 方式。
- 即:一般文本都是从左往右的格式。
- 如果编码从左往右存:是 Big endian 方式(高位在前,FE FF 表示)
- 如果编码从右往左存:是 Little endian 方式(高位在后,FF FE 表示)
- 以汉字严为例,Unicode 码是 4E25,需要用两个字节存储,一个字节是 4E,另一个字节是 25。
- 5.2 区分:
- Unicode 规范定义,每个文件的最前面分别加入一个表示编码顺序的字符,这个字符的名字叫做 "零宽度非换行空格"(zero width no-break space),用 FEFF 表示。这正好是两个字节,而且 FF 比 FE 大 1。
- 如果一个文本文件的头两个字节是 FE FF,就表示该文件采用大头方式(左小右大);
- 如果头两个字节是 FF FE,就表示该文件采用小头方式(左大右小)。
- 5.1 概念理解
- 6、参考:
- 字符编码笔记:ASCII,Unicode 和 UTF-8 - 阮一峰的网络日志 http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html
字符编码笔记:ASCII,Unicode 和 UTF-8(理解)的更多相关文章
- 理解记忆三种常见字符编码:ASCII, Unicode,UTF-8
理解什么是字符编码? 计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是25 ...
- 字符编码:ASCII,Unicode,UTF-8
1.ASCII码美国制定的一套字符编码,对英语字符和二进制位之间的关系,做了统一规定.ASCII码一共规定了128个字符(包括32个不能打印出来的控制符号)的编码,占用一个字节,字节的最前面1位统一为 ...
- (转)字符编码笔记:ASCII,Unicode和UTF-8
字符编码笔记:ASCII,Unicode和UTF-8 访问地址:http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html
- 字符编码笔记:ASCII,Unicode和UT…
字符编码笔记:ASCII,Unicode和UTF-8 今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料. 结果,这个问题比我想象的复杂,从午饭后一直看到晚上9点,才 ...
- 字符编码笔记:ASCII,Unicode和UTF-8(转)
字符编码笔记:ASCII,Unicode和UTF-8 作者: 阮一峰 日期: 2007年10月28日 今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料. 结果,这个 ...
- [转帖]字符编码笔记:ASCII,Unicode 和 UTF-8
字符编码笔记:ASCII,Unicode 和 UTF-8 http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html 转帖 ...
- 【转载】字符编码笔记:ASCII,Unicode和UTF-8
字符编码笔记:ASCII,Unicode和UTF-8 作者: 阮一峰 今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料. 结果,这个问题比我想象的复杂,从午饭后一直 ...
- 关于字符编码:ascii、unicode与utf-8
转自:https://foofish.net/unicode_utf-8.html 阮一峰老师对普及计算机基础技术功不可没,但毕竟老师不是神,因此也避免不了对某些概念有一些错误的理解,<字符编码 ...
- 中文乱码之《字符编码:ASCII,Unicode 和 UTF-8》
参考文献:字符编码笔记:ASCII,Unicode 和 UTF-8 一.ASCII 码 我们知道,计算机内部,所有信息最终都是一个二进制值.每一个二进制位(bit)有0和1两种状态,因此八个二进制位就 ...
随机推荐
- android studio调试报错:java.lang.RuntimeException: Unable to start activity ComponentInfo
报错信息: java.lang.RuntimeException: Unable to start activity ComponentInfo{com.example.pro_u_loc/com.e ...
- Codeforces Round #584 A. Paint the Numbers
链接: https://codeforces.com/contest/1209/problem/A 题意: You are given a sequence of integers a1,a2,-,a ...
- python以下划线开头的变量和函数的作用
在python中,我们经常能看到很多变量名以_下划线开头,而且下划线的数量还不一样,那么这些变量的作用到底是什么? 变量名分类: # 以数字.字母开头: 正常的公有变量名a = 1def aa(): ...
- 016_linux驱动之_原子操作
1. 原子操作 原子操作指的是在执行过程中不会被别的代码路径所中断的操作. 常用原子操作函数举例: atomic_t v = ATOMIC_INIT(0); //定义原子变量v并初始化为0 a ...
- java实现文件夹上传
文件上传下载,与传统的方式不同,这里能够上传和下载10G以上的文件.而且支持断点续传. 通常情况下,我们在网站上面下载的时候都是单个文件下载,但是在实际的业务场景中,我们经常会遇到客户需要批量下载的场 ...
- [BJOI2019]排兵布阵 DP
[BJOI2019]排兵布阵 DP 比较好想的DP,设\(dp[i][j]\)表示第\(i\)个城堡时,已派出\(j\)个士兵.决策时,贪心派出恰好严格大于某一玩家派出的数量的两倍(不然浪费).我们发 ...
- windows平台下MySQl的安装、破解和使用
#1.下载:MySQL Community Server 5.7.16 http://dev.mysql.com/downloads/mysql/ #2.解压 如果想要让MySQL安装在指定目录,那么 ...
- npm传参技巧
博主今天遇到一个问题,使用vue-cli-serve,想要用shelljs来执行vue-cli-serve,动态给它传“--port xxxx"但是发现”--port“怎么传都穿不进去,后面 ...
- Spring Cloud Eureka(七):DiscoveryClient 源码分析
1.本节概要 上一节文章主要介绍了Eureka Client 的服务注册的流程,没有对服务治理进行介绍,本文目的就是从源码角度来学习服务实例的治理机制,主要包括以下内容: 服务注册(register) ...
- 微信小程序之简单记账本开发记录(二)
1.打开开发者工具 2.从微信公众平台上获取到appid,或者使用测试号. 项目的大致目录如下: 一个小程序主体部分由三个文件组成,必须放在项目的根目录中 以app为开头的文件名用来布置作用于整个项目 ...
