• 1、ASCII 码

    • 美国制定的字符编码规则,对英语字符与二进制位之间的关系做了统一规定。
    • 占一个字节,8 位,最多可表示 2^8 = 256 种状态(字符)
    • 实际共有 128 个字符,只占用一个字节的后面 7 位。首位统一规定为 0。
  • 2、非 ASCII 编码
    • 其他国家各自制定的编码规则。映射本国字符和二进制之间的关系。

      • 适合本国字符数在256以内的国家。
    • 其他国家(字符数 > 256),则有自己的编码规则。比如中文的:GB2312
  • 3、Unicode
    • 容纳世界上所有符号的符号集。每个符号都有自己的二进制代码。
    • 只是一个符号集,只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。
      • 比如:英文字符全部可用 1 个字节表示,但是汉字可能需要 2 或 3 个字节。一种编码格式全部都用2个或者3个字节表示会有浪费。所以该如何存储呢?
  • 4、UTF-8
    • 1、概念:

      • 互联网上使用最广的一种 Unicode 的实现方式。(Unicode 也有其他实现方式)
    • 2、特点:
      • 变长的编码方式。它可以使用 1~4 个字节表示一个符号,根据不同的符号而变化字节长度。
    • 3、编码规则:
      • 1)对于单字节的符号,字节的第一位设为 0,后面 7 位为这个符号的 Unicode 码。

        • 因此对于英语字母,UTF-8 编码和 ASCII 码是相同的。
      • 2)对于 n 字节的符号(n > 1),第一个字节的前 n 位都设为 1,第 n + 1 位设为 0,后面字节的前两位一律设为 10。
        • 剩下的没有提及的二进制位,全部为这个符号的 Unicode 码。
    • 4、Unicode 和 UTF-8的对应关系()
      • 4.1 关系图:

        • 图:

        • 说明:
          • 总感觉这个图不理解,不过还是做一些解读和说明吧。
          • 第一行:
            • 字符最多占7位(0-7位)
            • 所以:Unicode 符号范围:0(十六进制:0)-111 1111(十六进制:7F)
          • 第二行:
            • 字符最多占11位(8-11位)
            • Unicode 符号范围:1000 0000(十六进制:80)-111 1111 1111(十六进制:7FF)
          • 第三行:
            • 字符最多占16位(12-16位)
            • Unicode 符号范围:1000 0000 0000(十六进制:800)-111 1111 1111(十六进制:7FF)
          • 第四行:
            • 字符最多占21位
            • Unicode 符号范围:同上
      • 4.2 转换:
        • Unicode 和 UTF-8都用16位表示,需要从中提取出来具体的值,然后转换。
        • Unicode 到 UTF-8 的转换
          • 根据Unicode 的值,确定其符号范围对应的 UTF-8 是多少位。然后,高位补0填充。
        • UTF-8 提取 Unicode
          • 看其是多少位,提取相关的 Unicode 值。
  • 5、编码存储方式:Little endian 和 Big endian
    • 5.1 概念理解

      • 以汉字严为例,Unicode 码是 4E25,需要用两个字节存储,一个字节是 4E,另一个字节是 25。

        • 存储时,4E 在前,25 在后,这就是 Big endian 方式;
        • 25 在前,4E 在后,这是 Little endian 方式。
      • 即:一般文本都是从左往右的格式。
        • 如果编码从左往右存:是 Big endian 方式(高位在前,FE FF 表示)
        • 如果编码从右往左存:是 Little endian 方式(高位在后,FF FE 表示)
    • 5.2 区分:
      • Unicode 规范定义,每个文件的最前面分别加入一个表示编码顺序的字符,这个字符的名字叫做 "零宽度非换行空格"(zero width no-break space),用 FEFF 表示。这正好是两个字节,而且 FF 比 FE 大 1。
      • 如果一个文本文件的头两个字节是 FE FF,就表示该文件采用大头方式(左小右大);
      • 如果头两个字节是 FF FE,就表示该文件采用小头方式(左大右小)。
  • 6、参考:

字符编码笔记:ASCII,Unicode 和 UTF-8(理解)的更多相关文章

  1. 理解记忆三种常见字符编码:ASCII, Unicode,UTF-8

    理解什么是字符编码? 计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是25 ...

  2. 字符编码:ASCII,Unicode,UTF-8

    1.ASCII码美国制定的一套字符编码,对英语字符和二进制位之间的关系,做了统一规定.ASCII码一共规定了128个字符(包括32个不能打印出来的控制符号)的编码,占用一个字节,字节的最前面1位统一为 ...

  3. (转)字符编码笔记:ASCII,Unicode和UTF-8

    字符编码笔记:ASCII,Unicode和UTF-8 访问地址:http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

  4. 字符编码笔记:ASCII,Unicode和UT…

    字符编码笔记:ASCII,Unicode和UTF-8 今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料. 结果,这个问题比我想象的复杂,从午饭后一直看到晚上9点,才 ...

  5. 字符编码笔记:ASCII,Unicode和UTF-8(转)

    字符编码笔记:ASCII,Unicode和UTF-8 作者: 阮一峰 日期: 2007年10月28日 今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料. 结果,这个 ...

  6. [转帖]字符编码笔记:ASCII,Unicode 和 UTF-8

    字符编码笔记:ASCII,Unicode 和 UTF-8 http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html 转帖 ...

  7. 【转载】字符编码笔记:ASCII,Unicode和UTF-8

    字符编码笔记:ASCII,Unicode和UTF-8 作者: 阮一峰 今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料. 结果,这个问题比我想象的复杂,从午饭后一直 ...

  8. 关于字符编码:ascii、unicode与utf-8

    转自:https://foofish.net/unicode_utf-8.html 阮一峰老师对普及计算机基础技术功不可没,但毕竟老师不是神,因此也避免不了对某些概念有一些错误的理解,<字符编码 ...

  9. 中文乱码之《字符编码:ASCII,Unicode 和 UTF-8》

    参考文献:字符编码笔记:ASCII,Unicode 和 UTF-8 一.ASCII 码 我们知道,计算机内部,所有信息最终都是一个二进制值.每一个二进制位(bit)有0和1两种状态,因此八个二进制位就 ...

随机推荐

  1. 利用XtraBackup给MYSQL热备(基于数据文件)

    利用XtraBackup给MYSQL热备(基于数据文件) By JRoBot on 2013 年 11 月 26 日 | Leave a response 利用XtraBackup给MYSQL热备(基 ...

  2. BZOJ 3672[NOI2014]购票(树链剖分+线段树维护凸包+斜率优化) + BZOJ 2402 陶陶的难题II (树链剖分+线段树维护凸包+分数规划+斜率优化)

    前言 刚开始看着两道题感觉头皮发麻,后来看看题解,发现挺好理解,只是代码有点长. BZOJ 3672[NOI2014]购票 中文题面,题意略: BZOJ 3672[NOI2014]购票 设f(i)f( ...

  3. 03_已解决 [salt.master :2195][ERROR ][6219] Failed to allocate a jid. The requested returner 'mysql' could not be loaded.

    总结: 对于python2.7环境下的salt来说,要安装pip install mysql-python 对于python3环境下的salt来说,pip install mysqlclient的时候 ...

  4. mybatis-plus 相关

    这里有几个很全的教程: https://www.cnblogs.com/okong/p/mybatis-plus-guide-one.html mybtais-plus学习--BaseMapper提供 ...

  5. harbor批量导出镜像

    工作中遇到一个问题,要把某个项目的harbor镜像库全部迁移到其他环境的harbor上,由于网络不通,只能导出来,传给同事,让同事导入到他们的harbor上: 记录下我的操作方法. 参考博客园的一篇博 ...

  6. 【线性代数】4-4:正交基和Gram算法(Orthogonal Bases and Gram-Schmidt)

    title: [线性代数]4-4:正交基和Gram算法(Orthogonal Bases and Gram-Schmidt) categories: Mathematic Linear Algebra ...

  7. Feeding Chicken

    D - Feeding Chicken 从左上角开始,往右下角开始遍历,但是遍历的时候需要注意一点,就是遍历的时候需要连起来,就比如第一行从左往右进行遍历,但是第二行不能从左往右了,因为这样就分开了, ...

  8. HTTP header 介绍 转载

    这篇文章为大家介绍了HTTP头部信息,中英文对比分析,还是比较全面的,若大家在使用过程中遇到不了解的,可以适当参考下 HTTP 头部解释 1. Accept:告诉WEB服务器自己接受什么介质类型,*/ ...

  9. 冲刺阶段——Day2

    [今日进展] 完成黄金点游戏的算法与代码架构. 使用文字界面完成任务 码云链接:https://gitee.com/jxxydwt1999/20175215-java/blob/master/Gold ...

  10. Java操作Cookie方法

    特别提示:本人博客部分有参考网络其他博客,但均是本人亲手编写过并验证通过.如发现博客有错误,请及时提出以免误导其他人,谢谢!欢迎转载,但记得标明文章出处:http://www.cnblogs.com/ ...