常用的能够保存汉字的编码表有UTF-8、GBK等。需要注意,无论文件使用的是什么编码格式,读取到Java程序中,所有的字符都是用Unicode编码表示(Java中所有的字符内容都使用char类型表示,一个char代表16位、2Byte无符号Unicode码值)。

Unicode表示的范围比UTF-8要大,但是Unicode只需要2字节,而UTF-8最多可能需要3字节,GBK一个汉字占2Byte,UTF-8一个汉字占3Byte

UTF-8主要解决了传输过程中资源的浪费。

传输的是一些英文字母、阿拉伯数字等内容,但是由于Unicode的规定,所有的字符都固定用2字节表示。英文字母、阿拉伯数字这些本来用一个字节就可以表示出来的字符也需要使用两个字节表示。这样就会造成资源浪费。

例如

Unicode编码 二进制表示
f \u0066 00000000 01100110
l \u006c 00000000 01101100
o \u006f 00000000 01101111
w \u0077 00000000 01110111
e \u0065 00000000 01100101
r \u0072 00000000 01110010
\u662f 01100110 00101111
1 \u0031 00000000 00110001
\u6735 01100111 00110101
\u82b1 10000010 10110001

我们可以看出对于英文与阿拉伯数字,其高8位全为0,会极大的浪费空间。

UTF-8解决这个问题的思路是能用一个字节表示的就用一个字节,一个字节不够的,再用两个字节。

规定:

  1. 如果一个字符只占用一个字节,那么这个字节的第一位就必须为0。

    0xxx xxxx

  2. 如果一个字符占用了两个字节,那么高八位前两位必须都为1、第三位为0。低八位前两位必须为10。

    110x xxxx 10xx xxxx

  3. 如果一个字符占用了三个字节,那么高八位前三位必须是111,第四位是0。中八位和低八位前两位都是10。

    1110 xxxx 10xx xxxx 10xx xxxx

假设从某个文件中读取出如下字节串:

11011010 10110010 01101101 11101111 10010010 10101010

根据UTF-8的规则,就可以把它识别为:

-- -- --
11011010 10110010 01101101 11101111 10010010 10101010
双字节 单字节 三字节
11010 110010 1101101 1111 010010 101010

识别时候将标识位(我也不知道具体叫啥)去掉,也就是前面的0,110,1110

也就是将如上表格的第二行的黑体字去掉,于是变成了第四行

对于如上的“flower是1朵花”,例如“是”则将二进制表示拼接进1110 xxxx 10xx xxxx 10xx xxxx中,并且从低位开始,高位补0

二进制表示 UTF-8编码
f 00000000 01100110 01100110
l 00000000 01101100 01101100
o 00000000 01101111 01101111
w 00000000 01110111 01110111
e 00000000 01100101 01100101
r 00000000 01110010 01110010
01100110 00101111 11100110 10011000 10101111
1 00000000 00110001 00110001
01100111 00110101 11100110 10011100 10110101
10000010 10110001 11101000 10001010 10110001

在将来解析的时候

判断若开头是0,则表示是一个字节组成;

若开头是1110,则表示是由三个字节组成,并且把标识位(就那个1110 xxxx 10xx xxxx 10xx xxxx的1与0)去掉,

剩下的拼接成一个二进制字符串,然后再将其转化成16进制,则成为Unicode编码

UTF-8和Unicode编码的更多相关文章

  1. ascii、unicode、utf、gb等编码详解

    很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到8个开关状态是好的,于是他们把这称为"字节".再后来,他们又做了一些可以处理这 ...

  2. 转载:谈谈Unicode编码,简要解释UCS、UTF、BMP、BOM等名词

    转载: 谈谈Unicode编码,简要解释UCS.UTF.BMP.BOM等名词 这是一篇程序员写给程序员的趣味读物.所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级 ...

  3. 谈谈Unicode编码,简要解释UCS、UTF、BMP、BOM等名词

    这是一篇程序员写给程序员的趣味读物.所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级.整理这篇文章的动机是两个问题: 问题一: 使用Windows记事本的“另存为 ...

  4. Unicode编码,解释UCS、UTF、BMP、BOM等名词

    (转载 谈谈Unicode编码,简要解释UCS.UTF.BMP.BOM等名词 这是一篇程序员写给程序员的趣味读物.所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级 ...

  5. [转]程序员趣味读物:谈谈Unicode编码

    from : http://pcedu.pconline.com.cn/empolder/gj/other/0505/616631_all.html#content_page_1 这是一篇程序员写给程 ...

  6. java中文乱码解决之道(三)-----编码详情:伟大的创想---Unicode编码

    随着计算机的发展.普及,世界各国为了适应本国的语言和字符都会自己设计一套自己的编码风格,正是由于这种乱,导致存在很多种编码方式,以至于同一个二进制数字可能会被解释成不同的符号.为了解决这种不兼容的问题 ...

  7. unicode编码与utf-8 区别

    unicode编码与utf-8 区别 如果是为了跨平台兼容性,只需要知道,在 Windows 记事本的语境中: 所谓的「ANSI」指的是对应当前系统 locale 的遗留(legacy)编码.[1] ...

  8. [百度空间] [转]程序员趣味读物:谈谈Unicode编码

    出处:CSDN [ 2005-05-13 10:05:53 ] 作者:fmddlmyy 这是一篇程序员写给程序员的趣味读物.所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG ...

  9. 了解Unicode编码

    制定Unicode编码标准的组织有两个,一个是国际标准化组织ISO,一个是多语言软件制造商组成的统一码联盟. 通用字符集UCS(Universal Character Set)是由ISO制定的编码方案 ...

  10. php汉字转Unicode编码函数

    /** * $str 原始字符串 * $encoding 原始字符串的编码,默认GBK * $prefix 编码后的前缀,默认"&#" * $postfix 编码后的后缀, ...

随机推荐

  1. CrackMe-CFF Crackme #3

    转载自:OllyDbg入门教程 我们先来运行一下这个 crackme(用 PEiD 检测显示是 Delphi 编的),界面如图: 这个 crackme 已经把用户名和注册码都输好了,省得我们动手^_^ ...

  2. 不同的 count 用法

    不同的 count 用法效率:在 select count(?) from t 这样的查询语句里面, count(*).count(主键 id).count(字段) 和 count(1) 等不同用法的 ...

  3. [题解] SPOJ GSS1 - Can you answer these queries I

    [题解] SPOJ GSS1 - Can you answer these queries I · 题目大意 要求维护一段长度为 \(n\) 的静态序列的区间最大子段和. 有 \(m\) 次询问,每次 ...

  4. rabbitMq消费死循环

    消费过程发生错误容易造成死循环 1.控制重发次数 2.try+catch+手动ack 3.try+catch+手动ack+死信队列(重试次数就失效了,因为捕捉确认后被打入了相应的死信队列) void ...

  5. WIN10 64bit + QT5.10.0(MinGW3.5.0) + OpenCV3.4.1 无痛安装、配置

    安装QT和配置MinGW 官方下载qt-opensource-windows-x86-5.10.0.exe 正常步骤安装QT5.10.0,安装过程选择自带的MinGW3.5.0编译器即可. 打开QtC ...

  6. LeetCode《买卖股票的最佳时机》系列题目,最详解

    目录 说在前面 引例:只能交易一次 一.动态数组定义 二.状态转移方程 三.初始化 四.优化 无限制买卖 一.动态数组定义 二.状态转移方程 三.初始化 四.优化 交易 2 次,最大利润? 一.动态数 ...

  7. mybatis第一个程序随笔

    今天继续学习了解如何写一个mybatis程序 创建了Dao层 1.1 创建一个UserDao接口 1.2 创建UserMapper.xml文件 在mybaits中文手册查找配置信息 <?xml ...

  8. 程序解决十苹果问题 Java

    程序解决十苹果问题 Java 题目:10个苹果,其中有9个重量相同,剩余1个相比其它重量不同(或重或轻,不得而知),使用天平比较三次,找出重量特殊的那一个 import org.junit.Test; ...

  9. 【曹工杂谈】Maven源码调试工程搭建

    Maven源码调试工程搭建 思路 我们前面的文章<[曹工杂谈]Maven和Tomcat能有啥联系呢,都穿打补丁的衣服吗>分析了Maven大体的执行阶段,主要包括三个阶段: 启动类阶段,负责 ...

  10. 【Python从入门到精通】(二十五)Python多进程的使用

    您好,我是码农飞哥,感谢您阅读本文,欢迎一键三连哦. 本篇重点介绍Python多进程的使用,读者朋友们可以将多进程和多线程两者做一个对比学习. 干货满满,建议收藏,需要用到时常看看. 小伙伴们如有问题 ...