这是在整理另一篇博客的时候发现的一个有趣的现象,是这样描述的:我们都知道Java默认使用的是UniCode编码集,我们也知道char类型占用两个字节。所以奇怪的现象又发生了(见代码):

     @Test
public void testCode_1() throws Exception{ System.out.println("汉字UniCode编码大小:" + "字".getBytes("UniCode").length);
System.out.println("数字UniCode编码大小:" + "0".getBytes("UniCode").length);
System.out.println("字母UniCode编码大小:" + "a".getBytes("UniCode").length);
System.out.println("========================================="); System.out.println("汉字GBK编码大小:" + "字".getBytes("GBK").length);
System.out.println("数字GBK编码大小:" + "0".getBytes("GBK").length);
System.out.println("字母GBK编码大小:" + "a".getBytes("GBK").length);
System.out.println("========================================="); System.out.println("汉字GB2312编码大小:" + "字".getBytes("GB2312").length);
System.out.println("数字GB2312编码大小:" + "0".getBytes("GB2312").length);
System.out.println("字母GB2312编码大小:" + "a".getBytes("GB2312").length);
System.out.println("========================================="); System.out.println("汉字UTF-8编码大小:" + "字".getBytes("UTF-8").length);
System.out.println("数字UTF-8编码大小:" + "0".getBytes("UTF-8").length);
System.out.println("字母UTF-8编码大小:" + "a".getBytes("UTF-8").length);
System.out.println("========================================="); System.out.println("汉字UTF-16编码大小:" + "字".getBytes("UTF-16").length);
System.out.println("数字UTF-16编码大小:" + "0".getBytes("UTF-16").length);
System.out.println("字母UTF-16编码大小:" + "a".getBytes("UTF-16").length);
System.out.println("========================================="); }

testCode_1执行的结果如下:

汉字UniCode编码大小:4
数字UniCode编码大小:4
字母UniCode编码大小:4
=========================================
汉字GBK编码大小:2
数字GBK编码大小:1
字母GBK编码大小:1
=========================================
汉字GB2312编码大小:2
数字GB2312编码大小:1
字母GB2312编码大小:1
=========================================
汉字UTF-8编码大小:3
数字UTF-8编码大小:1
字母UTF-8编码大小:1
=========================================
汉字UTF-16编码大小:4
数字UTF-16编码大小:4
字母UTF-16编码大小:4
=========================================

发现其实Unicode编码的大小和UFT-16的大小是一样的统一是4个字节,而GBK和GB2312是一样的分别是(汉字2个字节,数字1个字节,字母1个字节)。但这其实没什么奇怪的。接下来的事情才令人不可理解:

     @Test
public void testCode_2(){
char c = (char)Long.MAX_VALUE;
System.out.println("char类型的大小:"+(int)c);
}

testCode_2执行的结果如下:

char类型的大小:65535

可能你还没觉得这个结果奇怪。我们都知道计算机都是使用二进制存储,65535是2^16-1,也就是说char用了2个字节,但是UniCode是4个字节啊,4个字节应该是2^32-1=4294967295。这下应该明白是不是哪里不对?颠覆了自己的认知?怀疑自己记错了?可能都开怀疑java可能不是用UniCode编码的,但是无论如何也不会用GBK或者GB2312编码的,因为这两个编码是我们中国搞的,JDK不是我们中国搞的,所以通用的话肯定是UniCode编码了。

过于这个问题的理解:我们知道编码是有发展过程的,这个故事说起来就很长远了,我们找重点。简单来说,就是曾经UniCode编码是占两个字节的时候,我们使用的JDK就采用了这种编码。后来人家UniCode扩展了更多的内容变成了4个字节,但是我们JDK没有扩展,在JDK1.5的时候并没有扩展,并保留了char类型的行为来表示UTF-16,并实现了码位的概念来表示UTF-32。可能当时的人考虑的每次UniCode编码扩展都要重写底层很麻烦,所以才采用了自己的方式扩展。详情请访问:https://www.ibm.com/developerworks/cn/java/j-unicode/。我也是参考这篇博客来的。总之编码问题是变成路上不可避免的问题,但其实问题也不大,一般公司内部会统一编码,通常都是UTF-8。

关于Java中编码集的有趣现象和解释的更多相关文章

  1. java中int算法的有趣现象

    今天无意中发现一个怪事,当时没理解,后来跟网友讨论了才知道原理,是关于int值的加法算法,两段代码如下: 代码1: @Test public void test1() { ; ; try { whil ...

  2. java中编码种类和区别

    为什么要编码 不知道大家有没有想过一个问题,那就是为什么要编码?我们能不能不编码?要回答这个问题必须要回到计算机是如何表示我们人类能够理解的符号的,这些符号也就是我们人类使用的语言.由于人类的语言有太 ...

  3. java中synchronized的使用方法与具体解释

    Java语言的keyword.当它用来修饰一个方法或者一个代码块的时候,可以保证在同一时刻最多仅仅有一个线程运行该段代码. 一.当两个并发线程訪问同一个对象object中的这个synchronized ...

  4. 关于高淇JAVA中SORM总结学习笔记详细个人解释

    代码来源于高淇JAVA教学视频 谢谢高淇老师的教学. 因为自己在学习的过程中发现了很多困难点,总结下希望对自己接下来学框架提升.给像我一样得初学者方便. SORM框架是一个简单的ORM,关系对象映射, ...

  5. Java中Solr集群的测试

    import org.apache.solr.client.solrj.impl.CloudSolrServer; import org.apache.solr.common.SolrInputDoc ...

  6. Java中编码问题

    在开发过程中经常会遇到一会乱码问题,不是什么大问题,但是也挺烦人的,今天来将我们开发总结的经验记录下来,希望可以给大家一些帮助. 一些概念: 字符:人们使用的记号,抽象意义上的一个符号.比如:‘1’, ...

  7. Java——Java中编码问题

    在开发过程中经常会遇到一会乱码问题,不是什么大问题,但是也挺烦人的,今天来将我们开发总结的经验记录下来,希望可以给大家一些帮助. 一些概念: 字符:人们使用的记号,抽象意义上的一个符号.比如:‘1’, ...

  8. Java 中编码与摘要算法

    URL 编码与解码 String s = "你好,世界!"; // URL 编码 String urlEncodedString = URLEncoder.encode(s, &q ...

  9. Java中Vector与ArrayList的差别具体解释

    首先看这两类都实现List接口,而List接口一共同拥有三个实现类.各自是ArrayList.Vector和LinkedList.List用于存放多个元素,可以维护元素的次序,而且同意元素的反复. 3 ...

随机推荐

  1. C# InterLock保证数据一致性

        ; i < ; i++)             {                 c.Increment();                 c.Decrement();      ...

  2. sqlalchemy的不区分大小写比较

    方法一:collation 参照:https://segmentfault.com/q/1010000010203547 方法是在 db.String 中添加 collation='NOCASE' 描 ...

  3. PHP_CodeIgniter 细节

    下载压缩包解压之后, 可以在 application/config/config.php 中修改配置信息,包括编码,目录地址 web目录默认是system,后台目录默认是Application, 可以 ...

  4. Python之微信消息防撤回

    #!/usr/bin/env python3 # -*- coding: utf-8 -*- __author__ = 'jiangwenwen' import itchat from itchat. ...

  5. mysql 主从复制 (2)

    今天说一下MySQL的主从复制如何做到! 准备工作: 1.两个虚拟机:我这里用的是CentOS5.5,IP地址分别是192.168.1.101 和192.168.1.105: 101做主服务器,105 ...

  6. Codeforces 1148C(思维)

    题面 给出一个长度为n的排列a,每次可以交换序列的第i个和第j个元素,当且仅当\(2 \times |i-j| \geq n\),求一种交换方案,让序列从小到大排好序 分析 重点是考虑我们怎么把第x个 ...

  7. Codeforces 1061C (DP+滚动数组)

    题面 传送门 分析 考虑DP 设\(dp[i][j]\)表示前i个数选出的序列长度为j的方案数 状态转移方程为: \[ dp[i][j]= \begin{cases}dp\left[ i-1\righ ...

  8. HDU 1255 覆盖的面积 ( 扫描线 + 离散 求矩阵大于k次面积并 )

    覆盖的面积 Time Limit: 10000/5000 MS (Java/Others)    Memory Limit: 65536/32768 K (Java/Others)Total Subm ...

  9. 问题处理——"无法导航到插入符号下的符号"

    最近编码时经常发现"转到定义"功能没法用了,代码一片灰.刚开始时重新编译一下项目或重启一下VS就恢复了,但到后面这两种方法都不管用了. 偶然下发现解决方案中很多项目的引用都出现了黄 ...

  10. Java疯狂讲义笔记——Lambda表达式

    Java8新增的Lambda表达式 [特性]支持将代码块作为方法参数,Lambda表达式允许使用更简洁的代码来创建只有一个抽象方法的接口(这种接口被称为函数式接口)的实例. [组成部分]1,形参列表 ...