这是在整理另一篇博客的时候发现的一个有趣的现象,是这样描述的:我们都知道Java默认使用的是UniCode编码集,我们也知道char类型占用两个字节。所以奇怪的现象又发生了(见代码):

     @Test
public void testCode_1() throws Exception{ System.out.println("汉字UniCode编码大小:" + "字".getBytes("UniCode").length);
System.out.println("数字UniCode编码大小:" + "0".getBytes("UniCode").length);
System.out.println("字母UniCode编码大小:" + "a".getBytes("UniCode").length);
System.out.println("========================================="); System.out.println("汉字GBK编码大小:" + "字".getBytes("GBK").length);
System.out.println("数字GBK编码大小:" + "0".getBytes("GBK").length);
System.out.println("字母GBK编码大小:" + "a".getBytes("GBK").length);
System.out.println("========================================="); System.out.println("汉字GB2312编码大小:" + "字".getBytes("GB2312").length);
System.out.println("数字GB2312编码大小:" + "0".getBytes("GB2312").length);
System.out.println("字母GB2312编码大小:" + "a".getBytes("GB2312").length);
System.out.println("========================================="); System.out.println("汉字UTF-8编码大小:" + "字".getBytes("UTF-8").length);
System.out.println("数字UTF-8编码大小:" + "0".getBytes("UTF-8").length);
System.out.println("字母UTF-8编码大小:" + "a".getBytes("UTF-8").length);
System.out.println("========================================="); System.out.println("汉字UTF-16编码大小:" + "字".getBytes("UTF-16").length);
System.out.println("数字UTF-16编码大小:" + "0".getBytes("UTF-16").length);
System.out.println("字母UTF-16编码大小:" + "a".getBytes("UTF-16").length);
System.out.println("========================================="); }

testCode_1执行的结果如下:

汉字UniCode编码大小:4
数字UniCode编码大小:4
字母UniCode编码大小:4
=========================================
汉字GBK编码大小:2
数字GBK编码大小:1
字母GBK编码大小:1
=========================================
汉字GB2312编码大小:2
数字GB2312编码大小:1
字母GB2312编码大小:1
=========================================
汉字UTF-8编码大小:3
数字UTF-8编码大小:1
字母UTF-8编码大小:1
=========================================
汉字UTF-16编码大小:4
数字UTF-16编码大小:4
字母UTF-16编码大小:4
=========================================

发现其实Unicode编码的大小和UFT-16的大小是一样的统一是4个字节,而GBK和GB2312是一样的分别是(汉字2个字节,数字1个字节,字母1个字节)。但这其实没什么奇怪的。接下来的事情才令人不可理解:

     @Test
public void testCode_2(){
char c = (char)Long.MAX_VALUE;
System.out.println("char类型的大小:"+(int)c);
}

testCode_2执行的结果如下:

char类型的大小:65535

可能你还没觉得这个结果奇怪。我们都知道计算机都是使用二进制存储,65535是2^16-1,也就是说char用了2个字节,但是UniCode是4个字节啊,4个字节应该是2^32-1=4294967295。这下应该明白是不是哪里不对?颠覆了自己的认知?怀疑自己记错了?可能都开怀疑java可能不是用UniCode编码的,但是无论如何也不会用GBK或者GB2312编码的,因为这两个编码是我们中国搞的,JDK不是我们中国搞的,所以通用的话肯定是UniCode编码了。

过于这个问题的理解:我们知道编码是有发展过程的,这个故事说起来就很长远了,我们找重点。简单来说,就是曾经UniCode编码是占两个字节的时候,我们使用的JDK就采用了这种编码。后来人家UniCode扩展了更多的内容变成了4个字节,但是我们JDK没有扩展,在JDK1.5的时候并没有扩展,并保留了char类型的行为来表示UTF-16,并实现了码位的概念来表示UTF-32。可能当时的人考虑的每次UniCode编码扩展都要重写底层很麻烦,所以才采用了自己的方式扩展。详情请访问:https://www.ibm.com/developerworks/cn/java/j-unicode/。我也是参考这篇博客来的。总之编码问题是变成路上不可避免的问题,但其实问题也不大,一般公司内部会统一编码,通常都是UTF-8。

关于Java中编码集的有趣现象和解释的更多相关文章

  1. java中int算法的有趣现象

    今天无意中发现一个怪事,当时没理解,后来跟网友讨论了才知道原理,是关于int值的加法算法,两段代码如下: 代码1: @Test public void test1() { ; ; try { whil ...

  2. java中编码种类和区别

    为什么要编码 不知道大家有没有想过一个问题,那就是为什么要编码?我们能不能不编码?要回答这个问题必须要回到计算机是如何表示我们人类能够理解的符号的,这些符号也就是我们人类使用的语言.由于人类的语言有太 ...

  3. java中synchronized的使用方法与具体解释

    Java语言的keyword.当它用来修饰一个方法或者一个代码块的时候,可以保证在同一时刻最多仅仅有一个线程运行该段代码. 一.当两个并发线程訪问同一个对象object中的这个synchronized ...

  4. 关于高淇JAVA中SORM总结学习笔记详细个人解释

    代码来源于高淇JAVA教学视频 谢谢高淇老师的教学. 因为自己在学习的过程中发现了很多困难点,总结下希望对自己接下来学框架提升.给像我一样得初学者方便. SORM框架是一个简单的ORM,关系对象映射, ...

  5. Java中Solr集群的测试

    import org.apache.solr.client.solrj.impl.CloudSolrServer; import org.apache.solr.common.SolrInputDoc ...

  6. Java中编码问题

    在开发过程中经常会遇到一会乱码问题,不是什么大问题,但是也挺烦人的,今天来将我们开发总结的经验记录下来,希望可以给大家一些帮助. 一些概念: 字符:人们使用的记号,抽象意义上的一个符号.比如:‘1’, ...

  7. Java——Java中编码问题

    在开发过程中经常会遇到一会乱码问题,不是什么大问题,但是也挺烦人的,今天来将我们开发总结的经验记录下来,希望可以给大家一些帮助. 一些概念: 字符:人们使用的记号,抽象意义上的一个符号.比如:‘1’, ...

  8. Java 中编码与摘要算法

    URL 编码与解码 String s = "你好,世界!"; // URL 编码 String urlEncodedString = URLEncoder.encode(s, &q ...

  9. Java中Vector与ArrayList的差别具体解释

    首先看这两类都实现List接口,而List接口一共同拥有三个实现类.各自是ArrayList.Vector和LinkedList.List用于存放多个元素,可以维护元素的次序,而且同意元素的反复. 3 ...

随机推荐

  1. Reinforcement Learning for Self Organization and Power Control of Two-Tier Heterogeneous Networks

    R. Amiri, M. A. Almasi, J. G. Andrews and H. Mehrpouyan, "Reinforcement Learning for Self Organ ...

  2. .net core 使用RSA获取私钥证书并签名

    RSA在.NET Core的改动 以前我们使用RSA加密主要是使用RSACryptoServiceProvider这个类,在.NET Core中也有这个类,但是这个类并不支持跨平台,所以如果你是用这个 ...

  3. Fiddler查看IP和响应时间

    原文:Fiddler查看IP和响应时间 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/si ...

  4. ToolStripComboBox 绑定数据

    //添加ComboBox tcbbQueryCondition.ComboBox.DataSource = RelationalOperators.GetAllOperators(); tcbbQue ...

  5. JAVA-第一期学习(上)

    前言 果然,flag这个东西不能随便立,在我立志要学习java的第4天,我终于打开了我的eclipse.. 本章学习的内容是红框,第一期学习.真好,7月份需要学习完的东西,现在连helloworld还 ...

  6. P.W.N. CTF - MISC - Canadian FOI

    题目 链接:https://ctftime.org/task/6935 题解 只有两个页面的网站,index.html和about.html index.html页面有一个pdf链接,指向http:/ ...

  7. Android listview子控件的的点击事件(转)

    1.先看图,是否是你想要的 2.布局文件<?xml version="1.0" encoding="utf-8"?><LinearLayout ...

  8. TCP协议的简单应用一

    TCP协议的应用,实现一个服务器处理多个客户端请求(向服务器发送消息,服务器接收到后以原消息返回给客户端.) 客户端类 import java.io.*; import java.net.Socket ...

  9. 【leetcode】636. Exclusive Time of Functions

    题目如下: 解题思路:本题和括号匹配问题有点像,用栈比较适合.一个元素入栈前,如果自己的状态是“start”,则直接入栈:如果是end则判断和栈顶的元素是否id相同并且状态是“start”,如果满足这 ...

  10. JavaScript的MD5加密

    1.首先要到http://pajhome.org.uk/crypt/md5/下载js文件. 2.在页面文件中添加: <script type="text/javascript" ...