java中文GBK和UTF-8编码转换乱码的分析

原文:http://blog.csdn.net/54powerman/article/details/77575656

作者:54powerman

一直以为，java中任意unicode字符串，可以使用任意字符集转为byte[]再转回来，只要不抛出异常就不会丢失数据，事实证明这是错的。

经过这个实例，也明白了为什么 getBytes()需要捕获异常，虽然有时候它也没有捕获到异常。

言归正传，先看一个实例。

用ISO-8859-1中转UTF-8数据

设想一个场景：

用户A，有一个UTF-8编码的字节流，通过一个接口传递给用户B；

用户B并不知道是什么字符集，他用ISO-8859-1来接收，保存；

在一定的处理流程处理后，把这个字节流交给用户C或者交还给用户A，他们都知道这是UTF-8，他们解码得到的数据，不会丢失。

下面代码验证：

 public static void main(String[] args) throws Exception {

  	  //这是一个unicode字符串，与字符集无关

  	  String str1 = "用户";

  	  System.out.println("unicode字符串："+str1);

  	  //将str转为UTF-8字节流

  	  byte[] byteArray1=str1.getBytes("UTF-8");//这个很安全，UTF-8不会造成数据丢失

  	  System.out.println(byteArray1.length);//打印6，没毛病

  	  //下面交给另外一个人，他不知道这是UTF-8字节流，因此他当做ISO-8859-1处理

  	  //将byteArray1当做一个普通的字节流，按照ISO-8859-1解码为一个unicode字符串

  	  String str2=new String(byteArray1,"ISO-8859-1");

  	  System.out.println("转成ISO-8859-1会乱码："+str2);

  	  //将ISO-8859-1编码的unicode字符串转回为byte[]

  	  byte[] byteArray2=str2.getBytes("ISO-8859-1");//不会丢失数据

  	  //将字节流重新交回给用户A

  	  //重新用UTF-8解码

  	  String str3=new String(byteArray2,"UTF-8");

  	  System.out.println("数据没有丢失："+str3);

  	}

 输出：

  	unicode字符串：用户

  	6

  	转成ISO-8859-1会乱码：ç”¨æˆ·

  	数据没有丢失：用户

用GBK中转UTF-8数据

重复前面的流程，将ISO-8859-1 用GBK替换。

只把中间一段改掉：

 //将byteArray1当做一个普通的字节流，按照GBK解码为一个unicode字符串

  	    String str2=new String(byteArray1,"GBK");

  	    System.out.println("转成GBK会乱码："+str2);

  	    //将GBK编码的unicode字符串转回为byte[]

  	    byte[] byteArray2=str2.getBytes("GBK");//数据会不会丢失呢？

 运行结果：

  	unicode字符串：用户

  	6

  	转成GBK会乱码：鐢ㄦ埛

  	数据没有丢失：用户

好像没有问题，这就是一个误区。

修改原文字符串重新测试

将两个汉字 “用户” 修改为三个汉字 “用户名” 重新测试。

ISO-8859-1测试结果：

 unicode字符串：用户名

  	9

  	转成GBK会乱码：ç”¨æˆ·å

  	数据没有丢失：用户名

 GBK 测试结果：

  	unicode字符串：用户名

  	9

  	转成GBK会乱码：鐢ㄦ埛鍚�

  	数据没有丢失：用户�?

结论出来了

ISO-8859-1 可以作为中间编码，不会导致数据丢失；

GBK 如果汉字数量为偶数，不会丢失数据，如果汉字数量为奇数，必定会丢失数据。

why？

为什么奇数个汉字GBK会出错

直接对比两种字符集和奇偶字数的情形

重新封装一下前面的逻辑，写一段代码来分析：

 public static void demo(String str) throws Exception {

  	  System.out.println("原文：" + str);

  	  byte[] utfByte = str.getBytes("UTF-8");

  	  System.out.print("utf Byte：");

  	  printHex(utfByte);

  	  String gbk = new String(utfByte, "GBK");//这里实际上把数据破坏了

  	  System.out.println("to GBK：" + gbk);

  	  byte[] gbkByte=gbk.getBytes("GBK");

  	  String utf = new String(gbkByte, "UTF-8");

  	  System.out.print("gbk Byte：");

  	  printHex(gbkByte);

  	  System.out.println("revert UTF8：" + utf);

  	  System.out.println("===");

  	//      如果gbk变成iso-8859-1就没问题

  	}

  	public static void printHex(byte[] byteArray) {

  	  StringBuffer sb = new StringBuffer();

  	  for (byte b : byteArray) {

  	    sb.append(Integer.toHexString((b >> 4) & 0xF));

  	    sb.append(Integer.toHexString(b & 0xF));

  	    sb.append("");

  	  }

  	  System.out.println(sb.toString());

  	};

  	public static void main(String[] args) throws Exception {

  	  String str1 = "姓名";

  	  String str2 = "用户名";

  	  demo(str1,"UTF-8","ISO-8859-1");

  	  demo(str2,"UTF-8","ISO-8859-1");

  	  demo(str1,"UTF-8","GBK");

  	  demo(str2,"UTF-8","GBK");

  	}

 输出结果：

  	原文：姓名

  	UTF-8 Byte：e5 a7 93 e5 90 8d

  	to ISO-8859-1:å§“å

  	ISO-8859-1 Byte：e5 a7 93 e5 90 8d

  	revert UTF-8：姓名

  	===

  	原文：用户名

  	UTF-8 Byte：e7 94 a8 e6 88 b7 e5 90 8d

  	to ISO-8859-1:ç”¨æˆ·å

  	ISO-8859-1 Byte：e7 94 a8 e6 88 b7 e5 90 8d

  	revert UTF-8：用户名

  	===

  	原文：姓名

  	UTF-8 Byte：e5 a7 93 e5 90 8d

  	to GBK:濮撳悕

  	GBK Byte：e5 a7 93 e5 90 8d

  	revert UTF-8：姓名

  	===

  	原文：用户名

  	UTF-8 Byte：e7 94 a8 e6 88 b7 e5 90 8d

  	to GBK:鐢ㄦ埛鍚�

  	GBK Byte：e7 94 a8 e6 88 b7 e5 90 3f

  	revert UTF-8：用户�?

  	===

为什么GBK会出错

前三段都没问题，最后一段，奇数个汉字的utf-8字节流转成GBK字符串，再转回来，前面一切正常，最后一个字节，变成了 “0x3f”，即”?”

我们使用”用户名” 三个字来分析，它的UTF-8 的字节流为：

[e7 94 a8] [e6 88 b7] [e5 90 8d]

我们按照三个字节一组分组，他被用户A当做一个整体交给用户B。

用户B由于不知道是什么字符集，他当做GBK处理，因为GBK是双字节编码，如下按照两两一组进行分组：

[e7 94] [a8 e6] [88 b7] [e5 90] [8d ？]

不够了，怎么办？它把 0x8d当做一个未知字符，用一个半角Ascii字符的 “？” 代替，变成了：

[e7 94] [a8 e6] [88 b7] [e5 90] 3f

数据被破坏了。

为什么 ISO-8859-1 没问题

因为 ISO-8859-1 是单字节编码，因此它的分组方案是：

[e7] [94] [a8] [e6] [88] [b7] [e5] [90] [8d]

因此中间不做任何操作，交回个用户A的时候，数据没有变化。

关于Unicode编码

因为UTF-16 区分大小端，严格讲：unicode==UTF16BE。

 public static void main(String[] args) throws Exception {

  	  String str="测试";

  	  printHex(str.getBytes("UNICODE"));

  	  printHex(str.getBytes("UTF-16LE"));

  	  printHex(str.getBytes("UTF-16BE"));

  	}

 运行结果：

  	fe ff 6d 4b 8b d5

  	4b 6d d5 8b

  	6d 4b 8b d5

其中 “fe ff” 为大端消息头，同理，小端消息头为 “ff fe”。

小结

作为中间转存方案，ISO-8859-1 是安全的。

UTF-8 字节流，用GBK字符集中转是不安全的；反过来也是同样的道理。

 byte[] utfByte = str.getBytes("UTF-8");

  	String gbk = new String(utfByte, "GBK");

  	这是错误的用法，虽然在ISO-8859-1时并没报错。

  	首先，byte[] utfByte = str.getBytes("UTF-8");

  	执行完成之后，utfByte 已经很明确，这是utf-8格式的字节流；

  	然后，gbk = new String(utfByte, "GBK")，

  	对utf-8的字节流使用gbk解码，这是不合规矩的。

  	就好比一个美国人说一段英语，让一个不懂英文又不会学舌的日本人听，然后传递消息给另一个美国人。

  	为什么ISO-8859-1 没问题呢？

  	因为它只认识一个一个的字节，就相当于是一个录音机。我管你说的什么鬼话连篇，过去直接播放就可以了。

 getBytes() 是会丢失数据的操作，而且不一定会抛异常。

 unicode是安全的，因为他是java使用的标准类型，跨平台无差异。

java中文GBK和UTF-8编码转换乱码的分析的更多相关文章

Java用native2ascii命令做unicode编码转换
背景:在做Java开发的时候,常常会出现一些乱码,或者无法正确识别或读取的文件,比如常见的validator验证用的消息资源(properties)文件就需要进行Unicode重新编码.原因是java ...
gbk转utf-8 iconv 编码转换
linux以下有时候字符须要进行编码转换(爬虫将gbk转为utf-8编码...).一般能够选择iconv函数. 终端以下输入 man 3 iconv 得到 iconv函数的用法. 个人看习惯了 ...
java,arduino,C#之间的一些编码转换
1.C#-> Encoding.UTF8.GetBytes( "abc中") ->[97,98,99,228,184,173] java->byte[] bs= ...
ASP中Utf-8与Gb2312编码转换乱码问题的解决方法页面编码声明
ASP程序在同一个站点中,如果有UTF-8编码的程序,又有GB2312编码的程序时,在浏览UTF-8编码的页面后,再浏览当前网站GB2312的页面,GB2312编码的页面就会出现乱码出现这样的问题是 ...
Java：编码与乱码问题
一.为什么要编码? 由于人类的语言太多,因而表示这些语言的符号太多,无法用计算机的一个基本的存储单元----byte来表示,因而必须要经过拆分或一些翻译工作,才能让计算机能理解. byte一个字节即8 ...
Java编码与乱码问题
一.为什么要编码? 由于人类的语言太多,因而表示这些语言的符号太多,无法用计算机的一个基本的存储单元----byte来表示,因而必须要经过拆分或一些翻译工作,才能让计算机能理解. byte一个字节即8 ...
补充：bytes类型以及字符编码转换
内容转自小猿圈链接:https://book.apeland.cn/details/41/ 定义 bytes类型是指一堆字节的集合,在python中以b开头的字符串都是bytes类型 b'\xe5\x ...
【Java基础专题】编码与乱码(05)---GBK与UTF-8之间的转换
原文出自:http://www.blogjava.net/pengpenglin/archive/2010/02/22/313669.html 在很多论坛.网上经常有网友问" 为什么我使用 ...
JAVA中文字符串编码--GBK转UTF-8
转载自:https://www.cnblogs.com/yoyotl/p/5979200.html 一.乱码的原因 gbk的中文编码是一个汉字用[2]个字节表示,例如汉字“内部”的gbk编码16进制的 ...

随机推荐

Java逐行写入字符串到文件
下边是写东西到一个文件中的Java代码.运行后每一次,一个新的文件被创建,并且之前一个也将会被新的文件替代.这和给文件追加内容是不同的. 1. public static void writeFile ...
UML简单熟悉
+ :代表public - :代表private # :代表protected 实现,继承关系:implements,extends 关联关系:使一个类知道另一个类的属性和方法每一个Driver类 ...
LoadRunner进行参数化的九种方式取值和连接数据库取值
一.连接mysql数据库取值 1.首先安装odbc驱动链接: https://pan.baidu.com/s/1WAYd4ygQqIrbB08S01hSkg 提取码: gdfs 2.操作步骤如下图: ...
Java_myBatis_逆向工程
所谓逆向工程,就是根据数据库自动生成项目工程(包括了Interface.POJO.映射文件xml) 逆向工程包:https://github.com/wcyong/mybatisGeneratorCu ...
安装Cloudera manager agent步骤详解
安装Cloudera manager agent步骤详解作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客主要是针对:https://www.cnblogs.com/yinz ...
Python全栈问答小技巧_2
Python全栈测试题(二) 作者:尹正杰声明:答案如有偏差,欢迎指正!欢迎加入高级运维工程师之路:598432640 本文答题用的Python版本是:Python 3.5.2,请知晓! 1. 计算 ...
centos6.5环境下安装zk
第一步:先下载安装包,解压. 第二步:进去根目录,创建data文件夹 mkdir data 第三步:进去conf文件夹,修改 zoo_sample.cfg 的名字 mv zoo_sam ...
版本管理——git
一.git简介 git是一个分布式版本控制系统 ,学习git之前首先要了解什么是分布式版本控制系统. 集中式版本控制:版本库集中存放在中央服务器,我们工作的时候先从中央服务器获取最新版本,干完活后把 ...
Neural Networks and Deep Learning 课程笔记（第三周）浅层神经网络(Shallow neural networks)
3.1 神经网络概述(Neural Network Overview ) (神经网络中,我们要反复计算a和z,最终得到最后的loss function) 3.2 神经网络的表示(Neural Netw ...
JS 中对变量类型判断的几种方式
文章整理搬运,出处不详,如有侵犯,请联系~ 数据类型判断和数据类型转换代码工具在 JS 中,有 5 种基本数据类型和 1 种复杂数据类型,基本数据类型有:Undefined, Null, Boo ...

java中文GBK和UTF-8编码转换乱码的分析

java中文GBK和UTF-8编码转换乱码的分析的更多相关文章

随机推荐

热门专题