理解并解决GBK转UTF-8奇数中文乱码（转）

最近在做一个反馈功能，把数据反馈到对方公司网站，我公司是GBK编码，对方公司是UTF-8编码。因此，我需要将GBK编码数据转换成UTF-8编码数据，这样对方网站才不会乱码。最简单的方法是将HttpClient的ContentCharset设置为utf-8；如果ContentCharset是gbk并且又不想设置为utf-8，那么就需要将数据转换成UTF-8编码再发到对方网站。

问题出现：GBK转UTF-8时，奇数个中文会乱码，偶数个中文不会乱码。
三个中文

public static void encodeError() throws UnsupportedEncodingException {
String gbk = "我来了";
String utf8 = new String(gbk.getBytes("UTF-8"));
//模拟UTF-8编码的网站显示
System.out.println(new String(utf8.getBytes(),"UTF-8"));
}
/*
我来??
*/

前面三个中文，后面一个中文，都是奇数

public static void encodeError2() throws UnsupportedEncodingException {
String gbk = "今年是2011年";
String utf8 = new String(gbk.getBytes("UTF-8"));
//模拟UTF-8编码的网站显示
System.out.println(new String(utf8.getBytes(),"UTF-8"));
}
/*
今年??011??
*/

原因：为什么只有奇数个中文才乱码，偶数个却不乱码？下面来分析原因

public static void analyze() throws UnsupportedEncodingException {
String gbk = "我来了";
String utf8 = new String(gbk.getBytes("UTF-8"));
for (byte b : gbk.getBytes("UTF-8")) {
System.out.print(b + " ");
}
System.out.println();
for (byte b : utf8.getBytes()) {
System.out.print(b + " ");
}
}
/*
-26 -120 -111 -26 -99 -91 -28 -70 -122
-26 -120 -111 -26 -99 -91 -28 -70 63
*/

注意最后一个字节不同，上面一行才是正确的UTF-8编码。那么为什么下面一行最后一个字节是63，而不是-122呢？这就是导致乱码的原因所在。
GBK编码是一个中文2个字节，而UTF-8编码是一个中文3个字节，当我们调用getBytes("UTF-8")方法时，会通过计算来增加字节，使得从GBK的2个字节变成UTF-8对应的3个字节。因此，上例3个中文输出了9个字节。

这里讲一下怎么通过计算增加字节，不深究的读者可以跳过此段。为了醒目，直接用代码讲解

public static void gbk2Utf() throws UnsupportedEncodingException {
String gbk = "我来了";
char[] c = gbk.toCharArray();
byte[] fullByte = new byte[3*c.length];
for (int i=0; i<c.length; i++) {
String binary = Integer.toBinaryString(c[i]);
StringBuffer sb = new StringBuffer();
int len = 16 - binary.length();
//前面补零
for(int j=0; j<len; j++){
sb.append("0");
}
sb.append(binary);
//增加位，达到到24位3个字节
sb.insert(0, "1110");
sb.insert(8, "10");
sb.insert(16, "10");
fullByte[i*3] = Integer.valueOf(sb.substring(0, 8), 2).byteValue();//二进制字符串创建整型
fullByte[i*3+1] = Integer.valueOf(sb.substring(8, 16), 2).byteValue();
fullByte[i*3+2] = Integer.valueOf(sb.substring(16, 24), 2).byteValue();
}
//模拟UTF-8编码的网站显示
System.out.println(new String(fullByte,"UTF-8"));
}

现在我们来找出最后一个字节是63，而不是-122的原因。

public static void analyze2() throws UnsupportedEncodingException {
String gbk = "我来了";
byte[] utfBytes = gbk.getBytes("UTF-8");//得到9个字节
String utf8 = new String(utfBytes);//问题就出在这
System.out.print(utf8);
}
/*
鎴戞潵浜?
*/

因为文件是GBK编码，new String(utfBytes)默认就是new String(utfBytes,"GBK")。它会2个字节2个字节地转换成字符，当字节是奇数时最后1个字节转字符就会计算错误，然后直接赋予最后这个字符为?，对应ASCII代码就是63。

解决问题
保证字节正确才是硬道理。当调用getBytes("UTF-8")转换成字节数组后，创建ISO-8859-1编码的字符串，ISO-8859-1编码是一个字节对应一个字符，因此不会使最后一个字节错误。

public static void correctEncode() throws UnsupportedEncodingException {
String gbk = "我来了";
String iso = new String(gbk.getBytes("UTF-8"),"ISO-8859-1");
for (byte b : iso.getBytes("ISO-8859-1")) {
System.out.print(b + " ");
}
System.out.println();
//模拟UTF-8编码的网站显示
System.out.println(new String(iso.getBytes("ISO-8859-1"),"UTF-8"));
}
/*
-26 -120 -111 -26 -99 -91 -28 -70 -122
我来了
*/

http://www.iteye.com/topic/1097560

理解并解决GBK转UTF-8奇数中文乱码（转）的更多相关文章

解决python语言在cmd下中文乱码的问题
解决python语言在cmd下中文乱码的问题: a = "再见!"print (a.decode('utf-8').encode('gbk')) #解决在cmd下中文乱码的问题
解决@ResponseBody注解返回的json中文乱码问题
1. 简介主要解决@ResponseBody注解返回的json中文乱码问题. 2.解决方案 2.1mvc加上注解(推荐此方法) 在mvc配置文件中假如下面配置(写在 <mvc:annotati ...
解决get方法传递URL参数中文乱码问题
[转]解决get方法传递URL参数中文乱码问题来自:http://www.javaeye.com/topic/483158 应用一:解决tomcat下中文乱码问题(先来个简单的) 在tomcat下, ...
spring boot 解决后台返回 json 到前台中文乱码之后出现返回json数据报错 500：no convertter for return value of type
问题描述 spring Boot 中文返回给浏览器乱码解析成问号?? fastJson jackJson spring boot 新增配置解决后台返回 json 到前台中文乱码之后,出现返回json ...
关于Androdi中SQLITE 3采用GBK编码存储，数据库中文乱码问题。
1.最近开发一个项目,用SQLite Expert Personal打开数据库如下图,title会产生乱码,问题. 2.由于SQL lite默认是存储UTF-8格式,后来更改数据库编码类型为ANSI, ...
QT笔记之解决QT5.2.0和VS2012中文乱码以及在Qt Creator中文报错
转载:http://bbs.csdn.net/topics/390750169 VS2012 中文乱码 1.方法一: 包含头文件 #include <QTextCodec> ....... ...
分布式监控系统Zabbix-3.0.3-完整安装记录（4）-解决zabbix监控图中出现中文乱码问题
之前部署了Zabbix-3.0.3监控系统,在安装数据库时已经将zabbix库设置了utf-8字符. 首先确定zabbix开启了中文支持功能:登录到zabbix服务器的数据目录下(前面部署的zabbi ...
[转]解决get方法传递URL参数中文乱码问题
来自:http://www.javaeye.com/topic/483158 应用一:解决tomcat下中文乱码问题(先来个简单的) 在tomcat下,我们通常这样来解决中文乱码问题: 过滤器代码: ...
SSM框架：解决后台传数据到前台中文乱码问题，使用@ResponseBody返回json 中文乱码
解决方法一:@RequestMapping(value="/getphone",produces = "text/plain;charset=utf-8") / ...
[oracle]解决centos 7下oracle的中文乱码问题
首先在形成中文乱码的原因是由于字符集不统一导致的,不同的字符集在转换的过程中必然要出现乱码,当然不排除可以转换.所以要解决中文乱码问题,思路是将输入.存储.显示等流程中涉及到字符集都统一为一种,对于o ...

随机推荐

让你的 Qt 桌面程序看上去更加 native（一共六篇）
<让你的 Qt 桌面程序看上去更加 native>是一个系列文章.在这个系列中,你将会了解到如何让你的 Qt 桌面应用程序看上去更加 native.这里,我假设你已经清楚如何使用 Qt 编 ...
香蕉派 BPI-M1+ 双核开源硬件单板计算机
香蕉派 BPI-M1+ 开源硬件开发板深圳市源创通信技术有限公司公司 http://www.sinovoip.com.cn/cp_view.asp?id=562 产品介绍 Banana PI BPI ...
Study notes for Sparse Coding
Sparse Coding Sparse coding is a class of unsupervised methods for learning sets of over-complete ba ...
Java中StringBuilder的清空方法比較
StringBuilder 没有提供clear或empty方法. 清空有3种方法: 1)新生成一个,旧的由系统自己主动回收 2)使用delete 3)使用setLength 将三种方法循环1000万次 ...
Lucene4.3入门
辞职交接期间无聊看了一下搜索引擎,java社区比较火的当然是Lucene,想写一个简单的小例子,在网上找了些资料,不过都不是4.3的,自己看了一下. 下载地址:http://lucene.apache ...
MVC：Controller向View传值方式总结
Controller向View传值方式总结总结发现ASP.NET MVC中Controller向View传值的方式共有6种,分别是: ViewBag ViewData TempData 向普通Vie ...
动态Pivot(2)
原文 http://book.51cto.com/art/200710/58875.htm 存储过程sp_pivot的实现包含糟糕的编程习惯和安全隐患.就像我在本章的前面提到的,微软强烈建议不要在用 ...
遍历关联数组 index by varchar2
--字符串序列要这样 declare type t is table of number(3) index by varchar2(3); hash_t t; l_row ...
hdoj 1286 找新朋友【数论之欧拉函数】
找新朋友 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) Total Submi ...
OpenGL框架+QT版
原地址:http://blog.chinaunix.net/uid-25799257-id-3498005.html 之前一直做地图的算法,没什么时间学习opengl,之前看nehe_OpenGL.c ...

理解并解决GBK转UTF-8奇数中文乱码（转）

理解并解决GBK转UTF-8奇数中文乱码（转）的更多相关文章

随机推荐

热门专题