理解并解决GBK转UTF-8奇数中文乱码（转）

最近在做一个反馈功能，把数据反馈到对方公司网站，我公司是GBK编码，对方公司是UTF-8编码。因此，我需要将GBK编码数据转换成UTF-8编码数据，这样对方网站才不会乱码。最简单的方法是将HttpClient的ContentCharset设置为utf-8；如果ContentCharset是gbk并且又不想设置为utf-8，那么就需要将数据转换成UTF-8编码再发到对方网站。

问题出现：GBK转UTF-8时，奇数个中文会乱码，偶数个中文不会乱码。
三个中文

public static void encodeError() throws UnsupportedEncodingException {
String gbk = "我来了";
String utf8 = new String(gbk.getBytes("UTF-8"));
//模拟UTF-8编码的网站显示
System.out.println(new String(utf8.getBytes(),"UTF-8"));
}
/*
我来??
*/

前面三个中文，后面一个中文，都是奇数

public static void encodeError2() throws UnsupportedEncodingException {
String gbk = "今年是2011年";
String utf8 = new String(gbk.getBytes("UTF-8"));
//模拟UTF-8编码的网站显示
System.out.println(new String(utf8.getBytes(),"UTF-8"));
}
/*
今年??011??
*/

原因：为什么只有奇数个中文才乱码，偶数个却不乱码？下面来分析原因

public static void analyze() throws UnsupportedEncodingException {
String gbk = "我来了";
String utf8 = new String(gbk.getBytes("UTF-8"));
for (byte b : gbk.getBytes("UTF-8")) {
System.out.print(b + " ");
}
System.out.println();
for (byte b : utf8.getBytes()) {
System.out.print(b + " ");
}
}
/*
-26 -120 -111 -26 -99 -91 -28 -70 -122
-26 -120 -111 -26 -99 -91 -28 -70 63
*/

注意最后一个字节不同，上面一行才是正确的UTF-8编码。那么为什么下面一行最后一个字节是63，而不是-122呢？这就是导致乱码的原因所在。
GBK编码是一个中文2个字节，而UTF-8编码是一个中文3个字节，当我们调用getBytes("UTF-8")方法时，会通过计算来增加字节，使得从GBK的2个字节变成UTF-8对应的3个字节。因此，上例3个中文输出了9个字节。

这里讲一下怎么通过计算增加字节，不深究的读者可以跳过此段。为了醒目，直接用代码讲解

public static void gbk2Utf() throws UnsupportedEncodingException {
String gbk = "我来了";
char[] c = gbk.toCharArray();
byte[] fullByte = new byte[3*c.length];
for (int i=0; i<c.length; i++) {
String binary = Integer.toBinaryString(c[i]);
StringBuffer sb = new StringBuffer();
int len = 16 - binary.length();
//前面补零
for(int j=0; j<len; j++){
sb.append("0");
}
sb.append(binary);
//增加位，达到到24位3个字节
sb.insert(0, "1110");
sb.insert(8, "10");
sb.insert(16, "10");
fullByte[i*3] = Integer.valueOf(sb.substring(0, 8), 2).byteValue();//二进制字符串创建整型
fullByte[i*3+1] = Integer.valueOf(sb.substring(8, 16), 2).byteValue();
fullByte[i*3+2] = Integer.valueOf(sb.substring(16, 24), 2).byteValue();
}
//模拟UTF-8编码的网站显示
System.out.println(new String(fullByte,"UTF-8"));
}

现在我们来找出最后一个字节是63，而不是-122的原因。

public static void analyze2() throws UnsupportedEncodingException {
String gbk = "我来了";
byte[] utfBytes = gbk.getBytes("UTF-8");//得到9个字节
String utf8 = new String(utfBytes);//问题就出在这
System.out.print(utf8);
}
/*
鎴戞潵浜?
*/

因为文件是GBK编码，new String(utfBytes)默认就是new String(utfBytes,"GBK")。它会2个字节2个字节地转换成字符，当字节是奇数时最后1个字节转字符就会计算错误，然后直接赋予最后这个字符为?，对应ASCII代码就是63。

解决问题
保证字节正确才是硬道理。当调用getBytes("UTF-8")转换成字节数组后，创建ISO-8859-1编码的字符串，ISO-8859-1编码是一个字节对应一个字符，因此不会使最后一个字节错误。

public static void correctEncode() throws UnsupportedEncodingException {
String gbk = "我来了";
String iso = new String(gbk.getBytes("UTF-8"),"ISO-8859-1");
for (byte b : iso.getBytes("ISO-8859-1")) {
System.out.print(b + " ");
}
System.out.println();
//模拟UTF-8编码的网站显示
System.out.println(new String(iso.getBytes("ISO-8859-1"),"UTF-8"));
}
/*
-26 -120 -111 -26 -99 -91 -28 -70 -122
我来了
*/

http://www.iteye.com/topic/1097560

理解并解决GBK转UTF-8奇数中文乱码（转）的更多相关文章

解决python语言在cmd下中文乱码的问题
解决python语言在cmd下中文乱码的问题: a = "再见!"print (a.decode('utf-8').encode('gbk')) #解决在cmd下中文乱码的问题
解决@ResponseBody注解返回的json中文乱码问题
1. 简介主要解决@ResponseBody注解返回的json中文乱码问题. 2.解决方案 2.1mvc加上注解(推荐此方法) 在mvc配置文件中假如下面配置(写在 <mvc:annotati ...
解决get方法传递URL参数中文乱码问题
[转]解决get方法传递URL参数中文乱码问题来自:http://www.javaeye.com/topic/483158 应用一:解决tomcat下中文乱码问题(先来个简单的) 在tomcat下, ...
spring boot 解决后台返回 json 到前台中文乱码之后出现返回json数据报错 500：no convertter for return value of type
问题描述 spring Boot 中文返回给浏览器乱码解析成问号?? fastJson jackJson spring boot 新增配置解决后台返回 json 到前台中文乱码之后,出现返回json ...
关于Androdi中SQLITE 3采用GBK编码存储，数据库中文乱码问题。
1.最近开发一个项目,用SQLite Expert Personal打开数据库如下图,title会产生乱码,问题. 2.由于SQL lite默认是存储UTF-8格式,后来更改数据库编码类型为ANSI, ...
QT笔记之解决QT5.2.0和VS2012中文乱码以及在Qt Creator中文报错
转载:http://bbs.csdn.net/topics/390750169 VS2012 中文乱码 1.方法一: 包含头文件 #include <QTextCodec> ....... ...
分布式监控系统Zabbix-3.0.3-完整安装记录（4）-解决zabbix监控图中出现中文乱码问题
之前部署了Zabbix-3.0.3监控系统,在安装数据库时已经将zabbix库设置了utf-8字符. 首先确定zabbix开启了中文支持功能:登录到zabbix服务器的数据目录下(前面部署的zabbi ...
[转]解决get方法传递URL参数中文乱码问题
来自:http://www.javaeye.com/topic/483158 应用一:解决tomcat下中文乱码问题(先来个简单的) 在tomcat下,我们通常这样来解决中文乱码问题: 过滤器代码: ...
SSM框架：解决后台传数据到前台中文乱码问题，使用@ResponseBody返回json 中文乱码
解决方法一:@RequestMapping(value="/getphone",produces = "text/plain;charset=utf-8") / ...
[oracle]解决centos 7下oracle的中文乱码问题
首先在形成中文乱码的原因是由于字符集不统一导致的,不同的字符集在转换的过程中必然要出现乱码,当然不排除可以转换.所以要解决中文乱码问题,思路是将输入.存储.显示等流程中涉及到字符集都统一为一种,对于o ...

随机推荐

【转】linux命令useradd添加用户详解
在linux中增加用户我们使用useradd命令而删除用户直接使用userdel即可了,下面小编来给各位同学介绍一下在linux中添加与删除用户方法吧. 1.作用 useradd或adduser命 ...
qt执行cmd命令
源地址:http://blog.csdn.net/hn307165411/article/details/6858614 运行 route.ipconfig 肯定没问题 Copy code QProc ...
Android NumberPicker和DatePicker分割线颜色设置
NumberPicker /** * * 设置选择器的分割线颜色 * * @param numberPicker */ private void setDatePickerDividerColor(N ...
Esper学习之五：EPL语法（一）
上篇说到了Esper的Context,要是不了解的同学请参看<Esper学习之四:Context>,看过的同学如果还是不理解的话可以给我评论,我将会尽可能的解答.之前有些同学问我Conte ...
windows的消息传递--消息盒子（超详细EM_UNDO等消息）
使用delphi的消息机制可以方便操作后台,其中重要的就是sendmessage()函数.下面讲解一下这个函数 function SendMessage(hWnd: HWND; Msg: UINT; ...
codeforces 148D 概率DP
题意: 原来袋子里有w仅仅白鼠和b仅仅黑鼠龙和王妃轮流从袋子里抓老鼠. 谁先抓到白色老师谁就赢. 王妃每次抓一仅仅老鼠,龙每次抓完一仅仅老鼠之后会有一仅仅老鼠跑出来. 每次抓老鼠和跑出来的老鼠都是随 ...
基于W5500+Yeelink的远程灯光控制设计
概述工具:物联网云平台Yeelink DHT11温湿度传感器 W5500EVB 编译环境:Keil4 目的:通过以太网实时监控远程某个位置的温度和湿度在W5500EVB端连接LED灯.通过W ...
云计算Docker全面项目实战（Maven+Jenkins、日志管理ELK、WordPress博客镜像）
2013年,云计算领域从此多了一个名词“Docker”.以轻量著称,更好的去解决应用打包和部署.之前我们一直在构建Iaas,但通过Iaas去实现统一功能还是相当复杂得,并且维护复杂.将特殊性封装到 ...
Web前端，高性能优化
高性能HTML 一.避免使用iframe iframe也叫内联frame,可将一个HTML文档嵌入另一个HTML文档中. iframe的好处是,嵌入的文档独立于父文档,通常也借此使浏览器模拟多线程.缺 ...
QT---系统托盘图标不显示原因
很久没用QT写UI相关的东西了,有些东西都忘记了,今天竟然忘记了系统托盘图标是怎么显示的了.下面说下解决方法 1.现象, 设置了QSystemTrayIcon的Icon图标,但就是不显示自己设置的图片 ...

理解并解决GBK转UTF-8奇数中文乱码（转）

理解并解决GBK转UTF-8奇数中文乱码（转）的更多相关文章

随机推荐

热门专题