虽然计算机对英文字符的支持非常不错,我们也恨不得写的程序只会处理英文的数据,但是昨为中国人,无可避免地要处理一些中文字符。当很简单的一件事情,遇到了中文,一切就不同了!本文就会讲述实际生产环境中遇到的四个中文迷题,欢迎大家参与补充!

1、“我”讲的其它机器听不懂?

当把一串中文字符,通过HTTP、TCP方式传递到另外一个系统时,会经常惊奇地发现,在发送前还是好好的,但是收到后却全坏了!怎么办?下面提供几种情况,对症下药:

(1)发送时使用的GET请求

要特别注意传递参数时,不要直接使用中文(如?key=热情),这基本就宣告了这个代码在某个浏览器、某个机器上,对方收到的东西就是乱码了。必须要对传递的参数进行Url Encode,接受方再进行Url Decode,取出来的数据基本就是OK的了。注:某些Java框架(如Spring)的RestTemplate会自动对GET方式的调用参与进行Encode、Decode,你就可以不用再人工去做了。

(2)使用了byte传递数据

在使用MQ、原生Socket等场景下,有时要用byte传递数据。这时一定要对String的getBytes方法传递编码参数,一般用"UTF-8",且接收方则用new String(bytes, "UTF-8")来构造字符串,不然也有乱码风险!建议对需要用byte传递数据的场景,尽量转为Base64编码的方式进行传递,更方便去调试程序。

(3)设置运行环境编码

如果你的系统默认编码未设置对,那么默认的Java代码运行环境也不对,所以一要在程序运行时对Java代码运行环境进行设置。以Linux Shell为例,在启动应用的shell里,增加

export LANG=en_US.UTF-

这可以保证应用在调用系统命令行时,运行环境是以UTF-8编码的。另外如果是Tomcat,那么的脚本处也加上参数项:

-Dsun.jnu.encoding=UTF- -Dfile.encoding=UTF- -Duser.language=en -Duser.country=US

再修改tomcat默认编码(ISO-8859-1)方法,修改tomcat根目录的conf下的server.xml,Connector元素添加URIEncoding="UTF-8"属性:

<Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" URIEncoding="UTF-8" />

这可以保证应用的Java代码的默认运行是在UTF-8编码基础上的,如果需要通信的系统全设置为UTF-8,可以避免诸多编码转换!

2、浏览器不认识“我”?

一般来说,浏览与应用的交互就是GET、POST请求了,当然还有PUT、DELETE请求,不过触类旁通,不需要讲太多。

POST请求的中文数据,经常是可以正常在前后台传递的,但是GET请求就没那么幸运了,一定要记得进行URL Encode与Decode,养成好的编码习惯,减少后续调试代码的难度与时间。

3、猜一猜“我”说的是什么?

在读写含中文文本的文件时,有时候也会读出乱码来,原因是因为程序的运行编码永远只有默认的一种的,那么如果不带编码参数地去读取文件,由于文件编码可能与程序编码不同,最后读出来的就是乱码了。这个时候,就需要写程序去“猜”文件的编码了。

现在有许多开源的识别编码的类库可以直接使用,但是也并不全是ok的,常见的编码能识别就好,像这些:UTF-8、GB2312、GBK、GB18030、UTF-16、US-ASCII、Big5、ISO-8859-1,遇到的概率非常大。我这里推荐几个:EncodingDetecotrjChardet

在读取到byte后,通过编码识别再存为相应的String,就可以得到正常的中文了。

4、听说UTF-8还有BOM?

BOM,在UCS编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的编码是FEFF,这就是所谓的BOM头了,它的UTF-8编码是EF BB BF。在Windows系统上,默认用记事本存储为UTF-8格式,是有BOM的,但是Linux下却是默认无BOM的。缺了BOM的文件,经常在Windows下就识别出现错位、乱码等问题。解决之道就是在读取文件、byte的前几个字节,如果无BOM就给它加上BOM。

     /**
* 判断文件是否有BOM
*
* @return
*/
public static boolean hasBom(File file) {
FileInputStream input = null;
try {
input = new FileInputStream(file);
byte[] buf = new byte[1024];
if ((input.read(buf, 0, 1024)) != -1) {
if (buf[0] == (byte) 0xEF && buf[1] == (byte) 0xBB && buf[2] == (byte) 0xBF) {
return true;
}
}
return false;
} catch (IOException e) {
_logger.error(e);
return true;
} finally {
if (input != null) {
try {
input.close();
} catch (IOException e) {
_logger.error("资源释放失败!", e);
}
}
}
}

如果无BOM,则在传给Windows的地方或需要导出的地方这前先加上:new byte[] {(byte) 0xEF, (byte) 0xBB, (byte) 0xBF} 这些字节。

以上这些点如果注意了,常见的中文编码问题就解决了,如果还有新的坑,博主会在此更新哈。

转载请注明原址:http://www.cnblogs.com/lekko/p/4943581.html

Java中文字符处理的四大迷题的更多相关文章

  1. Java 中文字符判断 中文标点符号判断

    Java Character 实现Unicode字符集介绍  CJK中文字符和中文标点判断 主要内容: 1. Java Character类介绍: 2. Unicode 简介及 UnicodeBloc ...

  2. Java中文字符所占的字节数

    Java语言中,中文字符所占的字节数取决于字符的编码方式,一般情况下,采用ISO8859-1编码方式时,一个中文字符与一个英文字符一样只占1个字节:采用GB2312或GBK编码方式时,一个中文字符占2 ...

  3. 使用Java判断字符串中的中文字符数量

    Java判断一个字符串str中中文的个数,经过总结,有以下几种方法(全部经过验证),可根据其原理判断在何种情况下使用哪个方法: 1. char[] c = str.toCharArray(); for ...

  4. java中文乱码解决之道(二)-----字符编码详解:基础知识 + ASCII + GB**

    在上篇博文(java中文乱码解决之道(一)-----认识字符集)中,LZ简单介绍了主流的字符编码,对各种编码都是点到为止,以下LZ将详细阐述字符集.字符编码等基础知识和ASCII.GB的详情. 一.基 ...

  5. java中Cookie中文字符乱码问题

    如果Cookie中的Value 中有中文字符出现,在加入Cookie的时候,会出现下面的错误: java.lang.IllegalArgumentException: Control characte ...

  6. java中文乱码解决之道(二)—–字符编码详解:基础知识 + ASCII + GB**

    原文出处:http://cmsblogs.com/?p=1412 在上篇博文(java中文乱码解决之道(一)—–认识字符集)中,LZ简单介绍了主流的字符编码,对各种编码都是点到为止,以下LZ将详细阐述 ...

  7. Java中读取txt文件中中文字符时,出现乱码的解决办法

    这是我写的一个Java课程作业时,遇到的问题. 问题描述: 我要实现的就是将txt文件中的内容按一定格式读取出来后,存放在相应的数组. 我刚开始运行时发现,英文可以实现,但是中文字符就是各种乱码. 最 ...

  8. JAVA的中文字符乱码问题

    来源:http://luzefengoo.blog.163.com/blog/static/1403593882012754428536/ JAVA的中文字符乱码问题一直很让人头疼.特别是在WEB应用 ...

  9. Java判断中文字符

    package com.jsoft.test; import java.util.regex.Pattern; /** * 判断中文字符 * * @author jim * @date 2017-12 ...

随机推荐

  1. Android—ListView条目背景为图片时,条目间距问题解决

    ListView是android开发中使用最普遍的控件了,可有的listView条目的内容颇为丰富,甚至为了美观,背景用指定图片,如下图:

  2. 在Ubuntu下搭建Spark群集

    在前一篇文章中,我们已经搭建好了Hadoop的群集,接下来,我们就是需要基于这个Hadoop群集,搭建Spark的群集.由于前面已经做了大量的工作,所以接下来搭建Spark会简单很多. 首先打开三个虚 ...

  3. 警惕!高版本VS发布时预编译导致Mono中Razor找不到视图

    早前一段时间,一位朋友在Q群里面找到我,说它按照<Linux.NET学习手记>的操作,把一个ASP.NET MVC 4.0的项目部署到Mono之后出现Razor无法找到视图的现象.当时费了 ...

  4. 腾讯云上免费部署HTTPS

    接上篇<腾讯云下安装 nodejs + 实现 Nginx 反向代理>,想从头一步到位的同学建议从上篇文章开始阅读.本文将继续介绍如何通过 Nginx 免费部署HTTPS. 留意下,这里的“ ...

  5. 在 Ubuntu 14.10 中借用 Windows 的字体

    在前一篇随笔中,我详细讨论了字体的分类及用途,也以 Fedora 20 为例,展示了字体配置的思路和方法.我在配置 Fedora 20 系统字体的时候,采用的是一种釜底抽薪的方法,完全抛开了系统原有的 ...

  6. Spark笔记:RDD基本操作(上)

    本文主要是讲解spark里RDD的基础操作.RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当 ...

  7. .NET Web开发技术简单整理

    在最初学习一些编程语言.一些编程技术的时候,做的更多的是如何使用该技术,如何更好的使用该技术解决问题,而没有去关注它的相关性.关注它的理论支持,这种学习技术的方式是短平快.其实工作中有时候也是这样,公 ...

  8. 数据库中树形列表(以easyui的tree为例)

    构造一棵easyui前台框架的一个树形列表为例后台框架是spring MVC+JPA. 先看一下数据库是怎么建的,怎么存放的数据 下面是实体类 /** * 部门类 用户所属部门(这里的部门是一个相对抽 ...

  9. 设计模式之合成/聚合利用原则(CARP)

    一.概念 CARP:CompositionAggregation Principle 合成聚合复用原则,尽量使用合成/聚合,尽量不使用类继承.合成聚合是“has  a”的关系,而继承是“is  a”的 ...

  10. 基于Caffe的DeepID2实现(下)

    小喵的唠叨话:这次的博客,真心累伤了小喵的心.但考虑到知识需要巩固和分享,小喵决定这次把剩下的内容都写完. 小喵的博客:http://www.miaoerduo.com 博客原文: http://ww ...