项目上线一周后,正准备看新闻的我突然接到了一个任务。线上突然出现了一条乱码的数据,需要解决这个bug。于是我放下了手中的保温杯,开始解决这个bug。经过一番折腾,发现是有一个同事在处理IO流上写得有点问题,导致了乱码的产生。

一、问题的发现与分析

(1)发现
    针对这个乱码问题,我脑海中闪过了3种会导致乱码产生的情景。
      • [1] 数据库表里面字符集设置错误
      • [2] 由于未加编码过滤器导致SpringMVC接收参数时造成的乱码
      • [3] 代码中涉及byte数组转换String时出现了问题
    经过一序列的排查,发现不存在 [1] [2] 的问题,应该是 [3] 这种场景出现了问题。
    经过仔细阅读代码,发现了一个InputStream流转成String字符串的代码有bug,会导致出现乱码。代码如下图
                
    防止图片失效,代码也贴上
	/**
* 将流中的内容转换为字符串,主要用于提取request请求的中requestBody
* @param in
* @param encoding
* @return
*/
public static String streamToString(InputStream in, String encoding){
// 将流转换为字符串
try {
StringBuffer sb = new StringBuffer();
byte[] b = new byte[1024];
for (int n; (n = in.read(b)) != -1;) {
sb.append(new String(b, 0, n, encoding));
}
return sb.toString();
} catch (IOException e) {
e.printStackTrace();
throw new RuntimeException("提取 requestBody 异常", e);
}
}
20
 
1
    /**
2
     * 将流中的内容转换为字符串,主要用于提取request请求的中requestBody
3
     * @param in
4
     * @param encoding
5
     * @return
6
     */
7
    public static String streamToString(InputStream in, String encoding){
8
        // 将流转换为字符串
9
        try {
10
            StringBuffer sb = new StringBuffer();
11
            byte[] b = new byte[1024];
12
            for (int n; (n = in.read(b)) != -1;) {
13
                sb.append(new String(b, 0, n, encoding));
14
            }
15
            return sb.toString();
16
        }  catch (IOException e) {
17
            e.printStackTrace();
18
            throw new RuntimeException("提取 requestBody 异常", e);
19
        }
20
    }
(2)分析
    这段代码是一个字节流读取内容,然后转换成String的过程。仔细观察他这段代码,发现将流的内容读取进来是采用小数组的方式。小数组读取的方式本身没什么问题,但是下面的这个new String这个代码就有大问题了。java中utf-8编码的中文是占3个字节。如果刚好有一个中文"我"字处于流中的位置为第1023-1025字节,那么采用小数组方式第一次读取时只读到了这个"我"字的2/3,把这2/3转成String时就产生了乱码。
    因此,根本原因是用小数组方式会出现读到半个中文,然后把这个半个中文转成String就会乱码。要解决这个问题,只需要将所有数据都读进来,最后再转换成String即可。

二、问题的解决

    经过上面的分析,我们知道如果要保证不出现乱码则必须将流数据全部读取完毕再转换成String。为了实现这个功能,那这个byte小数组怎么合并呢?一次性全部读进来感觉也不是很好的方案。这时候轮到内存输出流ByteArrayOutputStream登场了。具体的直接看下面代码
	/**
* 将流中的内容转换为字符串,主要用于提取request请求的中requestBody
* @param in
* @param encoding
* @return
*/
public static String streamToString(InputStream in, String encoding){
// 将流转换为字符串
ByteArrayOutputStream bos = null;
try {
// 1.创建内存输出流,将读到的数据写到内存输出流中
bos = new ByteArrayOutputStream();
// 2.创建字节数组
byte[] arr = new byte[1024];
int len;
while(-1 != (len = in.read(arr))) {
bos.write(arr, 0, len);
}
// 3.将内存输出流的数据全部转换为字符串
return bos.toString(encoding);
} catch (IOException e) {
e.printStackTrace();
throw new RuntimeException("提取 requestBody 异常", e);
} finally {
if(null != bos) {
try {
// 其实这个内存输出流可关可不关,因为它的close方法里面没做任何操作。
bos.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
}
 
1
    /**
2
     * 将流中的内容转换为字符串,主要用于提取request请求的中requestBody
3
     * @param in
4
     * @param encoding
5
     * @return
6
     */
7
    public static String streamToString(InputStream in, String encoding){
8
        // 将流转换为字符串
9
        ByteArrayOutputStream bos = null;
10
        try {
11
            // 1.创建内存输出流,将读到的数据写到内存输出流中
12
            bos = new ByteArrayOutputStream();
13
            // 2.创建字节数组
14
            byte[] arr = new byte[1024];
15
            int len;
16
            while(-1 != (len = in.read(arr))) {
17
                bos.write(arr, 0, len);
18
            }
19
            // 3.将内存输出流的数据全部转换为字符串
20
            return bos.toString(encoding);
21
        }  catch (IOException e) {
22
            e.printStackTrace();
23
            throw new RuntimeException("提取 requestBody 异常", e);
24
        } finally {
25
            if(null != bos) {
26
                try {
27
                    // 其实这个内存输出流可关可不关,因为它的close方法里面没做任何操作。
28
                    bos.close();
29
                } catch (IOException e) {
30
                    e.printStackTrace();
31
                }
32
            }
33
        }
34
    }

三、小结

    在将字节流内容转换成字符串时,特别要注意这种读取到半个中文的问题。

记一次InputStream引起的乱码的更多相关文章

  1. InputStream 读取中文乱码 扩展

    对于InputStream读取中文乱码,下面这段话给出了很好的解释,以及后续编码上的扩展. BufferedInputStream和BufferedOutputStream是过滤流,需要使用已存在的节 ...

  2. C# InputStream获取后乱码处理

    Post推送过来的数据流获取后部分中文出现乱码,晚上找了好多办法,不如朋友鼎力相助,哈哈哈~不说废话了上代码把 旧代码基本是网上普遍写法,字段不长用起来不会有乱码情况,但是传送字段一旦过长,超过byt ...

  3. Android InputStream接收 字符串乱码 问题

    各个国家和地区所制定的不同 ANSI 编码标准中,都只规定了各自语言所需的“字符”.比如:汉字标准(GB2312)中没有规定韩国语字符怎样存储.这些 ANSI 编码标准所规定的内容包含两层含义:1. ...

  4. 记一次IntelliJ IDEA中文乱码问题

    问题描述:输出控制台中文乱码,反正就是各种百度解决不了 问题解决:https://blog.csdn.net/m0_37893932/article/details/78280663 解决方案:我用的 ...

  5. 记一次Win上MySQL乱码问题

    Win上MySQL乱码问题 笔记本上的数据库总会时不时的乱码(或者是一直乱码我没注意到?),在谷歌上试了几次错才正确解决,在此记录一下. 在MySQL数据库存储目录找到my.ini,在相应的标签下分别 ...

  6. 记一次idea后台日志乱码解决办法

  7. javaSE高级篇2 — 流技术 — 更新完毕

    1.先认识一个类----File类 前言:IO相关的一些常识 I / O----输入输出 I     输入     input 0    输出     output I / o 按数据的流动方向来分- ...

  8. JavaFX+SpringBoot+验证码功能的小型薪酬管理系统

    2020.07.22更新 1 概述 1.1 简介 一个简单的小型薪酬管理系统,前端JavaFX+后端Spring Boot,功能倒没多少,主要精力放在了UI和前端的一些逻辑上面,后端其实做得很简单. ...

  9. java web 学习十(HttpServletRequest对象1)

    一.HttpServletRequest介绍 HttpServletRequest对象代表客户端的请求,当客户端通过HTTP协议访问服务器时,HTTP请求头中的所有信息都封装在这个对象中,通过这个对象 ...

随机推荐

  1. Nginx 配置下载附件让浏览器提示用户是否保存

    Nginx配置下载附件让浏览器提示用户是否保存   by:授客  QQ:1033553122   测试环境 nginx-1.10.0 问题描述: 前端页面,IE11浏览器下请求下载附件模板,针对xls ...

  2. WPF:Metro样式ProgressBar(圆点横向移动),自适应宽度

    先看效果图: 最直观的,这是4个圆点在移动,就用一个横向的StackPanel表示这四个点吧. <StackPanel Orientation="Horizontal"> ...

  3. C#“必须先将当前线程设置为单个线程单元(STA)模式方可进行OLE调用”异常解决方案

    关于这类问题网上搜索会有很多解决方案,但基本的意思都相差不大,大致问题出于启用线程时调用类似剪贴板Clipboard.SetDataObject出错,我把我的测试代码展现下: 解决方案:只需将thre ...

  4. 编程一小时 code.org [六一关注]

    编程一小时活动的组织者是Code.org, 它是一个面向公众的公益组织,致力于在更多的学校推广计算机科学教育,并为女性和就业率低的有色人种学生学习计算机的机会.同时,一个空前强大的合作伙伴联盟也在支持 ...

  5. 单纯linux系统下hadoop2.7.3 eclipse,记一次成功的运行wordcount的注意事项

    hadoop要正确安装好 hadoop eclipse plugin要对应相应的eclipse版本 define hadoop location mr master:9000 另一个9001  下面的 ...

  6. C#判断文件编码——常用字法

    使用中文写文章,当篇幅超过一定程度,必然会使用到诸如:“的”.“你”.“我”这样的常用字.本类思想便是提取中文最常用的一百个字,使用中文世界常用编码(主要有GBK.GB2312.GB18030.UTF ...

  7. SQLServer2016 AlwaysOn AG基于工作组的搭建笔记

    最近搭建了一套SQLServer2016 AlwaysOn AG. (后记:经实际测试,使用SQLServer2012 也同样可以在Winserver2016上搭建基于工作组的AlwaysOn AG, ...

  8. 区块链会与io域名有什么关系

    为什么区块链会与io域名有这么大的联系? 近几年,区块链成为各国央行到国内外各大商业银行.联合国.国际货币基金组织到许多国家政府研究机构讨论的热点,"区块链+"应用创新正在成为引领 ...

  9. Echarts在手机端y轴数据过大,显示不全

    解决办法: 减少y轴的margion,和格式化y轴 myChart.setOption({ ..., yAxis: { axisLabel: { margin: , formatter: functi ...

  10. c/c++ 重载运算符的思考

    c/c++ 重载运算符的思考 #include <iostream> using namespace std; class Imaginary{ public: Imaginary():r ...