Java自学-I/O 中文问题

Java中的编码中文问题

步骤 1 : 编码概念

计算机存放数据只能存放数字，所有的字符都会被转换为不同的数字。

就像一个棋盘一样，不同的字，处于不同的位置，而不同的位置，有不同的数字编号。

有的棋盘很小，只能放数字和英文

有的大一点，还能放中文

有的“足够”大，能够放下世界人民所使用的所有文字和符号

如图所示，英文字符 A 能够放在所有的棋盘里，而且位置都差不多

中文字符, 中文字符中能够放在后两种棋盘里，并且位置不一样，而且在小的那个棋盘里，就放不下中文

步骤 2 : 常见编码

工作后经常接触的编码方式有如下几种：

ISO-8859-1 ASCII 数字和西欧字母

GBK GB2312 BIG5 中文

UNICODE (统一码，万国码)

其中

ISO-8859-1 包含 ASCII

GB2312 是简体中文，BIG5是繁体中文，GBK同时包含简体和繁体以及日文。

UNICODE 包括了所有的文字，无论中文，英文，藏文，法文，世界所有的文字都包含其中

步骤 3 : UNICODE和UTF

根据前面的学习，我们了解到不同的编码方式对应不同的棋盘，而UNICODE因为要存放所有的数据，那么它的棋盘是最大的。

不仅如此，棋盘里每个数字都是很长的(4个字节)，因为不仅要表示字母，还要表示汉字等。

如果完全按照UNICODE的方式来存储数据，就会有很大的浪费。

比如在ISO-8859-1中，a 字符对应的数字是0x61

而UNICODE中对应的数字是 0x00000061，倘若一篇文章大部分都是英文字母，那么按照UNICODE的方式进行数据保存就会消耗很多空间

在这种情况下，就出现了UNICODE的各种减肥子编码, 比如UTF-8对数字和字母就使用一个字节，而对汉字就使用3个字节，从而达到了减肥还能保证健康的效果

UTF-8，UTF-16和UTF-32 针对不同类型的数据有不同的减肥效果，一般说来UTF-8是比较常用的方式

步骤 4 : Java采用的是Unicode

写在.java源代码中的汉字，在执行之后，都会变成JVM中的字符。

而这些中文字符采用的编码方式，都是使用UNICODE. "中"字对应的UNICODE是4E2D,所以在内存中，实际保存的数据就是十六进制的0x4E2D, 也就是十进制的20013。

package stream;

public class TestStream {

    public static void main(String[] args) {

        String str = "中";

    }

}

步骤 5 : 一个汉字使用不同编码方式的表现

以字符中为例，查看其在不同编码方式下的值是多少

也即在不同的棋盘上的位置

package stream;

import java.io.UnsupportedEncodingException;

public class TestStream {

    public static void main(String[] args) {

        String str = "中";

        showCode(str);

    }

    private static void showCode(String str) {

        String[] encodes = { "BIG5", "GBK", "GB2312", "UTF-8", "UTF-16", "UTF-32" };

        for (String encode : encodes) {

            showCode(str, encode);

        }

    }

    private static void showCode(String str, String encode) {

        try {

            System.out.printf("字符: \"%s\" 的在编码方式%s下的十六进制值是%n", str, encode);

            byte[] bs = str.getBytes(encode);

            for (byte b : bs) {

                int i = b&0xff;

                System.out.print(Integer.toHexString(i) + "\t");

            }

            System.out.println();

            System.out.println();

        } catch (UnsupportedEncodingException e) {

            System.out.printf("UnsupportedEncodingException: %s编码方式无法解析字符%s\n", encode, str);

        }

    }

}

步骤 6 : 文件的编码方式-记事本

字符在文件中的保存肯定也是以数字形式保存的，即对应在不同的棋盘上的不同的数字

用记事本打开任意文本文件，并且另存为，就能够在编码这里看到一个下拉。

ANSI 这个不是ASCII的意思，而是采用本地编码的意思。如果你是中文的操作系统，就会使GBK，如果是英文的就会是ISO-8859-1

Unicode UNICODE原生的编码方式

Unicode big endian 另一个 UNICODE编码方式

UTF-8 最常见的UTF-8编码方式，数字和字母用一个字节，汉字用3个字节。

步骤 7 : 文件的编码方式-eclipse

eclipse也有类似的编码方式，右键任意文本文件，点击最下面的"property"

就可以看到Text file encoding

也有ISO-8859-1，GBK,UTF-8等等选项。

其他的US-ASCII,UTF-16，UTF-16BE,UTF-16LE不常用。

步骤 8 : 用FileInputStream 字节流正确读取中文

为了能够正确的读取中文内容

必须了解文本是以哪种编码方式保存字符的
使用字节流读取了文本后，再使用对应的编码方式去识别这些数字，得到正确的字符

如本例，一个文件中的内容是字符中，编码方式是GBK，那么读出来的数据一定是D6D0。

再使用GBK编码方式识别D6D0，就能正确的得到字符中

注：在GBK的棋盘上找到的中字后，JVM会自动找到中在UNICODE这个棋盘上对应的数字，并且以UNICODE上的数字保存在内存中。

package stream;

import java.io.File;

import java.io.FileInputStream;

import java.io.IOException;

public class TestStream {

    public static void main(String[] args) {

        File f = new File("E:\\project\\j2se\\src\\test.txt");

        try (FileInputStream fis = new FileInputStream(f);) {

            byte[] all = new byte[(int) f.length()];

            fis.read(all);

            //文件中读出来的数据是

            System.out.println("文件中读出来的数据是：");

            for (byte b : all)

            {

                int i = b&0x000000ff;  //只取16进制的后两位

                System.out.println(Integer.toHexString(i));

            }

            System.out.println("把这个数字，放在GBK的棋盘上去：");

            String str = new String(all,"GBK");

            System.out.println(str);

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

    }

}

步骤 9 : 用FileReader 字符流正确读取中文

FileReader得到的是字符，所以一定是已经把字节根据某种编码识别成了字符了

而FileReader使用的编码方式是Charset.defaultCharset()的返回值，如果是中文的操作系统，就是GBK

FileReader是不能手动设置编码方式的，为了使用其他的编码方式，只能使用InputStreamReader来代替，像这样：

new InputStreamReader(new FileInputStream(f),Charset.forName("UTF-8"));

在本例中，用记事本另存为UTF-8格式，然后用UTF-8就能识别对应的中文了。

解释：为什么中字前面有一个?

如果是使用记事本另存为UTF-8的格式，那么在第一个字节有一个标示符，叫做BOM用来标志这个文件是用UTF-8来编码的。

package stream;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileNotFoundException;

import java.io.FileReader;

import java.io.IOException;

import java.io.InputStreamReader;

import java.io.UnsupportedEncodingException;

import java.nio.charset.Charset;

public class TestStream {

    public static void main(String[] args) throws UnsupportedEncodingException, FileNotFoundException {

        File f = new File("E:\\project\\j2se\\src\\test.txt");

        System.out.println("默认编码方式:"+Charset.defaultCharset());

        //FileReader得到的是字符，所以一定是已经把字节根据某种编码识别成了字符了

        //而FileReader使用的编码方式是Charset.defaultCharset()的返回值，如果是中文的操作系统，就是GBK

        try (FileReader fr = new FileReader(f)) {

            char[] cs = new char[(int) f.length()];

            fr.read(cs);

            System.out.printf("FileReader会使用默认的编码方式%s,识别出来的字符是：%n",Charset.defaultCharset());

            System.out.println(new String(cs));

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

        //FileReader是不能手动设置编码方式的，为了使用其他的编码方式，只能使用InputStreamReader来代替

        //并且使用new InputStreamReader(new FileInputStream(f),Charset.forName("UTF-8")); 这样的形式

        try (InputStreamReader isr = new InputStreamReader(new FileInputStream(f),Charset.forName("UTF-8"))) {

            char[] cs = new char[(int) f.length()];

            isr.read(cs);

            System.out.printf("InputStreamReader 指定编码方式UTF-8,识别出来的字符是：%n");

            System.out.println(new String(cs));

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

    }

}

练习：移除BOM

如果用记事本根据UTF-8编码保存汉字就会在最前面生成一段标示符，这个标示符用于表示该文件是使用UTF-8编码的。

找出这段标示符对应的十六进制，并且开发一个方法，自动去除这段标示符

答案 :

package stream;

import java.io.File;

import java.io.FileInputStream;

import java.io.IOException;

import java.util.Arrays;

public class TestStream {

    public static void main(String[] args) {

        File f = new File("E:\\project\\j2se\\src\\test.txt");

        try (FileInputStream fis = new FileInputStream(f);) {

            byte[] all = new byte[(int) f.length()];

            fis.read(all);

            System.out.println("首先确认按照UTF-8识别出来有？");

            String str = new String(all,"UTF-8");

            System.out.println(str);

            System.out.println("根据前面的所学，知道'中'字对应的UTF-8编码是：e4 b8 ad");

            System.out.println("打印出文件里所有的数据的16进制是：");

            for (byte b : all) {

                int i = b&0xff;

                System.out.print(Integer.toHexString(i)+ " ");

            }

            System.out.println();

            System.out.println("通过观察法得出 UTF-8的 BOM 是 ef bb bf");

            byte[] bom = new byte[3];

            bom[0] = (byte) 0xef;

            bom[1] = (byte) 0xbb;

            bom[2] = (byte) 0xbf;

            byte[] fileContentWithoutBOM= removeBom(all,bom);

            System.out.println("去掉了BOM之后的数据的16进制是：");

            for (byte b : fileContentWithoutBOM) {

                int i = b&0xff;

                System.out.print(Integer.toHexString(i)+ " ");

            }

            System.out.println();

            System.out.println("对应的字符串就没有问号了：");

            String strWithoutBOM=new String(fileContentWithoutBOM,"UTF-8");

            System.out.println(strWithoutBOM);

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

    }

    private static byte[] removeBom(byte[] all, byte[] bom) {

        return Arrays.copyOfRange(all, bom.length, all.length);

    }

}

Java自学-I/O 中文问题的更多相关文章

【转】JAVA自学之路
JAVA自学之路一: 学会选择为了就业,不少同学参加各种各样的培训. 决心做软件的,大多数人选的是java,或是.net,也有一些选择了手机.嵌入式.游戏.3G.测试等. 那么究竟应该选择什么方向 ...
Java自学成长路线(转载)
JAVA自学之路一:学会选择决心做软件的,大多数人选的是java,或是.net,也有一些选择了手机.嵌入式.游戏.3G.测试等. JAVA是一种平台,也是一种程序设计语言,如何学好程序设计不仅 ...
JAVA自学笔记21
JAVA自学笔记21 1.转换流由于字节流操作中文不是非常方便,因此java提供了转换流字符流=字节流+编码表 1)编码表由字符及其对应的数值组成的一张表图解: 2)String类的编码和解码 ...
【转】Java自学之路——by马士兵
作者:马士兵老师 JAVA自学之路一:学会选择为了就业,不少同学参加各种各样的培训. 决心做软件的,大多数人选的是java,或是.net,也有一些选择了手机.嵌入式.游戏.3G.测试等. 那么究竟 ...
Java自学之路(新手一定要看）
Java自学之路(新手一定要看) 转自尚学堂 JAVA自学之路一:学会选择为了就业,不少同学参加各种各样的培训. 决心做软件的,大多数人选的是java,或是.net,也有一些选择了手机.嵌入式.游 ...
[感悟]马士兵Java自学之路——(精华版)
JAVA自学之路一: 学会选择为了就业,不少同学参加各种各样的培训. 决心做软件的,大多数人选的是java,或是.net,也有一些选择了手机.嵌入式.游戏.3G.测试等. 那么究竟应该选择什么方向 ...
大学四年，总结一套适合小白的Java自学路线和方法
前言篇大家好,我是bigsai 好久不见,甚是想念,文章同时收录在回车课堂(文底阅读原文可达). 无论你是大学生还是在职人员,想学Java时,都会面临两个选择,自学或者报班.报班通常太费钱,时间又不 ...
Java自学之道全文下载地址
道可道非常道,名可名非常名. Java自学之道博大精深,自己只是将理论和实际相结合,进行了简单总结. Java自学之道全文可在自己的博客下载 http://my.oschina.net/mkh/bl ...
关于java.util.Properties读取中文乱码的正确解决方案（不要再用native2ascii.exe了）
从Spring框架流行后,几乎根本不用自己写解析配置文件的代码了,但近日一个基础项目(实在是太基础,不能用硕大繁琐的Spring), 碰到了用java.util.Properties读取中文内容(UT ...

随机推荐

[Python]使用生成器来简化代码
原本只是大概知道生成器是什么,但一直不知道怎么用,或是什么情景下用,后来才发现: 在需要一边读数据一边处理任务时,如果直接为每个任务都写一个函数,那么读数据的部分就要在每个函数都重复一遍直接将所有任 ...
201777010217-金云馨《面向对象程序设计（java）》第十三周学习
项目内容这个作业属于哪个课程 https://www.cnblogs.com/nwnu-daizh/ 这个作业的要求在哪里 https://www.cnblogs.com/nwnu-daizh/p ...
day32_8_14 并发编程三线程的GIL
一.GIL 什么是GIL? GIL是一个全局排他锁,简单来说就是为了防止多线程并行操作的锁.这里有官方解释: In CPython, the global interpreter lock, or G ...
Revit 2019 下载链接
[安装环境]:win7/win8/win10 [64位下载] 百度网盘链接:pan.baidu.com/s/1Vq5Cnyj1G-oMNup_sXvxfQ 提取码:d6xd
vs code中自动添加注释插件koroFileHeader
github链接及教程: https://github.com/OBKoro1/koro1FileHeader 使用方法: 1.安装插件koroFileHeader 2.文件->首选项-> ...
TensorFlow.js入门：一维向量的学习
转载自:https://blog.csdn.net/weixin_34061042/article/details/89700664 一维向量及其运算 tensor 是 TensorFlow.js 的 ...
luoguP4551最长异或路径
P4551最长异或路径链接 luogu 思路从\(1\)开始\(dfs\)求出\(xor\)路径.然后根据性质\(x\)到\(y\)的\(xor\)路径就是\(xo[x]^xo[y]\) 代码 # ...
7.18 NOIP模拟测试5 星际旅行+砍树+超级树
T1 星际旅行题意:n个点,m条边,无重边,有自环,要求经过m-2条边两次,2条边一次,问共有多少种本质不同的方案.本质不同:当且仅当至少存在一条边经过次数不同. 题解:考试的时候理解错题,以为他是 ...
Linux性能优化实战学习笔记：第四讲
一.怎么查看系统上下文切换情况通过前面学习我么你知道,过多的上下文切换,会把CPU时间消耗在寄存器.内核栈以及虚拟内存等数据的保存和回复上,缩短进程真正运行的时间,成了系统性能大幅下降的一个元凶既 ...
日均5亿查询量的京东订单中心，为什么舍MySQL用ES?
阅读本文大概需要 8 分钟. 来源:京东技术订阅号(ID:jingdongjishu) 作者:张sir 京东到家订单中心系统业务中,无论是外部商家的订单生产,或是内部上下游系统的依赖,订单查询的调 ...

Java自学-I/O 中文问题

Java中的编码中文问题

Java自学-I/O 中文问题的更多相关文章

随机推荐

热门专题