中文系统下,UTF-8编码文本文件读取导致的错误
一、UTF-8编码文件读取导致的错误
有个txt文件,里面内容为:
aaa
bbb
ccc
以UTF-8编码方式打开txt文件,顺序读取,将里面的值放到一个hashset中,并判断aaa是否在在hashset中
class
{
public static void main(String[] args)
{
try
{
HashSet<String> specialCateSet= new HashSet<String>();
FileInputStream a = new FileInputStream("d://test.txt");
String encoding = "UTF-8";
InputStreamReader b = new InputStreamReader(a,encoding);
BufferedReader br = new BufferedReader(b); String message = br.readLine();
while (message != null)
{
specialCateSet.add(message);
message = br.readLine();
}
}
catch(Exception e)
{
e.printStackTrace();
} if(specialCateSet.contains("aaa"))
{
System.out.println("SpecialCate包含aaa");
}
else
{
System.out.println("SpecialCate不包含aaa");
}
}
}
结果输出:SpecialCateSet不包含aaa
断点跟踪SpecialCateSet中的值,里面确实包含值"aaa",但是为什么specialCateSet.contains("aaa")验证为false呢?
二、错误原因
中文操作系统下,对于UTF-8编码格式的文本文件,其前3个字节的值就是-17、-69、-65(这三个字节说明了编码方式,详情参考Java如何获取文件编码格式)
修改程序如下,就直观了:
class
{
public static void main(String[] args)
{
try
{
HashSet<String> specialCateSet= new HashSet<String>();
FileInputStream a = new FileInputStream("d://test.txt");
String encoding = "UTF-8";
InputStreamReader b = new InputStreamReader(a,encoding);
BufferedReader br = new BufferedReader(b); String message = br.readLine();
while (message != null)
{
//打印输出message的byte值
byte[] a1=message.getBytes();
for(byte b1 :a1){
System.out.print(b1+ " ");
}
System.out.println();
specialCateSet.add(message);
message = br.readLine();
}
}
catch(Exception e)
{
e.printStackTrace();
}
}
}
结果输出如下,其中a的ascll为97,b:98,c:99
-17 69 65 97 97 97
98 98 98
99 99 99
因此specialCateSet中存放三个字符串值aaa(byte字节为:-17 69 65 97 97 97),bbb(byte字节为:-98 98 98),ccc(byte字节为:-99 99 99),其中虽然在java中显示specialCateSet包含字符串aaa,但是这个字符串aaa的byte字节为(-17 69 65 97 97 97),而在后面判断中specialCateSet.contains("aaa"),在java中定义的aaa byte字节为(97 97 97),因此验证不通过。
通俗来讲,文本文件中读取的aaa的byte字节为(-17 69 65 97 97 97),其中包含有3个byte的编码值,但是在java中显示时将头三位的编码值忽略了,因此在java中显示的值为aaa,而直接在java中定义的字符串aaa的byte字节为(97 97 97),两者虽然显示一致,但是对应的字节值不同,以及各自的hashcode值也不同,因此java判断此aaa不同于彼aaa
三、解决办法
1、最简单的,在txt中空出第一行不用即可,因为就头三位是编码信息
2、读取第一行时,将编码信息去除即可
中文系统下,UTF-8编码文本文件读取导致的错误的更多相关文章
- 配置 .vimrc 解决 Vim / gVim 在中文 Windows 下的字符编码问题
		
转载自:-杨博的日志 - 网易博客 Vim / gVim 在中文 Windows 下的字符编码有两个问题: 默认没有编码检测功能 如果一个文件本身采用的字符集比 GBK 大(如 UTF-8.UTF-1 ...
 - C#在 64位系统下出现 “未能加载文件或程序集”错误
		
64位系统下,Build的时候,如果选择Any CPU,默认会按照64位进行编译,便无法加载某些旧的dll,这些dll可能是特定到X86 CPU的. 所以,把编译选项中改为 X86CPU,就可以运行了 ...
 - Windows系统下查看文件编码类型
		
这是一个程序员的最基本的技能,原谅我到现在才去了解 以前只知道window操作系统下文件大部分默认编码是ANSI,中文版是GBK编码 如果想要查看或者修改文件编码的话有两种方式 一:用记事本打开文件, ...
 - vss 日文文件路径的名字在中文系统下乱码
		
解决方式:tools-font 文字设置 日本語
 - 中文Win7下成功安装calabash-android步骤
		
Calabash-android是支持android的UI自动化测试框架,网上看见很多同学说,安装calabash比较费劲,特别是Windows下安装,也没有一个详细的安装手册可供参考.正好,今天在W ...
 - linux系统下,11款常见远程桌面控制软件
		
linux系统下,11款常见远程桌面控制软件 一. Grdc 它是一个用GTK+编写的,适用于gnome桌面环境的远程桌面访问软件.看图: 常见功能: 1.提供全屏,窗口化的远程控制.支持高分辨率下的 ...
 - linux系统下,11款常见远程桌面控制软件(转载)
		
远程控制能够给人们带来很多便利,本文介绍了11款常见的Linux系统下的远程桌面控制工具,总有一款能适合您. 一. Grdc 它是一个用GTK+编写的,适用于gnome桌面环境的远程桌面访问软件.看图 ...
 - ubuntu系统下,gsl 库链接问题 -undefined reference to `cblas_xxx`
		
今天在ubuntu系统下进行程序调试的时候出现以下错误信息: [ %] Linking CXX executable ../test_coco /usr/local/lib/libgsl.so: un ...
 - CentOS系统下中文文件名乱码
		
原文来自:http://www.zhukun.net/archives/7434 CentOS系统下中文文件名乱码 2014/09/01Linux运维centos.Linuxbear 从windows ...
 
随机推荐
- shell脚本实例-matrix
			
[Sat Feb 27 17:51:36 1038 /dev/pts/0 192.168.2.250 ~/sh]#cat matrix blue="\033[0;34m" brig ...
 - unity, 非public变量需要加[SerializeField]才能序列化
			
非public变量需要加[SerializeField]才能序列化 例如: MonoBehaviour中: [SerializeField] private float m_xxx; 在相应的Cust ...
 - Linux-remote change password (more)
			
1.creat managment Certification on Mangar Serverssh-keygen -t rsa2.creat client Certification on Cli ...
 - 服务器能访问共享,但是ping不通解决方案
			
今天发现客户反映后台连不上数据库,远程程查看之后发现机器可以访问服务器共享,但是ping网络的时候ping不通.Ip设置也没问题,网络也都连上了,而且客户反映他们那其它机器都能连上. 百度了一下,发现 ...
 - python子类分配
			
原问题是将左边样式变成右边样式: 即有父类和子类,父类包括多个子类,怎样将子类匹配到父类下面的问题 代码如下 #!/usr/bin/python3.4 # -*- coding: utf-8 -*- ...
 - html之ol标签
			
有序列表,请使用 CSS 来定义列表的类型. 通常和li配对使用 HTML5新属性: compact reversed:降序 start:有序列表的起始值 type:在列表中使用标记类型(1,A,a, ...
 - html之label标签
			
label标签为input元素定义标注,label标签与相关元素通过id属性绑定在一起. 相关属性: for:规定label绑定到哪个表单元素 form:规定label字段所属的一个或多个表单 示例代 ...
 - 09_android入门_采用android-async-http开源项目的GET方式或POST方式实现登陆案例
			
根据08_android入门_android-async-http开源项目介绍及使用方法的介绍,我们通过最常见的登陆案例进行介绍android-async-http开源项目中有关类的使用.希望对你学习 ...
 - linux中常用目录的作用
			
/bin 存放使用者最长用的命令,如:cp.ls.cat,等等. /boot 启动linux时使用的一些核心文件. /dev 是device(设备)的缩写,这个目录下是所有linux的外围设备. D ...
 - VLOOKUP 函数
			
如果需要在表格或区域中按行查找内容,可使用 VLOOKUP,它是一个查找和引用函数.例如,按部件号查找汽车部件的价格. =VLOOKUP(要查找的值.要在其中查找值的区域.区域中包含返回值的列号.精确 ...