UTF-8 编码的文件在处理时要注意 BOM 文件头问题

最近在给项目团队开发一个基于 Java 的通用的 XML 分析器时，设计了一个方法，能够读取现成的 XML 文件进行分析处理，当然 XML 都是采用 UTF-8 进行编码的。但是在用 UltraEdit 写了一个测试用的 UTF-8 XML 文件后，程序在读取该文件时发生错误：

Parse Fatal Error at line 1 column 1: 前言中不允许有内容。org.xml.sax.SAXParseException: Content is not allowed in prolog....

反复检查代码不可能出问题，XML 文件也是正确的，试来试去百思不得其解。于是用 IDEA 编辑器写了一个同样的 XML 文件，程序运行正常。在网上找来找去，无意中发现 UTF-8 编码居然有一个所谓的 BOM 文件头问题。那么，BOM 又是什么玩意呢？

BOM 即 Byte Order Mark，就是字节序标记。在 UCS 编码中有一个叫做“ZERO WIDTH NO-BREAK SPACE”的字符，它的编码是 FEFF。而 FFFE 在 UCS 中是不存在的字符，所以不应该出现在实际传输中。UCS 规范建议我们在传输字节流前，先传输字符“ZERO WIDTH NO-BREAK SPACE”，这样如果接收者收到 FEFF，就表明这个字节流是 Big-Endian 的；如果收到 FFFE，就表明这个字节流是 Little-Endian 的。因此字符“ZERO WIDTH NO-BREAK SPACE”又被称作 BOM。

UTF-8 本身不需要 BOM 来表明字节顺序，但可以用 BOM 来表明编码方式。字符“ZERO WIDTH NO-BREAK SPACE”的 UTF-8 编码是 EF BB BF。所以如果接收者收到以 EF BB BF 开头的字节流，就知道这是 UTF-8 编码了。所以，有些编辑器会在创建并保存 UTF-8 编码的 XML 文件时自动在文件头部增加 EF BB BF 这三个字节，用来做 BOM。UltraEdit 默认就是这样，自作聪明反倒惹麻烦！IDEA 编辑器创建生成的 UTF-8 编码的 XML 文件就没有这个 BOM 文件头，所以才出现了本文开头所描述的问题现象。

后来研究了一下 UltraEdit，发现它倒是提供了一个保存选项，在第一次保存或者以后“另存为”时，选择保存为 UTF-8 without BOM 就可以了。

既然找到原因了，我想不能让各种编辑器来迁就我的程序，还是让我的程序去迁就它们吧，也就是在程序中增加自动识别 BOM 文件头的功能。这样一来，无论是否带有 BOM 文件头的 UTF-8 编码的 XML 文件，我的程序都能够兼容使用，事实上后来实现这个功能才发现，很简单，没有增加太多工作量，何乐而不为呢？

UTF-8 编码的文件在处理时要注意 BOM 文件头问题的更多相关文章

pycharm新建py文件时，自动补充文件头注释信息
步骤: 1.File -->Settings 2.选择 File and Code Templates -> Files -> Python Script 文件头注释信息代码样式: ...
Pycharm在创建py文件时,如何自动添加文件头注释(类似于钩子特性)?
在每次新建一个py文件的时候 1 如何自动添加/usr/bin/env python2 自动添加 coding=utf8 操作方法: File->settings->Editor-> ...
pycharm 创建文件时，自动添加文件头注释
File->settings->Editor->File and Code Templates->Python Script # -*- coding: utf-8 -*- & ...
pycharm在创建py文件时，自动添加文件头注释
File -> settings -> Editor-> File and Code Templates -> Python Script 添加内容: #!/usr/bin/e ...
day07--字符编码、文件处理
今日内容: 字符编码文件处理字符编码: 把字符编码成二进制各个国家拥有各自的字符编码,这样会导致交流产生问题.所以后面推出了内存使用unicode,硬盘使用UTF-8这个模式 unicode有两 ...
【CTF杂项】常见文件文件头文件尾格式总结及各类文件头
文件头文件尾总结 JPEG (jpg), 文件头:FFD8FF 文件尾:FF D9PNG (png), 文件头:89504E47 文件尾:AE 42 60 82GIF (gif), 文件头:47494 ...
day 10 字符编码和文件处理细节整理
pycharm是文本编辑器. 大概理解为: 输出到屏幕上的时候,是解码过的字符串,用 decode 处理的时候要编码成相应的流, encode 成你要用的格式就可以了 1 .字符编码: 字符==== ...
Python全栈开发之路【第三篇】：Python基础之字符编码和文件操作
本节内容一.三元运算三元运算又称三目运算,是对简单的条件语句的简写,如: 简单条件语句: if 条件成立: val = 1 else: val = 2 改成三元运算: val = 1 if 条件成 ...
Python自动化开发 - 字符编码、文件和集合
本节内容字符编码文件操作集合一.字符编码 1.编码计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.解决思路:数字与符号建立一对一映射,用不同数字表示不同符号. ASCI ...

随机推荐

产生式模型（生成式模型）与判别式模型<转载>
转自http://dongzipnf.blog.sohu.com/189983746.html 产生式模型与判别式模型产生式模型(Generative Model)与判别式模型(Discrimiti ...
k sum(lintcode)
没通过的代码: class Solution { public: /* * @param A: An integer array * @param k: A positive integer (k & ...
No package python-pip available
因为没有此rpm包,此包包含在epel源里面输入rpm -ivh http://dl.fedoraproject.org/pub/epel/6/i386/epel-release-6-8.noarc ...
一款App的开发成本是多少?
答一: 接触过上万名创业者,开发上线过超过30款App,没有比我更适合回答这个问题的了.. 本文对想做好一款App项目的人来说这是一篇价值百万的回答!因为这是我们花了几百万试错成本试出来的经验! &l ...
javaEE(6)_JSP
一.什么是JSP 1.JSP全称是Java Server Pages,它和servle技术一样,都是SUN公司定义的一种用于开发动态web资源的技术,只用JSP就可以开发动态web资源. 2.为什么J ...
hihoCoder-1109-堆优化的Prim
优先队列是由堆组成的,所以当我们使用优先队列对Prim进行优化时,就把这种优化叫做堆优化. 它的算法核心思想就是每次向后找边,每个pair存的都是下一个点,以及边权.我们对于已经走过的点就避开,这样就 ...
细说unittest-1
转自:https://www.jianshu.com/p/6c07be6d61dc 一.什么是unittest unittest是Python单元测试框架,类似于JUnit框架. unittest中有 ...
Lex与Yacc学习（八）之变量和有类型的标记（扩展计算器）
变量和有类型的标记下一步扩展计算器来处理具有单个字母名字的变量,因为只有26个字母 (目前只关心小写字母),所以我们能在26个条目的数组(称它为vbltable)中存储变量. 为了使得计算器更加有用 ...
剑指offer面试题43：n个筛子的点数
题目描述: 把n个筛子扔在地上,所有筛子朝上的一面点数之和为s,输入n,打印出s的所有可能的值出线的概率. 书上给了两种解法,第一种递归的方法由于代码太乱,没有看懂=.= 第二种方法很巧妙,lz已经根 ...
关于hadoop学习的思考(一) —— 小的知识点的总结
一.对于CDH的小总结: CDH:是Cloudera公司在Apache开源项目hadoop的基础上发型的,共有五个版本前两个已不再更新,最经的两个分别是CDH4(基于hadoop2.0.0版本演化而来 ...

UTF-8 编码的文件在处理时要注意 BOM 文件头问题

UTF-8 编码的文件在处理时要注意 BOM 文件头问题的更多相关文章

随机推荐

热门专题