什么是文件的BOM头

苍青浪 2024-09-08 09:11:25 原文

1.什么是BOM？

BOM是用来判断文本文件是哪一种Unicode编码的标记，其本身是一个Unicode字符（"\uFEFF"），位于文本文件头部。

在不同的Unicode编码中，对应的bom的二进制字节如下：

Bytes Encoding

FE FF UTF16BE
FF FE UTF16LE
EF BB BF UTF8

所以我们可以根据文件头部的几个字节和上面的表格对应来判断该文件是哪种编码形式。

2. 如何查看你文件的BOM字符？

BOM头在记事本中是看不到的

以UTF8为例，新建一个1.txt文件，然后打开文件输入 hello world 然后另存为此时更改文件的编码格式由默认的ANSI 即GB2312(国标2312)编码改成UTF8

然后通过下面的node代码，来打印该文本文件的buffer 就可以看到我们所说的BOM头字符

let fs = require('fs');

fs.readFile('./1.txt',function(err,data){

    console.log(data)

})

// <Buffer ef bb bf 68 65 6c 6c 6f 20 77 6f 72 6c 64>

// 前三个字节就是对应的我们UTF8编码的文本的BOM头字符

3.存在的问题？

虽然BOM字符起到了标记文件编码的作用但是他并不属于文件的内容部分，所以会产生一些问题：

1.在某些使用场景下就会有问题。例如我们把几个JS文件合并成一个文件后，如果文件中间含有BOM字符，就会导致浏览器JS语法错误。

2.PHP就不能识别bom头，PHP并不会忽略BOM，所以在读取、包含或者引用这些文件时，会把BOM作为该文件开头正文的一部分。根据嵌入式语言的特点，这串字符将被直接执行（显示）出来。由此造成即使页面的 top padding 设置为0，也无法让整个网页紧贴浏览器顶部，因为在html一开头有这3个字符呢！

4.如何去掉UTF8编码的记事本文件的BOM头

方法一：在文件另存为的时候选择无BOM头的UTF8编码

方法二：使用node中的文件模块获取文件的buffer数据并去掉前三个字节，代码如下：

function deleteUtf8BomHead(path) {

    let buf = fs.readFileSync(path);

    if (buf[0] == 0xef && buf[1] == 0xbb && buf[2] == 0xbf) {

        buf = buf.slice(3)

    }

    return buf

}

console.log(deleteUtf8BomHead('./1.txt'));// <Buffer 68 65 6c 6c 6f 20 77 6f 72 6c 64>

// 将GBK编码的buffer转化成utf8的字符串

// 在这里我们要引入一个库 iconv-lite

let iconv = require('iconv-lite');

fs.readFile('./2.txt',function (err, data) {

console.log(data,'qq');

let str = iconv.decode(data,'gbk');

console.log(str);

})

什么是文件的BOM头的更多相关文章

什么是文件的BOM头，及BOM头有哪些坑？
1.什么是BOM? BOM是用来判断文本文件是哪一种Unicode编码的标记,其本身是一个Unicode字符("\uFEFF"),位于文本文件头部. 在不同的Unicode编码中, ...
关于UTF8文件带BOM头可能会引起的错误解析
今天在做一个文件上传的项目中碰到了一个十分奇怪的问题,在解析上传上来的csv文件时,总是在解析第一行的第一个标题字段时出错,就是第一个那个字段总是和对应的model字段对应不上,这个坑是真的很深,找了 ...
批量去除文件的BOM头
<?php class KillBom{ //定义扩展名 public static $m_ext = ['txt','php','js','css']; /** * 传入一个任意文件,自动区分 ...
java utf-8文件处理bom头
UTF? UTF,是UnicodeTransformationFormat的缩写,意为Unicode转换格式. 即怎样将Unicode定义的数字转换成程序数据.utf是对Unicode的一种编码格式化 ...
史上最牛逼的文件bom头清除代码，万能检测清除php，js等等
做php开发,经常部分uft8的php文件因BOM头不同导致各种错误和错位.网上搜到的大部分所谓的去处bom工具都是2货,没有能用的.下面的一段代码,请复制到一个php文件里,然后上传到你的网站根目录 ...
linux中截取文件的特定字节（去掉utf-8 bom头）
事出有因,之所以要截取特定字节,是为了给utf-8编码的文件去掉bom头. bom头好去啊,notepad++文本编辑器中就有这个功能啊.可是,问题所在是要编辑的文件太大了,300MB,小电脑卡shi ...
php fwrite写入文件bom头导致的乱码问题解决
最近导出文件遇到fwrite导出乱码,而且中英文都乱码,很费解.折腾了一番之后终于找到问题所在了,mark下. UTF-8 BOM 又叫 UTF-8 签名,其实 UTF-8 的 BOM 对 UFT-8 ...
php中隐形字符65279（utf-8的BOM头）问题和fwrite写入文件bom头导致的乱码问题解决
php中隐形字符65279(utf-8的BOM头)问题今天在CSDN看到一个php输出空白隐形字符65279的问题,在网上找了下,发下这个65279字符是php用来标记文件是utf-8编码的,输出 ...
linux下bom头导致的php调用php接口返回的json字符串无法转成数组，即json字符串无法解码的问题
今天很是郁闷,写了一个php接口,返回的是标准的json字符串,但是调用的php 就是无法json_decode(),返回错误码为4,最后终于找到原因,原来是蒙一个文件中有bom头,最后采用一个命令 ...

随机推荐

[APB VNext 笔记] UI
一直想给我做的服务写UI.但苦于现在ABPVNext框架对SPA支持不好.只好先放弃VUE.先弄个UI在说.ABPVNext中的框架都是用Helper封装好的Label.不知道怎么使用,于是翻源代码. ...
如何结合插件 vue-lazyload 来简单实现图片懒加载？
插件地址:https://www.npmjs.com/package/vue-lazyload: 一.使用场景: 在项目中有很多条数的信息,且图片很多的时候,不需要一次把整个页面的图片都加载完,而是在 ...
CAD二次开发之入门坑
如果没有引用第一个dll,则会报未找到引用CommandMethod
KVM之virsh管理虚拟机硬盘配置
新建raw格式虚拟盘 [root@ubuntu ~]# qemu-img create -f raw /data/raw/disk02.raw 5G Formatting '/data/raw/dis ...
flask小结
http通讯过程 https://www.cnblogs.com/andy9468/p/10871079.html 1.flask开发环境 https://www.cnblogs.com/andy94 ...
k2系列－服务器管理篇
k2服务器即K2 WORKSPACE管理介绍: k2 管理平台统一管理基于K2开发的所有流程的跟踪调试以及基本配置信息. 具体完成的操作有以下几个部分: 1 配置K2环境相关属性.包括全局变量等 2 ...
【转】xshell 5评估期已过，不能访问的解决方案
原文:https://blog.csdn.net/u010826617/article/details/79165540 重新安装Home & school 版本,原来访问的服务器信息不会丢失 ...
KubeEdge v0.2发布，全球首个K8S原生的边缘计算平台开放云端代码
KubeEdge开源背景 KubeEdge在18年11月24日的上海KubeCon上宣布开源,技术圈曾掀起一阵讨论边缘计算的风潮,从此翻开了边缘计算和云计算联动的新篇章. KubeEdge即Kube+ ...
synchronized 和 volatile 的区别是什么？（未完成）
synchronized 和 volatile 的区别是什么?(未完成)
css中禁止spa有点击状态
<span class="an" onclick="selNum();"></span> var selNum = function() ...