UTF-8与UTF-8 BOM

在我们通常使用的windows系统中，我发现了一个有趣的现象。我新建一个空的文本文档，点击文件-另存为-编码选择UTF-8，然后保存。此时这个文件明明是空的，却占了3字节大小。原因在于：此时保存的编码方式自动会变为UTF-8 BOM

一、一个汉字在不同的编码方式中占多少字节？

1.在UTF-8中，一个汉字占3个字节（一个字符占一个字节）

2.在ASCII码中，一个汉字占2个字节（一个字符占一个字节）

3.在Unicode编码中，一个汉字占2个字节（一个字符同样占两个字节，所以JAVA中char a = '中';是可以的）

二、UTF-8与UTF-8 BOM

BOM即byte order mark，具体含义可百度百科或维基百科，UTF-8文件中放置BOM主要是微软的习惯，但是放在别的系统上会出现问题。

不含BOM的UTF-8才是标准形式，UTF-8不需要BOM

带BOM的UTF-8文件的开头会有U+FEFF，所以我新建的空文件会有3字节的大小。

三、创建UTF-8（而非UTF-8 BOM）文件的方法

在发现文件另存为UTF-8缺得到UTF-8 BOM文件后，我们怎样才能得到UTF-8呢？

法1.先另存为UTF-8保存，再使用notepad++打开，把里面的编码设置为无BOM的UTF-8然后保存。（此方法治标不治本，因为当你再次在里面写汉字时，文件会自动变成UTF-8 BOM）

法2.用JAVA代码

如图，可以很轻松的创建UTF-8文件，且可以随便写汉字，文件字节数=汉字数*3

---------------------
作者：LegendaryHsl
来源：CSDN
原文：https://blog.csdn.net/legendaryhsl/article/details/78794121
版权声明：本文为博主原创文章，转载请附上博文链接！

UTF-8与UTF-8 BOM的更多相关文章

UTF—8与UTF—8（无bom）格式
BOM——Byte Order Mark,就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的编码是FEFF.而FFFE在U ...
转载：谈谈Unicode编码，简要解释UCS、UTF、BMP、BOM等名词
转载: 谈谈Unicode编码,简要解释UCS.UTF.BMP.BOM等名词这是一篇程序员写给程序员的趣味读物.所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级 ...
谈谈Unicode编码，简要解释UCS、UTF、BMP、BOM等名词
这是一篇程序员写给程序员的趣味读物.所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级.整理这篇文章的动机是两个问题: 问题一: 使用Windows记事本的“另存为 ...
Unicode编码，解释UCS、UTF、BMP、BOM等名词
(转载谈谈Unicode编码,简要解释UCS.UTF.BMP.BOM等名词这是一篇程序员写给程序员的趣味读物.所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级 ...
UCS UTF UTF-7 UTF-8 UTF-16
Unicode也是一种字符编码方法,不过它是由国际组织设计,可以容纳全世界所有语言文字的编码方案.Unicode的学名是"Universal Multiple-Octet Coded Cha ...
文字编码ASCII，GB2312，GBK，GB18030，UNICODE，UCS，UTF的解析
众所周知,一个文字从输入到显示到存储是有一个固定过程的,其过程为:输入码(根据输入法不同而不同)→机内码(根据语言环境不同而不同,不同的系统语言编码也不一样)→字型码(根据不同的字体而不同)→存储码( ...
Unicode、UTF－8 和 ISO8859-1到底有什么区别
说明:本文转载于新浪博客,旨在方便知识总结.原文地址:http://blog.sina.com.cn/s/blog_673c81990100t1lc.html 本文主要包括以下几个方面:编码基本知识, ...
Unicode、UTF－8 和 ISO8859-1
Unicode.UTF-8 和 ISO8859-1到底有什么区别 1.本文主要包括以下几个方面:编码基本知识,java,系统软件,url,工具软件等. 在下面的描述中,将以"中文" ...
UniEAP UTF 用户手册（引擎）
目录第1章概述 5 1.1 术语解释 5 第2章测试文件组织 6 2.1 测试执行文件详解 7 2.1.1 参数配置 7 2.1.2 测试报告配置 9 2.1.3 浏览器类型配置 9 2.1.4 ...
BOM的来源是不可能出现的字符，GB2312双字节高位都是1，Unicode理论的根本缺陷导致UTF8的诞生
Unicode字符编码规范 http://www.aoxiang.org 2006-4-2 10:48:02Unicode是一种字符编码规范 . 先从ASCII说起.ASCII是用来表示英文字符的 ...

随机推荐

java-多态-object
概要图一多态 1.1 多态的产生下面的红色部分降低了代码的可扩展性 Dog d = new Dog(); method(d); Cat c = new Cat(); method(c); } ...
Django项目：CRM(客户关系管理系统)--15--07PerfectCRM实现King_admin显示注册的表01
<th ><a href="/kingadmin/{% get_app_name admin_class.model %}/{% get_model_name admin_ ...
Django项目：CRM(客户关系管理系统)--01--01PerfectCRM基本配置ADMIN01
一.CRM项目需求二．CRM项目新建 PerfectCRM crm
leetcode 235-290 easy
235. Lowest Common Ancestor of a Binary Search Tree 公共的祖先必定大于左点小于右点,否则不断递归到合适. class Solution { publ ...
【笔记】LR配置ODBC连接数据库进行参数化(mysql )未完待续
很多时候我们需要大量的参数数据,但是光光靠手填写是非常麻烦的,既然被测对象的数据都在数据库,那么我们直接读取数据库回来就轻松简便很多. data wizard 提供了一个从ODBC的连接获得数据转化 ...
【纯手工】整理豆瓣热点推荐列表-财经&自我管理
[纯手工]整理豆瓣热点推荐列表-财经&自我管理简七君 2013-10-27 09:40:06 豆瓣君的首页热点推荐实在难以捉摸,只有正好跳出推荐贴时才能按图索骥找列表.简七和小伙伴 ...
myeclipse10 java builder path libraries 添加tomcat
Error: The import javax.servlet cannot be resolved The import javax.servlet.http.HttpServlet ...
Floyd算法模板--详解
对于无权的图来说: 若从一顶点到另一顶点存在着一条路径,则称该路径长度为该路径上所经过的边的数目,它等于该路径上的顶点数减1. 由于从一顶点到另一顶点可能存在着多条路径,每条路径上所经过的边数可能不同 ...
2013B题碎纸片拼接
Photo1_1: clear;clc; path='E:\B\附件1\'; files=dir('E:\B\附件1\*.bmp'); % objdir='E:\B\附件1\'; % bgfile=[ ...
Springboot项目下mybatis报错：Invalid bound statement (not found)
mybatis报错:Invalid bound statement (not found)的原因很多,但是正如报错提示一样,找不到xml中的sql语句,报错的情况分为三种: 第一种:语法错误 Java ...

UTF-8与UTF-8 BOM

UTF-8与UTF-8 BOM的更多相关文章

随机推荐

热门专题