签名、BOM头、编码、Windows记事本编码、java编码解码的那些事
对于Windows记事本:
ANSI :GB2312 java中应使用GBK解码
Unicode :有签名的UTF-16LE java中应使用UTF-16解码
Unicode big endian :有签名的UTF-16BE java中应使用UTF-16解码
UTF-8 :有签名的UTF-8 java中只能手动去掉签名了再用UTF-8解码了 对于java程序的解码:
GBK :GBK编码可以兼容GB2312,因此用GBK处理GBK、GB2312两种编码
UTF-8 :无签名的UTF-8
UTF-16 :有签名的UTF-16LE或UTF-16BE,两者根据签名自动识别
UTF-16BE:无签名的UTF-16BE
UTF-16LE:无签名的UTF-16LE UNICODE其实只是字符集而不是编码,Windows的记事本用Unicode来代表有签名的UTF-16LE有些
不恰当,记事本里面的ANSI在不同系统会映射成不同编码,在中文系统是GB2312编码,在英文系
统是ASCII编码 签名又叫BOM,即字节顺序标记,它是插入到以UTF-8、UTF16或UTF-32编码Unicode文件开头的
特殊标记,用来识别Unicode文件的编码类型。对于UTF-8来说,BOM并不是必须的,因为BOM用来
标记多字节编码文件的编码类型和字节顺序(big-endian或little- endian)。
BOMs 文件头: 00 00 FE FF = UTF-32, big-endian FF FE 00 00 = UTF-32, little-endian EF BB BF = UTF-8, FE FF = UTF-16, big-endian FF FE = UTF-16, little-endian
签名、BOM头、编码、Windows记事本编码、java编码解码的那些事的更多相关文章
- 转!!windows记事本保存“联通” 编码问题
		
原博文网址:http://blog.csdn.net/Zhiyuan_Ma/article/details/51838054 简单分析: 这是微软记事本的一个BUG,准确点就是unicode编码的问题 ...
 - CheckStyle,定制属于自己的Java编码规范
		
前言 如今,代码规范几乎是当下稍有追求的团队都要求做到的,但是对于Java编码规范,不同的公司或团队却有着不同的标准.尽管官方提供了一些标准,但是在基本规则的基础上,各大公司又有自己的规范,比如Sun ...
 - 读取含有BOM头的文件遇到的问题
		
需求是读取一个csv文件,然后解析成对应的数据结构.csv必须包含指定的某些列,通过列名header来进行校验. 解析配置文件的方法. public List<QuestionData> ...
 - 刨根究底字符编码之十六——Windows记事本的诡异怪事:微软为什么跟联通有仇?(没有BOM,所以被误判为UTF8。“联通”两个汉字的GB内码,其第一第二个字节的起始部分分别是“110”和“10”,,第三第四个字节也分别是“110”和“10”)
		
1. 当用一个软件(比如Windows记事本或Notepad++)打开一个文本文件时,它要做的第一件事是确定这个文本文件究竟是使用哪种编码方式保存的,以便于该软件对其正确解码,否则将显示为乱码. 一般 ...
 - 使用editplus等编程工具时UTF-8编码去掉BOM头方法(转载备查)
		
Unicode规范中有一个BOM的概念.BOM——Byte Order Mark,就是字节序标记.在这里找到一段关于BOM的说明: 在UCS 编码中有一个叫做"ZERO WI ...
 - Windows 记事本的 ANSI、Unicode、UTF-8 这三种编码模式有什么区别?
		
[梁海的回答(99票)]: 简答.一些细节暂无精力查证,如果说错了还请指出. 一句话建议:涉及兼容性考量时,不要用记事本,用专业的文本编辑器保存为不带 BOM 的UTF-8. * * * 如果是为了跨 ...
 - 基于Windows下处理Java错误:编码GBK的不可映射字符的解决方案
		
基于Windows下处理Java错误:编码GBK的不可映射字符的解决方案 最近在研究Java,涉及命令行编译,使用notepad++编辑器,然后使用javac编译: 之前的几个文件没有中文的内容,都没 ...
 - 原来windows里记事本的ansi编码就是GB2312啊,跟utf-8,unicode是不一样的。
		
原来windows里记事本的ansi编码就是GB2312啊,跟utf-8,unicode是不一样的. 程序里的比如java的,Qt的string都是unicode的字符串,因此如果是你从文件中读取文字 ...
 - windows下编译java源文件的编码错误
		
import java.util.Arrays;public class ArrayAsAReference{ public static void main(String[] args) { int ...
 
随机推荐
- POJ2479 Maximum sum[DP|最大子段和]
			
Maximum sum Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 39599 Accepted: 12370 Des ...
 - NOIP2013货车运输[lca&&kruskal]
			
题目描述 A 国有 n 座城市,编号从 1 到 n,城市之间有 m 条双向道路.每一条道路对车辆都有重量限制,简称限重.现在有 q 辆货车在运输货物, 司机们想知道每辆车在不超过车辆限重的情况下,最多 ...
 - 用extract-text-webpack-plugin提取出来的css文件中背景图片url的不正确的问题
			
在一个main.js中require一个scss文件,scss文件中用了背景图片,图片url是用的相对路径,用extract-text-webpack-plugin插件提取出的css文件背景图片路径不 ...
 - 初学C#和MVC的一些心得,弯路,总结,还有教训(4)--Cache 关于创建多个缓存实例
			
asp.net中的数据缓存可以用 HttpRuntime.Cache ,这个是大家都知道的,但如果缓存的数据比较多,又比较杂乱,想要把缓存分开管理(也就是创建多个缓存实例)应该怎么做呢... 于是常规 ...
 - tensorflow学习笔记四:mnist实例--用简单的神经网络来训练和测试
			
刚开始学习tf时,我们从简单的地方开始.卷积神经网络(CNN)是由简单的神经网络(NN)发展而来的,因此,我们的第一个例子,就从神经网络开始. 神经网络没有卷积功能,只有简单的三层:输入层,隐藏层和输 ...
 - Multiple Contexts have a path of 错误
			
1.问题描述 在eclipse里面启动tomcat的时候,看到报错,multiple contexts have a path.tomcat启动失败 2.解决办法 删除tomcat,重新加载部署tom ...
 - js实现点击修改按钮之后单元格变成可编辑状态
			
主要实现原理: 每一行有一个修改按钮 点击修改之后,获取行对象,通过行对象再获取行中单元格数组.然后把每一个单元格中的innerHTML替换成input输入框,并赋值value=原来单元格中的内容,鼠 ...
 - 51nod 1005 大数加法
			
#include<iostream> #include<string> using namespace std; #define MAXN 10001 },b[MAXN]={} ...
 - Ubuntu 下,修改 Mac address
			
ifconfig // check Mac address sudo ifconfig eth0 down sudo ifconfig eth0 hw ether xx:xx:xx:xx: ...
 - 还原数据库:The backup set holds a backup of a database other than the existing database……
			
还原数据库时报以上错误,解决办法是: 1.删除新建的DB 2.直接右键Databases-->Restore Database 3.在弹出窗口中的To database栏位填写需要新建的DB名称 ...