Python中读取文件输出时在头部输出\ufeff

问题出现：

在我测试python中的文本文件的读取与写入时，用到了字典对象来存储读出的数据。

 std_data = dict()

 with open(sys.argv[1], encoding='UTF-8') as fp:

     alldata = fp.readlines()

 for item in alldata:

     no, name = item.rstrip('\n').split('、')

     std_data[no] = name

 print(std_data)

在命令行中运行时始终存在一个开头的\ufeff字符。

测试了几次都如此。

后来在网上查了一下有不少的接近答案但都没有回答我心中的问题，只查到了解决方案。

 no, name = item.encode('utf-8').decode('utf-8-sig').rstrip('\n').split('、')

注：encode('utf-8')和decode('utf-8-sig')需要一起使用，否则会报错。

不过结果问题确实解决了。

可以清晰的看到开头的特殊字符确实不见了。

然后我在百度上终于查到了一个比较完整的解释：

在Windows下用文本编辑器创建的文本文件，如果选择以UTF-8等Unicode格式保存，会在文件头（第一个字符）加入一个BOM标识。

ok，到这一步算是有了一个原因让我信服。接着我又继续了解了一下BOM是什么鬼。

BOM = Byte Order Mark
BOM是Unicode规范中推荐的标记字节顺序的方法。比如说对于UTF-16，如果接收者收到的BOM是FEFF，表明这个字节流是Big-Endian的；如果收到FFFE，就表明这个字节流是Little-Endian的。
UTF-8不需要BOM来表明字节顺序，但可以用BOM来表明“我是UTF-8编码”。BOM的UTF-8编码是EF BB BF（用UltraEdit打开文本、切换到16进制可以看到）。所以如果接收者收到以EF BB BF开头的字节流，就知道这是UTF-8编码了。

好吧，虽然不太看的懂，但是也算知道了，这是一个utf-8文本的前置说明，表明这是一个utf-8文件嘛。同时BOM也是在编码方式中的标记字节顺序的方法。

接下来学习：BOM标识规范。

Python中读取文件输出时在头部输出\ufeff的更多相关文章

python中读取文件数据时要注意文件路径
我们在用python进行数据处理时往往需要将文件中的数据取出来做一些处理,这时我们应该注意数据文件的路径.文件路径不对,回报如下错误: FileNotFoundError: File b'..Adve ...
python中读取文件的read、readline、readlines方法区别
#读取文件所有内容,返回字符串对象,python默认以文本方式读取文件,遇到结束符读取结束. fr = open('lenses.txt')read = fr.read()print(type(rea ...
python中读取文件的f.seek()方法
用于二进制文件中F.seek方法作用: 设置读写位置 F.seek(偏移量, whence=相对位置) 偏移量大于0的数代表向文件末尾方向移动的字节数小于0的数代表向文件头方向中移动的字节数相 ...
Python中读取文件中的json串，并将其写入到Excel表格中
Json:JavaScript Objective Notation,是一种轻量级的数据交换格式.Json最广泛的应用是作为AJAX中web服务器和客户端的通讯的数据格式.现在也常用语http请求中, ...
python在读取文件时出现 'gbk' codec can't decode byte 0x89 in position 68: illegal multibyte sequence
python在读取文件时出现“UnicodeDecodeError:'gbk' codec can't decode byte 0x89 in position 68: illegal multiby ...
关于Python中读取写入文件并进行文件与用户交互的操作
一.提前知识点在python中是同样和其他语言一样可以进行文件的读取写入操作,值得注意的是,Python中打开文件读取的方式有几种,分别是以下几种: f = open('username.txt') ...
关于Python中的文件操作（转）
总是记不住API.昨晚写的时候用到了这些,但是没记住,于是就索性整理一下吧: python中对文件.文件夹(文件操作函数)的操作需要涉及到os模块和shutil模块. 得到当前工作目录,即当前Pyth ...
python学习之【第十一篇】：Python中的文件操作
1.前言在Python中,对文件的操作主要遵循以下流程: 打开文件,得到文件句柄并赋值给一个变量通过文件句柄对文件进行操作关闭文件 2.打开文件使用open函数,可以打开一个已经存在的文件,或 ...
【Python】解析Python中的文件操作
目录结构: contents structure [-] 简介 Python中的文件类型内置函数的文件操作 open()函数 Mode 创建文本文件读取文本文件循环文件对象关闭文件 With语 ...

随机推荐

Servlet：从入门到实战学习(2)---Servlet生命周期
一个Servlet的完整的生命周期(从创建到毁灭)包括:init()方法,service()方法,doGet()方法,doPost()方法,destroy()方法 init()方法用于 Servlet ...
java笔记--ASCII编码认知和转换
ASCII是基于拉丁字母的一套电脑编码系统,主要用于显示英语字符是当今最通用的单字节编码.包括128个字符. --如果朋友您想转载本文章请注明转载地址"http://www.cnblogs. ...
c# datarow[] 转换成 datatable， List<T> 转datatable
c# datarow[] 转换成 datatable, List<T> 转datatable DdataRow[]转成Datatable private DataTable ToDat ...
什么是TTL值?(简单明了的解释)
什么是TTL值? TTL值全称是“生存时间(Time To Live)”,简单的说它表示DNS记录在DNS服务器上的缓存时间. 要理解TTL值,请先看下面的一个例子:假设,有这样一个域名myhost. ...
Linux watch命令详解
watch可以帮你监测一个命令的运行结果,来监测你想要的一切命令的结果变化常见命令参数 Usage: watch [-dhntv] [--differences[=cumulative]] [--h ...
Exchange 2016证书配置
配置证书: 第一步,在ECP界面生成证书请求文件: 1.在“服务器 —>证书”界面,选择一台服务器,点击“+”来添加证书申请,如下图: 2.默认下一步, 3.填写证书的友好名称,如下图: 4.默 ...
乘风破浪：LeetCode真题_002_Add Two Numbers
乘风破浪:LeetCode真题_002_Add Two Numbers 一.前言这次的题目是关于链表方面的题目,把两个链表对应节点相加,还要保证进位,每个节点都必须是十进制的0~9.因此主要 ...
ZT android -- 蓝牙 bluetooth （三）搜索蓝牙
android -- 蓝牙 bluetooth (三)搜索蓝牙分类: Android的原生应用分析 2013-05-31 22:03 2192人阅读评论(8) 收藏举报 bluetooth蓝牙s ...
[COGS 0065][NOIP 2002] 字串变换
65. [NOIP2002] 字串变换 ★★ 输入文件:string.in 输出文件:string.out 简单对比时间限制:1 s 内存限制:128 MB [问题描述] 已知有两个字 ...
MySQL语法相关其一
一篇基础语法相关的笔记 // 参考资料: MySQL入门很简单黄缙华等编著清华大学出版社北京建议进入官网下载对应版本后安装:https://dev.mysql.com/downloads/my ...

Python中读取文件输出时在头部输出\ufeff

Python中读取文件输出时在头部输出\ufeff的更多相关文章

随机推荐

热门专题