Python读写txt文件时的编码问题

　　这个问题来自于一个小伙伴，他在处理中文数据时需要先把里面的文本过滤然后分词，因为里面有许多符号，不仅是中文标点符号，还有✳，emoji等奇怪的符号。

　　正常情况下，中文的str经过encode('utf-8')变成bytes，然后bytes经过decode('utf-8')变回中文。

　　原始文件是txt，那么先读进来，需要使用utf-8编码，当然你也可以使用GBK或者GB18030，这就看你的文本里面都是些啥内容了，读入的格式对后面保存的格式有重大影响，所以还是使用UTF-8吧：

　　1 with open ('a.txt', 'r', encoding='utf-8') as f: 　　
　　2 　　lines = f.readlines()

　　接下来是一系列的操作，过滤分词等等，然后在将结果写入txt的时候问题来了：经过处理的一行行文本现在已经变成了str（其实里面的内容还是这种b'\xe4\xb8\xad\xe6\x96\x87'），不能直接由字符串直接decode到中文，会报错：str has no attribute 'decode'....这是因为中间的那些操作已经把lines里面的bytes转成了str。所以写入的时候需要做转化：

　　1 item.encode('utf-8').decode('utf-8')

　　这种做法我在其他博客里都没有见到过，主要是被逼无奈，不然str格式直接写入就是一堆编码，不能阅读。原理是把原本不能直接decode的str（虽然内容是一堆编码）先转换回bytes，再decode成str。

　　这样就结束了吗？NO！

　　写入之前需要打开文件，大部分人打开的时候都忘记使用UTF-8编码，而windows下txt默认的是GBK编码，pycharm默认也是使用系统的编码，上面要是直接写入的话就会报错：

　　UnicodeEncodeError: 'gbk' codec can't encode character '\u2022' in position 0: illegal multibyte sequence

　　即对GBK格式txt文件写不进去UTF-8下的部分文本，所以写入前的打开文件和上面一样：

　　1 with open ('a.txt', 'w', encoding='utf-8') as f:

　　     f.write(item)

　　编码问题虽然网上的博客很多，但这个问题还是要自己遇到了在解决的过程中才能理解。

Python读写txt文件时的编码问题的更多相关文章

python操作txt文件中数据教程[1]-使用python读写txt文件
python操作txt文件中数据教程[1]-使用python读写txt文件觉得有用的话,欢迎一起讨论相互学习~Follow Me 原始txt文件程序实现后结果程序实现 filename = '. ...
MFC读写.txt文件时进度条显示实时进度
整体实现方式:先获得文件长度,然后用每次读取的长度,计算出完成的百分比,用百分比的值设置进度条. 一.MFC进度条 Progress Control 相关函数 1. create() --创建Prog ...
python写入txt文件时的覆盖和追加
python写入文件时的覆盖和追加在使用Python进行txt文件的读写时,当打开文件后,首先用read()对文件的内容读取,然后再用write()写入,这时发现虽然是用"r+" ...
python 处理中文文件时的编码问题，尤其是utf-8和gbk
python代码文件的编码 py文件默认是ASCII编码,中文在显示时会做一个ASCII到系统默认编码的转换,这时就会出错:SyntaxError: Non-ASCII character.需要在代码 ...
python 读写txt文件并用jieba库进行中文分词
python用来批量处理一些数据的第一步吧. 对于我这样的的萌新.这是第一步. #encoding=utf-8 file='test.txt' fn=open(file,"r") ...
python读写txt文件
整理平常经常用到的文件对象方法: f.readline() 逐行读取数据方法一: >>> f = open('/tmp/test.txt') >>> f.rea ...
python操作txt文件中数据教程[4]-python去掉txt文件行尾换行
python操作txt文件中数据教程[4]-python去掉txt文件行尾换行觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考文章 python操作txt文件中数据教程[1]-使用pyt ...
python操作txt文件中数据教程[3]-python读取文件夹中所有txt文件并将数据转为csv文件
python操作txt文件中数据教程[3]-python读取文件夹中所有txt文件并将数据转为csv文件觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考文献 python操作txt文件中 ...
java指定编码的按行读写txt文件（几种读写方式的比较）
转: java指定编码的按行读写txt文件(几种读写方式的比较) 2018年10月16日 20:40:02 Handoking 阅读数:976 版权声明:本文为博主原创文章,未经博主允许不得转载. ...

随机推荐

mysql--实现oracle的row_number() over功能
有时候我们想要得到每个分组的前几条记录,这个时候oracle中row_number函数使用非常方便,但可惜mysql没有.网上搜了些实现方法. 表flow_task有phaseno(序列号),obje ...
意外的php之学习笔记
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/gc_gongchao/article/details/37312039 什么是php? ph ...
位运算符 & | ~ ^ << >>
# ### 位运算符 & | ~ ^ << >> var1 = 19 var2 = 15 # & 按位与 """ res = va ...
【Docker】-NO.132.Docker.1 -【Docker 修改容器端口】
Style:Mac Series:Java Since:2018-09-10 End:2018-09-10 Total Hours:1 Degree Of Diffculty:5 Degree Of ...
Ubuntu server LTS 16.04安装SSH以及连接问题
1.SSH安装出现问题: 登录到Ubuntu服务器,执行以下命令: sudo apt-get install openssh-server 出现以下错误: 解决办法: 1)确保服务器能出外网,比如说 ...
#WEB安全基础 : HTTP协议 | 文章索引
本系列讲解WEB安全所需要的HTTP协议 #WEB安全基础 : HTTP协议 | 0x0 TCP/IP四层结构 #WEB安全基础 : HTTP协议 | 0x1 TCP/IP通信 #WEB安全基础 : ...
Flask性能优化对比
基于Flask的网关:Flask,Uwsgi,Gevent,Gunicorn(gevent),Tornado,Twisted !/usr/bin/python -- coding:utf-8 -- 美 ...
docker容器的实践——综合项目一
Docker 综合实验实验拓扑: [调度器] Keepalived + nginx 一.Keepalived服务的安装配置: 关闭LVS服务器的ipv4代理和 ...
PHP多维数组替换某一元素的值
数组结构如下所示: $arr = [ [ 'id' => 1, 'sub'=> [ [ 'value' => 11.2 ], [ 'value' => 34.5 ] ] ], ...
Go 初体验 - 并发与锁.2 - sync.WaitGroup
sync包里的WaitGroup主要用于协程同步计数主协程创建的子线程 WaitGoup.Add(i) 调用清除标记方法WaitGroup.Done() 使用WaitGroup.Wait()来阻塞, ...

Python读写txt文件时的编码问题

Python读写txt文件时的编码问题的更多相关文章

随机推荐

热门专题