爬取网页内容后写入文件报错UnicodeEncodeError: 'gbk' codec can't encode的问题解决方案

老猿使用如下代码读取网页内容：

req = urllib.request.Request(url=url,headers=header)

text = urllib.request.urlopen(req).read().decode()

fp = open(r’c:\temp\testhtml.txt’,‘a+’)

fp.write(text)

fp.close()

执行时读取网页内容都没有问题，在写入文件时报错：

fp.write(text)

UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xa0’ in position XXXX: illegal multibyte sequence。

老猿分析了一下报错原因，给出的错误是Unicode编码错误，不能使用gbk编码。而网页读取后调用的decode是默认解码，应该是utf-8，因此只需要将上述文件打开方式改成如下就可以了：

fp = open(r’c:\temp\testhtml.txt’,‘a+’， encoding=‘utf-8’)

验证测试ok。

老猿Python，跟老猿学Python!

博客地址：https://blog.csdn.net/LaoYuanPython

老猿Python博客文章目录：https://blog.csdn.net/LaoYuanPython/article/details/98245036

请大家多多支持，点赞、评论和加关注！谢谢！

爬取网页内容后写入文件报错UnicodeEncodeError: 'gbk' codec can't encode的问题解决方案的更多相关文章

python写入文件中遇到 UnicodeEncodeError: ‘gbk’ codec can’t encode character 错误的解决办法
在写入TXT文件时,某些页面总是报UnicodeEncodeError: ‘gbk’ codec can’t encode character错误,网上找了半天也没找到解决办法. 后来终于找到了解决办 ...
【python】python读取文件报错UnicodeDecodeError: 'gbk' codec can't decode byte 0xac in position 2: illegal multibyte sequence
python读取文件报错UnicodeDecodeError: 'gbk' codec can't decode byte 0xac in position 2: illegal multibyte ...
关于编码问题，报错：'gbk' codec can't encode character '\u3164' in position 0: illegal multibyte sequence
之前经常在写入文件的时候遇到这种报错, 'gbk' codec can't encode character '\u3164' in position 0: illegal multibyte seq ...
Python读取中文txt文件错误：UnicodeEncodeError: 'gbk' codec can't encode character
with open(file,'r') as f: line=f.readline() i=1 while line: line=line.decode('utf-8') line=f.readlin ...
python 写入日志的问题 UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 0: illegal multibyte sequence
最近,使用python的logging模块,因为这个写入日志写完后就没有管它.在存储日志信息的时候,一直提示: UnicodeEncodeError: 'gbk' codec can't encode ...
python+selenium运行报错UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)
使用python+selenium运行自动化脚本时,打印某一段文字出现UnicodeEncodeError: 'ascii' codec can't encode characters in posi ...
python3 读取dbf文件报错 UnicodeDecodeError: 'gbk' codec can't decode
在读取dbf文件时由于编码问题报错:UnicodeDecodeError: 'gbk' codec can't decode byte 0xb5 in position 49: incomplete ...
python中time.strftime不支持中文，报错UnicodeEncodeError: 'locale' codec can't encode character '\u5e74' in position 2: encoding error
使用time.strftime将 "2020-10-10 10:10:10" 转化为 2020年10月10日10时10分10 报错: import time timestr=&q ...
pip安装requests报错unicodeEncodeError:'ascii' codec can\t encode charactesers in position 9-12:ordinal not in range(128)
前提 : 已经安装pip(pip的安装我参考的是本博客转载脚本之家的步骤,实验可以成功) 1. 在cmd输入命令转到pip安装目录: 2. 运行后出现错误 3. 步骤2中的错误应该和编码有关.搜索百度 ...

随机推荐

第一章epoll
IO多路复用之epoll总结 1.基本知识 epoll是在2.6内核中提出的,是之前的select和poll的增强版本.相对于select和poll来说,epoll更加灵活,没有描述符限制.epoll ...
linux 信号 ctrl + d z c fg bg 作用
ctrl+c:前台进程终止后台进程的终止: 方法一:通过jobs命令查看job号(假设为num),然后执行kill %num $ kill %1 方法二:通过ps命令查看job的进程号(PID, ...
二：Redis：（REmote DIctionary Server）远程字典服务器
Redis是完全开源免费的,用C语言编写的,遵循BSD协议,是一个高性能的(key-value)分布式内存数据库,基于内存运行,并支持持久化的NOSQL数据库,是当前最热门的NOSQL数据库之一,也被 ...
小程序·云开发地表最强CI利器来了
小程序CI 与 CloudBase-FrameWork 从2017年开始,微信小程序的能力也随着前端的大发展的趋势越来越多,包体积限制越来越宽松,大型微信小程序的开发团队越来越多,为了适应形式,微信小 ...
如何避免Cephfs被完全毁掉
前提一套系统的最低要求是可恢复,也就是数据不丢失,但是在各种各样的原因下,整套系统都有被毁掉的可能,一直以来有个观点就是存储是需要两套的,一般情况下很难实现,但是如何把故障发生的概率降低到最低,这个 ...
记一次ceph的故障修复(20160408)
ceph的在正常运行的时候基本不会出现故障,出现故障一般在变动的时候,具体有下面几种可能出现的情形软件升级增加存储节点减少存储节点调整副本数目调整pg数目磁盘出现损坏节点网络出现异常以 ...
cgroup实践-资源控制
1.Cgroup安装安装Cgroups需要libcap-devel和libcgroup两个相关的包 yum install gcc libcap-devel 2.Cgroup挂载配置 Cgroup对 ...
Python_俄罗斯方块
网上资料,仅供学习,希望以后自己也能看懂再改进下... """ 俄罗斯方块 author: wolfstar last edited: 2018年1月 "&qu ...
Python _PyQt5 【总】
http://www.cnblogs.com/archisama/p/5442071.html QtCore QtGui QtWidgets QtMultimedia QtBluetooth QtNe ...
Python_进程process 与线程thread
进程process 与线程thread 的区别各个进程独立使用内存空间,(默认)不可互相访问,线程共享内存进程的子进程是复制一份父进程,线程没有

爬取网页内容后写入文件报错UnicodeEncodeError: 'gbk' codec can't encode的问题解决方案

爬取网页内容后写入文件报错UnicodeEncodeError: 'gbk' codec can't encode的问题解决方案的更多相关文章

随机推荐

热门专题