python爬虫中文乱码问题(request方式爬取)
req = requests.get(url)返回的是类对象
其包括的属性有:
req.encoding:返回编码方式
req.text:text返回的是处理过的Unicode型的数据
req.content:content返回的是bytes型的原始数据
content是把内容bytes返回. 而text是decode成Unicode. 如果headers没有charset字符集的化,text()会调用chardet来计算字符集
也就是说text是解码完的数据,调用req.text()就不需要解码了,问题经常出现解码中的类型码是否正确,这个下面在说,先明白text()和content()的区别
假设对获取的内容最终都编码成‘utf-8’的类型text()和content的处理方式如下所示:
requests.get(url).text.encode('utf8','ignore') #如果req.text()自动解码正确,直接编码,自动解码下面介绍
requests.get(url).content.decode('gbk','ignore').encoding('utf-8','ignore') #假设源码是gbk,则需要先解码在编码成utf-8
1. 遇到的中文乱码问题
1.1 简单的开始
使用requests来拔取网站内容十分方便,一个最简单的代码段只需要2-3行代码就行。
- url = 'http//www.pythonscraping.com/'
- req = requests.get(url)
- print(req.text)
- tree = html.fromstring(req.text)
- print(tree.xpath("//h1[@class='title']/text()"))
1.2 麻烦的开始
本来当时的想法是写一些基础模块,方便之后开发的时候调用,减少重复性工作。为了保证代码在任何情况下都不会出现bug,所以想着用同样的代码爬取中文网站获取里面的文字
修改上面代码中的两行代码:
- url = 'http://sports.sina.com.cn/g/premierleague/index.shtml'
- print(tree.xpath("//span[@class='sec_blk_title']/text()"))
运行程序可以发现,在语句print(req.text)输出的内容中,中文字体已经是乱码了。最后的结果输出是['?????©è§\x86é?\x91', '??\x80?\x9c\x9f?\x9b\x9eé??']
2 乱码解决办法
2.1 试错
由于之前爬取csdn上一个网页没有出现乱码问题,但是在sina体育网站上出现了乱码,所以当时以为不是编码问题,以为是文档压缩问题。因为csdn获取的页面header里没有“Content-Encodings”属性,但是sina体育获取的页面header有“Content-Encodings”属性--“Content-Encoding: gzip”。
在网上查看了多个相关问题的解决方案:
1. http://stackoverflow.com/questions/3122145/zlib-error-error-3-while-decompressing-incorrect-header-check
2. http://blog.csdn.net/pxf1234567/article/details/42006697
3. http://blog.csdn.net/bytxl/article/details/21278249
总结:参考上述文献,结果还是没有解决问题,但是就考虑是不是方向错了。不过这部分工作也没有白做,很多网站返回数据都会有压缩问题,之后的工作中也能用上。
2.2 乱码终极解决办法
后来查阅官方文档中response-content相关内容,说明了Requests会自动解码来自服务器的内容。Requests会基于HTTP头部对响应的编码作出有根据的推测,前提是响应文档的HTTP headers里面没有相关字符集说明。官方文档还说明了,如果你创建了自己的编码,并使用codecs 模块进行注册,你就可以轻松地使用这个解码器名称作为 r.encoding 的值, 然后由Requests来为你处理编码。(自己没有使用codecs模块,所以这里不贴代码了,不过按官方的说法使用codecs模块是最简单的一种方式。)
另一份官方文档片段明确说了reponse编码处理方式:
Requests遵循RFC标准,编码使用ISO-8859-1 。
只有当HTTP头部不存在明确指定的字符集,并且 Content-Type 头部字段包含 text 值之时, Requests才不去猜测编码方式。
现在直接上实验结果,在原始代码中添加以下代码片段:
点击(此处)折叠或打开
- print(req.headers['content-type'])
- print(req.encoding)
- print(req.apparent_encoding)
- print(requests.utils.get_encodings_from_content(page_content.text))
输出结果分别是:
text/html
ISO-8859-1#response内容的编码
utf-8#response headers里设置的编码
['utf-8']#response返回的html header标签里设置的编码
返回的内容是采用‘ISO-8859-1’,所以出现了乱码,而实际上我们应该采用‘utf-8’编码
总结:当response编码是‘ISO-8859-1’,我们应该首先查找response header设置的编码;如果此编码不存在,查看返回的Html的header设置的编码,代码如下:
点击(此处)折叠或打开
- if req.encoding == 'ISO-8859-1':
- encodings = requests.utils.get_encodings_from_content(req.text)
- if encodings:
- encoding = encodings[0]
- else:
- encoding = req.apparent_encoding
- else:
- encoding = req.encoding
- encode_content = req.content.decode(encoding, 'ignore').encode('utf-8', 'ignore')
python爬虫中文乱码问题(request方式爬取)的更多相关文章
- python爬虫中文乱码解决方法
python爬虫中文乱码 前几天用python来爬取全国行政区划编码的时候,遇到了中文乱码的问题,折腾了一会儿,才解决.现特记录一下,方便以后查看. 我是用python的requests和bs4库来实 ...
- Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)(下)
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(下) 自动使用cookie的方法,告别手动拷贝cookie http模块包含一些关于cookie的模块,通过他们我们可以自动的使用co ...
- [Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息 2018-07-21 23:53:02 larger5 阅读数 4123更多 分类专栏: 网络爬虫 版权声明: ...
- 【个人】爬虫实践,利用xpath方式爬取数据之爬取虾米音乐排行榜
实验网站:虾米音乐排行榜 网站地址:http://www.xiami.com/chart 难度系数:★☆☆☆☆ 依赖库:request.lxml的etree (安装lxml:pip install ...
- Python爬虫实战(2):爬取京东商品列表
1,引言 在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反 ...
- Python爬虫小白入门(六)爬取披头士乐队历年专辑封面-网易云音乐
一.前言 前文说过我的设计师小伙伴的设计需求,他想做一个披头士乐队历年专辑的瀑布图. 通过搜索,发现网易云音乐上有比较全的历年专辑信息加配图,图片质量还可以,虽然有大有小. 我的例子怎么都是爬取图片? ...
- python爬虫学习之使用BeautifulSoup库爬取开奖网站信息-模块化
实例需求:运用python语言爬取http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html这个开奖网站所有的信息,并且保存为txt文件和excel文件. 实 ...
- Python爬虫教程-12-爬虫使用cookie爬取登录后的页面(人人网)(上)
Python爬虫教程-12-爬虫使用cookie(上) 爬虫关于cookie和session,由于http协议无记忆性,比如说登录淘宝网站的浏览记录,下次打开是不能直接记忆下来的,后来就有了cooki ...
- Python爬虫入门教程: 27270图片爬取
今天继续爬取一个网站,http://www.27270.com/ent/meinvtupian/ 这个网站具备反爬,so我们下载的代码有些地方处理的也不是很到位,大家重点学习思路,有啥建议可以在评论的 ...
随机推荐
- LayUi 树形组件tree 实现懒加载模式,展开父节点时异步加载子节点数据
LayUi框架中树形组件tree官方还在持续完善中,目前最新版本为v2.5.5 官方树形组件目前还不支持懒加载方式,之前我修改一版是通过reload重载实例方法填充子节点数据方式,因为递归页面元素时存 ...
- ES6-Set的增加、查找、删除、遍历、查看长度、数组去重
set 是es6新出的一种数据结构,里边放的是数组. 作用:去重(set里边的数组不能重复) MDN:Set 对象允许你存储任何类型的唯一值,无论是原始值或者是对象引用. 总结: 1.成员唯一.无序且 ...
- Cesium专栏-克里金插值(全国温度为例,附源码下载)
Cesium Cesium 是一款面向三维地球和地图的,世界级的JavaScript开源产品.它提供了基于JavaScript语言的开发包,方便用户快速搭建一款零插件的虚拟地球Web应用,并在性能,精 ...
- ios中友盟集成好使用总结
参考链接:https://www.jianshu.com/p/a8ff46a7c966
- 【转】java的string中,关于split空串总会返回单个元素的数组
原地址:http://blog.sina.com.cn/s/blog_6f3da9650102x03c.html public class Split { public static void mai ...
- 检测到无法识别的AP,请升级AP数据库
0x00 事件 原因是公司新增了两个 AP 设备 TL-AP1202i ,似乎是新的 AP 硬件版本比较高,导致 AC 无法识别,控制器 Web 页面给出 检测到无法识别的AP,请升级AP数据库! 的 ...
- Git操作删除 untracked files
最近使用git 管理项目的时候,编译过程中出现了很多中间文件,今天发现使用 git clean 命令可以很方便进行清除: # 删除 untracked files git clean -f # 连 u ...
- Linux 打开端口方法
关闭防火墙:service iptables stop 开启防火墙:service iptables start 防火墙状态:service iptables status 永久关闭:chkconfi ...
- 求s=a+aa+aaa+aaaa+aa...a的值,其中a是一个数字。例如2+22+222+2222+22222。
方法一: var num = ""; var nums = []; var a = Number(prompt());//所要拼接的数字 var b = Number(prompt ...
- Nacos集群搭建过程详解
Nacos的单节点,也就是我们最开始使用的standalone模式,配置的数据是默认存储到内嵌的数据库derby中. 如果我们要搭建集群的话,那么肯定是不能用内嵌的数据库,不然数据无法共享.集群搭建的 ...