python爬虫中文乱码问题（request方式爬取）

https://blog.csdn.net/guoxinian/article/details/83047746

req = requests.get(url)返回的是类对象

其包括的属性有：

req.encoding:返回编码方式

req.text：text返回的是处理过的Unicode型的数据

req.content：content返回的是bytes型的原始数据

content是把内容bytes返回. 而text是decode成Unicode. 如果headers没有charset字符集的化,text()会调用chardet来计算字符集

也就是说text是解码完的数据，调用req.text(）就不需要解码了，问题经常出现解码中的类型码是否正确，这个下面在说，先明白text（）和content（）的区别

假设对获取的内容最终都编码成‘utf-8’的类型text（）和content的处理方式如下所示：

requests.get(url).text.encode('utf8','ignore') #如果req.text()自动解码正确，直接编码，自动解码下面介绍

requests.get(url).content.decode('gbk','ignore').encoding('utf-8','ignore') #假设源码是gbk，则需要先解码在编码成utf-8

1. 遇到的中文乱码问题
1.1 简单的开始
使用requests来拔取网站内容十分方便，一个最简单的代码段只需要2-3行代码就行。

url = 'http//www.pythonscraping.com/'
req = requests.get(url)
print(req.text)
tree = html.fromstring(req.text)
print(tree.xpath("//h1[@class='title']/text()"))

1.2 麻烦的开始
本来当时的想法是写一些基础模块，方便之后开发的时候调用，减少重复性工作。为了保证代码在任何情况下都不会出现bug，所以想着用同样的代码爬取中文网站获取里面的文字
修改上面代码中的两行代码：

url = 'http://sports.sina.com.cn/g/premierleague/index.shtml'
print(tree.xpath("//span[@class='sec_blk_title']/text()"))

运行程序可以发现，在语句print(req.text)输出的内容中，中文字体已经是乱码了。最后的结果输出是['?????©è§\x86é?\x91', '??\x80?\x9c\x9f?\x9b\x9eé??']
2 乱码解决办法
2.1 试错
    由于之前爬取csdn上一个网页没有出现乱码问题，但是在sina体育网站上出现了乱码，所以当时以为不是编码问题，以为是文档压缩问题。因为csdn获取的页面header里没有“Content-Encodings”属性，但是sina体育获取的页面header有“Content-Encodings”属性--“Content-Encoding: gzip”。
    在网上查看了多个相关问题的解决方案：
    1. http://stackoverflow.com/questions/3122145/zlib-error-error-3-while-decompressing-incorrect-header-check
    2. http://blog.csdn.net/pxf1234567/article/details/42006697
    3. http://blog.csdn.net/bytxl/article/details/21278249

总结：参考上述文献，结果还是没有解决问题，但是就考虑是不是方向错了。不过这部分工作也没有白做，很多网站返回数据都会有压缩问题，之后的工作中也能用上。

2.2 乱码终极解决办法
    后来查阅官方文档中response-content相关内容，说明了Requests会自动解码来自服务器的内容。Requests会基于HTTP头部对响应的编码作出有根据的推测，前提是响应文档的HTTP headers里面没有相关字符集说明。官方文档还说明了，如果你创建了自己的编码，并使用codecs 模块进行注册，你就可以轻松地使用这个解码器名称作为 r.encoding 的值，然后由Requests来为你处理编码。（自己没有使用codecs模块，所以这里不贴代码了，不过按官方的说法使用codecs模块是最简单的一种方式。）
    另一份官方文档片段明确说了reponse编码处理方式：
        Requests遵循RFC标准，编码使用ISO-8859-1 。
        只有当HTTP头部不存在明确指定的字符集，并且 Content-Type 头部字段包含 text 值之时， Requests才不去猜测编码方式。

现在直接上实验结果，在原始代码中添加以下代码片段：

点击(此处)折叠或打开

print(req.headers['content-type'])
print(req.encoding)
print(req.apparent_encoding)
print(requests.utils.get_encodings_from_content(page_content.text))

输出结果分别是：
    text/html
    ISO-8859-1#response内容的编码
    utf-8#response headers里设置的编码
    ['utf-8']#response返回的html header标签里设置的编码
    返回的内容是采用‘ISO-8859-1’，所以出现了乱码，而实际上我们应该采用‘utf-8’编码

    总结：当response编码是‘ISO-8859-1’，我们应该首先查找response header设置的编码；如果此编码不存在，查看返回的Html的header设置的编码，代码如下：

点击(此处)折叠或打开

if req.encoding == 'ISO-8859-1':
encodings = requests.utils.get_encodings_from_content(req.text)
if encodings:
encoding = encodings[0]
else:
encoding = req.apparent_encoding
else:
encoding = req.encoding
encode_content = req.content.decode(encoding, 'ignore').encode('utf-8', 'ignore')

python爬虫中文乱码问题（request方式爬取）的更多相关文章

python爬虫中文乱码解决方法
python爬虫中文乱码前几天用python来爬取全国行政区划编码的时候,遇到了中文乱码的问题,折腾了一会儿,才解决.现特记录一下,方便以后查看. 我是用python的requests和bs4库来实 ...
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)（下）
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(下) 自动使用cookie的方法,告别手动拷贝cookie http模块包含一些关于cookie的模块,通过他们我们可以自动的使用co ...
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息 2018-07-21 23:53:02 larger5 阅读数 4123更多分类专栏: 网络爬虫版权声明: ...
【个人】爬虫实践，利用xpath方式爬取数据之爬取虾米音乐排行榜
实验网站:虾米音乐排行榜网站地址:http://www.xiami.com/chart 难度系数:★☆☆☆☆ 依赖库:request.lxml的etree (安装lxml:pip install ...
Python爬虫实战（2）：爬取京东商品列表
1,引言在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反 ...
Python爬虫小白入门（六）爬取披头士乐队历年专辑封面-网易云音乐
一.前言前文说过我的设计师小伙伴的设计需求,他想做一个披头士乐队历年专辑的瀑布图. 通过搜索,发现网易云音乐上有比较全的历年专辑信息加配图,图片质量还可以,虽然有大有小. 我的例子怎么都是爬取图片? ...
python爬虫学习之使用BeautifulSoup库爬取开奖网站信息-模块化
实例需求:运用python语言爬取http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html这个开奖网站所有的信息,并且保存为txt文件和excel文件. 实 ...
Python爬虫教程-12-爬虫使用cookie爬取登录后的页面(人人网)（上）
Python爬虫教程-12-爬虫使用cookie(上) 爬虫关于cookie和session,由于http协议无记忆性,比如说登录淘宝网站的浏览记录,下次打开是不能直接记忆下来的,后来就有了cooki ...
Python爬虫入门教程： 27270图片爬取
今天继续爬取一个网站,http://www.27270.com/ent/meinvtupian/ 这个网站具备反爬,so我们下载的代码有些地方处理的也不是很到位,大家重点学习思路,有啥建议可以在评论的 ...

随机推荐

Node.js操作Mysql的简单示例
API的封装:封装为系统可用的工具,分为线上和线上的数据库. 使用:让API直接操作数据库,不再使用假数据. DEMO代码: const mysql = require('mysql'); // 创建 ...
error: (-215:Assertion failed) !_src.empty() in function 'cv::cvtColor'
这个报错一般是因为你图像的路径写错了,找不到图像而导致的. 解决问题的朋友麻烦点个推荐呗!嘿嘿
Windows 7下Node.js Web开发环境搭建笔记
Node.js是什么? 我们看看百科里怎么说的?JavaScript是一种运行在浏览器的脚本,它简单,轻巧,易于编辑,这种脚本通常用于浏览器的前端编程,但是一位开发者Ryan有一天发现这种前端式的脚本 ...
LRU的实现（使用list）
首先是LRU的定义,LRU表示最近最少使用,如果数据最近被访问过,那么将来被访问的几率也更高. 所以逻辑应该是每次都要将新被访问的页放到列表头部,如果超过了list长度限制,就将列表尾部的元素踢出去. ...
Linux下的 mariadb 使用 root 用户启动方式
近日因测试安全产品需要,想调整mariadb的启动用户为root, 经历一番波折后终于成功! 注意:以root身份启动mysql是一项非常危险行为,相当于给了数据库操作用户(数据库管理员或黑客)一个通 ...
autocad2014一直显示正在检查许可
64位CAD2014安装成功后启动时在检查许可卡住的解决方法,以下方法经本人测试,真实可行.1.下载CCcleaner.2.将CCcleaner设置成中文版,英文好的继续第三步.(设置方法:选项opt ...
第二章简单的HTTP协议
第二章简单的HTTP协议针对HTTP协议结构进行讲解 1.通过请求和响应的交换来达成通信目的应用HTTP协议时,必定是一端担任客户端角色,另一端担任服务器端角色. [请求报文]是由请求方法.UR ...
luogu5823 课表的排列
题目链接 problem 构造一个长度为\(2n\)的数列.满足: 1.[1,n]中每个数字恰好出现两次. 2.将所有相同数字之间相隔的数字个数排序后,得到公差为1的等差数列. 保证n为奇数. sol ...
linux 主机通过虚拟机(win10)上网
公司内网必须安装安全软件(exe)才可以上网,但是我的系统是deepin,用deepin-wine无法安软该exe,于是用vmware安装了win10虚拟机,通过虚拟机上网先简单介绍下vmware以 ...
《细说PHP》第四版样章第18章数据库抽象层PDO 1
现在,如果你已经能熟练地使用MySQL客户端软件来操作数据库中的数据,就可以开始学习如何使用PHP来显示和修改数据库中的数据了.PHP提供了标准的函数来操作数据库.在PHP 5以上的版本中可以使用My ...

python爬虫中文乱码问题（request方式爬取）

python爬虫中文乱码问题（request方式爬取）的更多相关文章

随机推荐

热门专题