【真相揭秘】requests获取网页编码乱码本质

有没有被网页编码抓狂，怎么转都是乱码。

通过查看requests源代码，才发现是库本身历史原因造成的。

作者是严格http协议标准写这个库的，《HTTP权威指南》里第16章国际化里提到，如果HTTP响应中Content-Type字段没有指定charset，则默认页面是'ISO-8859-1'编码。

这处理英文页面当然没有问题，但是中文页面，特别是那些不规范的页面，就会有乱码了！

比如分析jd.com 页面为gbk编码，问题就出在这里。

chardet库监测编码却是GB2312，两种编码虽然兼容的，但用GB2312解码gbk编码的网页字节串会运行错误！

reqponse header只指定了type，但是没有指定编码(一般现在页面编码都直接在html页面中)。所有该函数就直接返回'ISO-8859-1'。

# test1

In [1]: r = requests.get('https://www.baidu.com/')

In [2]: r.encoding

Out[2]: 'ISO-8859-1'

In [3]: type(r.text)

Out[3]: unicode

In [4]: type(r.content)

Out[4]: str

In [5]: r.apparent_encoding

Out[5]: 'utf-8'

In [6]: chardet.detect(r.content)

Out[6]: {'confidence': 0.99, 'encoding': 'utf-8'}

在requests获取网页的编码格式时，有两种方式encoding和apparent_encoding，结果也不同，

推荐apparent_encoding，常规写法

url='xxx'

req =requests.get(url)

req.encoding=req.apparent_encoding

print(req.text)

总之一句话，遇到乱码加上apparent_encoding就完事了。

参考

https://www.cnblogs.com/emmm/p/9792832.html

https://www.cnblogs.com/bitpeng/p/4748872.html

【真相揭秘】requests获取网页编码乱码本质的更多相关文章

python获取网页编码问题（encoding和apparent_encoding）
在requests获取网页的编码格式时,有两种方式,而结果也不同,通常用apparent_encoding更合适注:推荐一个大佬写的关于获取网页编码格式以及requests中text()和conte ...
Python 2.7.3 urllib2.urlopen 获取网页出现乱码解决方案
出现乱码的原因是,网页服务端有bug,它硬性使用使用某种特定的编码方案,而并没有按照客户端的请求头的编码要求来发送编码. 解决方案:使用chardet来猜测网页编码. 1.去chardet官网下载ch ...
java根据URL获取网页编码
由于很多原因,我们要获取网页的编码(多半是写批量抓取的脚本吧...嘻嘻嘻) 注意: 如果你的目的是获取不乱码的网页内容(而不是根据网址发送post请求获取返回值),切记切记,移步这里 java根据UR ...
asp.net 利用HttpWebRequest自动获取网页编码并获取网页源代码
/// <summary> /// 获取源代码 /// </summary> /// <param name="url"></param& ...
解决requests获取源代码时中文乱码问题
用requests获取源代码时,如果是中文网页,就可能会出现乱码,下面我以中关村的网站为例: import requests url = 'http://desk.zol.com.cn/meinv/' ...
WebRequest 获取网页乱码
问题:在用WebRequest获取网页源码时得到的源码是乱码. 原因:1,编码不对解决办法:设置对应编码 WebRequest request = WebRequest.Create(Url);We ...
爬虫 Http请求,urllib2获取数据,第三方库requests获取数据,BeautifulSoup处理数据,使用Chrome浏览器开发者工具显示检查网页源代码,json模块的dumps，loads，dump，load方法介绍
爬虫 Http请求,urllib2获取数据,第三方库requests获取数据,BeautifulSoup处理数据,使用Chrome浏览器开发者工具显示检查网页源代码,json模块的dumps,load ...
解决Chrome网页编码显示乱码的问题
解决Chrome网页编码显示乱码的问题记得在没多久以前,Google Chrome上面出现编码显示问题时,可以手动来调整网页编码问题,可是好像在Chrome 55.0版以后就不再提供手动调整编码,所 ...
node爬虫之gbk网页中文乱码解决方案
之前在用 node 做爬虫时碰到的中文乱码问题一直没有解决,今天整理下备忘.(PS:网上一些解决方案都已经不行了) 中文乱码具体是指用 node 请求 gbk 编码的网页,无法正确获取网页中的中文(需 ...

随机推荐

Computational Geometry
矩形重叠看过某司一道笔试题:给\(n\)个矩形左下和右上坐标(不能斜放),求重叠最多处矩形个数. 这道题本身不难:可以遍历所有矩形边界组成的点,计算该点被多少矩形包围,从而选出最大值. 由此引申出一 ...
在Jetson TX2上捕获、显示摄像头视频
参考文章:How to Capture and Display Camera Video with Python on Jetson TX2 与参考文章大部分都是相似的,如果不习惯看英文,可以看看我下 ...
PyCharm 集成 SVN，检出、提交代码
1.安装 SVN,解决 SVN 目录中没有 svn.exe 问题重新打开 TortoiseSVN 安装文件选择 Modify 后在command line client tools 选项修改为 W ...
postman（动态数据获取）
一:返回报文为 json 格式示例:因为充值记录接口中需要用到登录接口返回报文中的信息如下 1.以获取token(JWT)和uid为例 2.在登录接口的tests中写入代码(因为登录接口报文信息中有 ...
muduo网络库源码学习————线程类
muduo库里面的线程类是使用基于对象的编程思想,源码目录为muduo/base,如下所示: 线程类头文件: // Use of this source code is governed by a B ...
树莓派4B踩坑指南 - （15）搭建在线python IDE
今天想在树莓派上自己搭一个在线的python IDE,于是找到了一篇教程--Fred913大神的从头开始制作OJ-在线IDE的搭建自己尝试动手做了一下, 还是发现不少细节需要注意, 记录在此如果不 ...
tp5中使用ueditor编辑器保存文本到数据库后回显后显示html标签问题解决办法
在编辑器ueditor中获取文本,保存到到数据库后为当在数据库中提取出来,在显示回ueditor编辑器时候,出了问题, html标签都显示出来了百度了下别人的解决办法是,使用官方提供的api 可是 ...
Kafka 的一些知识点整理【1】
First: Kafka 是什么? Kafka 是一个发布订阅系统最初是是LinkedIn 开发最后交给Apache 开源组织 github地址:https://github.com/apache ...
一文教你快速搞懂 FOC ramp function 斜坡函数的作用和实现
文章目录定义程序的实现 matlab 程序 C语言程序定义 x(t)={0,t<0At,t≥0 x(t) = \begin{cases} 0,t<0\\ At,t \ge 0\\ \ ...
HMM-前向后向算法理解与实现（python）
目录基本要素 HMM三大问题概率计算问题前向算法后向算法前向-后向算法基本要素状态 \(N\)个状态序列 \(S = s_1,s_2,...\) 观测序列 \(O=O_1,O_2,.. ...

【真相揭秘】requests获取网页编码乱码本质

【真相揭秘】requests获取网页编码乱码本质的更多相关文章

随机推荐

热门专题