Requests 乱码

当使用Requests请求网页时，出现下面图片中的一些乱码，我就一脸蒙逼。

程序是这样的。

def getLinks(articleUrl):

    headers = {

        "Uset-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.108 Safari/537.36 2345Explorer/8.1.0.14126"

        }

    wb_data = requests.get(articleUrl,headers=headers)

    bsObj = BeautifulSoup(wb_data.text,"lxml")

    return bsObj

程序的中出现的乱码图片是这样的。

怎么解决呢?好在有google大神，让我找到了一些前辈写的博客，拿去看吧，^_^。

http://blog.chinaunix.net/uid-13869856-id-5747417.html

http://blog.csdn.net/a491057947/article/details/47292923#t1

还有官网链接。两个地方都有讲到。(偷偷告诉你有chinese版本的，自己去找吧)

http://docs.python-requests.org/en/latest/user/quickstart/#response-content

http://docs.python-requests.org/en/master/user/advanced/#compliance

英文不好，我们来看看中文版的说的是什么，见下图。

好了，资料看完了，总结一下吧。

解决思路：

1.见到有乱码，不用怕，首先我们来看看编码方式是什么？怎么看？把编码方式打印出来看看。

def getLinks(articleUrl):

    headers = {

        "Uset-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.108 Safari/537.36 2345Explorer/8.1.0.14126"

        }

    wb_data = requests.get(articleUrl,headers=headers)

    bsObj = BeautifulSoup(wb_data.text,"lxml")

    hrefs = bsObj.find("div",{"class":"booklist clearfix"})

    print(wb_data.headers['content-type'])

    print(wb_data.encoding) # response的内容编码

    print(wb_data.apparent_encoding) #response headers 里设置的编码

    print(requests.utils.get_encodings_from_content(wb_data.text)) #response返回的html header标签里设置的编码

    return bsObj

返回的是这些个鬼东西。

text/html

ISO-8859-1  # response的内容编码

UTF-8-SIG   #response headers 里设置的编码

['utf-8']   #response返回的html header标签里设置的编码

这下知道为啥乱码了，原来是response的内容编码和response headers 里设置的编码不一样啊。

2.怎么办呢？不一样，那我们就改成一样的。改变response的内容编码格式。

有两种方法：

(1)使用.encoding属性改变response的内容编码,在代码里加上下面一行代码。

wb_data.encoding = 'utf-8' #手动指定编码方式

def getLinks(articleUrl):

    headers = {

        "Uset-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.108 Safari/537.36 2345Explorer/8.1.0.14126"

        }

    wb_data = requests.get(articleUrl,headers=headers)

    wb_data.encoding = 'utf-8' #手动指定编码方式

    bsObj = BeautifulSoup(wb_data.text,"lxml")

    return bsObj

(2)使用原始的Response.content

bsObj = BeautifulSoup(wb_data.text,"lxml")

#将wb_data.text改为wb_data.content

bsObj = BeautifulSoup(wb_data.content,"lxml")

3.从前面链接里就可以看到，一位前辈写出了下面代码。解决这类问题，一劳永逸的方法。
我给应用到我的代码里，看看可行不？^_^。

原理是这样的，当response内容的编码是'ISO-8859-1',首先查找返回的Html的header标签里设置的编码；如果此编码不存在，查看response header设置的编码

def getLinks(articleUrl):

    headers = {

        "Uset-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.108 Safari/537.36 2345Explorer/8.1.0.14126"

        }

    wb_data = requests.get(articleUrl,headers=headers)

    if wb_data.encoding == 'ISO-8859-1':

        encodings = requests.utils.get_encodings_from_content(wb_data.text)

        if encodings:

            encoding = encodings[0]

        else:

            encoding = wb_data.apparent_encoding

    encode_content = wb_data.content.decode(encoding,'replace').encode('utf-8','replace')

    bsObj = BeautifulSoup(encode_content,"lxml")

    return bsObj

好了，这下就能解决这个问题了。哎，这个小鬼挺能折腾的。

Requests 乱码的更多相关文章

爬虫学习之-requests乱码
总体功能的一个演示 import requests response = requests.get("https://www.baidu.com") print(type(resp ...
requests乱码问题
有三种方法解决请求后乱码问题. 一:获取二进制数据,再利用str进行编码转换 url='http://music.baidu.com' r = requests.get(url) html=r.con ...
java web 学习十（HttpServletRequest对象1）
一.HttpServletRequest介绍 HttpServletRequest对象代表客户端的请求,当客户端通过HTTP协议访问服务器时,HTTP请求头中的所有信息都封装在这个对象中,通过这个对象 ...
python（27）requests 爬取网页乱码，解决方法
最近遇到爬取网页乱码的情况,找了好久找到了种解决的办法: html = requests.get(url,headers = head) html.apparent_encoding html.enc ...
Python HTTP库requests中文页面乱码解决方案！
http://www.cnblogs.com/bitpeng/p/4748872.html Python中文乱码,是一个很大的坑,自己不知道在这里遇到多少问题了.还好通过自己不断的总结,现在遇到乱码的 ...
Python3的requests类抓取中文页面出现乱码的解决办法
这种乱码现象基本上都是编码造成的,我们要转到我们想要的编码,先po一个知识点,嵩天老师在Python网络爬虫与信息提取说到过的:response.encoding是指从HTTP的header中猜测 ...
Requests中文乱码解决方案
分析: r = requests.get(“http://www.baidu.com“) **r.text返回的是Unicode型的数据. 使用r.content返回的是bytes型的数据. 也就是说 ...
解决requests获取源代码时中文乱码问题
用requests获取源代码时,如果是中文网页,就可能会出现乱码,下面我以中关村的网站为例: import requests url = 'http://desk.zol.com.cn/meinv/' ...
python中requests库中文乱码问题
当使用这个库的时候经常会出现各种乱码的情况. 首先要知道: text返回的是处理过的unicode的数据. content返回的是bytes的原始数据也就是说r.content比r.text更加节省 ...

随机推荐

信鸽推送 10004,os文件配置出错,解决办法
信鸽推送注册失败返回码 10004 是 os 配置出现问题经过询问客服,得到以下解决办法将SDK中的so文件复制下来新建文件夹jniLibs,并将 so 配置文件粘贴进去便可完成注册
jQuery 邮箱下拉列表自动补全
综述我想大家一定见到过,在某个网站填写邮箱的时候,还没有填写完,就会出现一系列下拉列表,帮你自动补全邮箱的功能.现在我们就用jQuery来实现一下. 博主原创代码,如有代码写的不完善的地方还望大家多 ...
js获取当前域名、Url、相对路径和参数以及指定参数
一.js获取当前域名有2种方法 1.方法一 var domain = document.domain; 2.方法二 var domain = window.location.host; 3.注意问题 ...
python基础补漏-06-其他常用模块
JSON/Pickle: 首先我们要明白什么事序列化--> 就是进行不同程序之间的数据交换那JSON 和Pickle是什么鬼... 就是不同的方式而已 import json name = ...
【转】OpenGL多线程创建纹理，附加我的测试结果
原文地址 http://www.cnblogs.com/mazhenyu/archive/2010/04/29/1724190.html 关于这个问题以前只知道多个线程不能同时使用一个RC,结果为了能 ...
BZOJ 后缀自动机四·重复旋律7
后缀自动机四·重复旋律7 时间限制:15000ms 单点时限:3000ms 内存限制:512MB 描述小Hi平时的一大兴趣爱好就是演奏钢琴.我们知道一段音乐旋律可以被表示为一段数构成的数列. 神奇的 ...
[转] C++的引用传递、指针传递参数在java中的相应处理方法
原文出处:[http://blog.csdn.net/conowen/article/details/7420533] 首先要明白一点,java是没有指针这个概念的. 但是要实现C++的引用传递.指针 ...
django表单验证和跨站伪造csrf
Form验证 django中的Form一般有两种功能: 输入html 验证用户输入 django使用内置form方法验证表单提交的数据 html页面 <!DOCTYPE html> < ...
Java加载资源文件几种方法
from: http://andyzhu.blog.51cto.com/4386758/775836/ import java.net.URL; import org.springframework. ...
关于Java中的继承和组合的一个错误使用的例子
[TOC] 关于Java中的继承和组合的一个错误使用的例子相信绝大多数人都比较熟悉Java中的「继承」和「组合」这两个东西,本篇文章就主要就这两个话题谈论一下.如果我某些地方写的不对,或者比较幼稚, ...

Requests 乱码

Requests 乱码的更多相关文章

随机推荐

热门专题