title: requests模块的再次理解

date: 2020-03-10 22:44:26

tags:

1、response的解析

当requests模块发送请求后，我们会对其响应的数据也就是response进行解析，解析的方式有两种。

response.text
- 该方法返回的是str。
- 该方法的默认解码方式是'ISO-8859-1'。
- 想要更改解码方式，需要设置response的解码方式，如response.encoding = 'uft-8'
response.content
- 该方法返回的是二进制。
- 该内容解码使用decode()方法即可。
  - decode()方法默认是“uft-8”。
  - 使用其他方式解码只需要传入相关的名称即可，例如：decode("gbk")。

当然，这些方法首先推荐的是：

1、response.content.decode()

2、response.content.decode("gbk")

3、response.encoding = 'uft-8'

response.text

这几个方式可以解决绝大部分的乱码问题。

2、模拟登陆

有些网站需要登录后才能查看相关的内容，那么就需要我们在爬取网页内容时进行模拟登陆。

模拟登陆有两个方式可以实现：

1、使用session发送post请求登陆，登陆之后再发送get请求即可。

基本模板：

# coding=utf-8

import requests

session = requests.session()

#需要根据不同的网站来写

post_url = "请求的url地址"

post_data = {"username":"账号..."}

session.post(post_url,data=post_data)

#之后session就带了cookie，再次发送get请求就能

get_url = ""

response = session.get(get_url)

2、自己手动登陆后会有一个cookie，在发送请求时在请求头中带上这个cookie即可。

模板:

# coding=utf-8

import requests

headers = {"user-agent":"xxx","cookie":"xxx"}

get_url = ""

response = requests.get(get_url,headers)

其实此处也可以将cookie单独拿出来，放入一个字典中，get中有cookie参数，可以再那里传入，但是不太方便，还需要将cookie中的键值对一个个放入。

3、使用代理

这个就不用多说了，要注意的是如果访问http地址，就需要可以访问http的代理，https同理。

# coding=utf-8

import requests

headers = {"user-agent":"xxx","cookie":"xxx"}

get_url = ""

# 后方是个端口号

proxy = {"http":"http://123.54.67.48:80"}

response = requests.get(get_url,headers = headers,proxies = proxy)

(不知道为何pycharm代码提示不提示proxies！-_-||||)

requests的再次学习的更多相关文章

再次学习mysql优化
再次学习mysql优化表的设计规范化(三范式) 添加索引(普通索引.主键索引.唯一索引.全文索引) 分表(水平分割.垂直分割) 读写分离(写add.update.delete) 存储过程对mysq ...
从0开始学爬虫9之requests库的学习之环境搭建
从0开始学爬虫9之requests库的学习之环境搭建 Requests库的环境搭建环境:python2.7.9版本参考文档:http://2.python-requests.org/zh_CN/l ...
再次学习 java 类的编译
做JAVA开发的都知道myeclipse, 我们在myeclipse中新建一个类,然后保存, 如何正常的话,那么在项目指定的目录(也就是项目的output目录)就会生成同名的class文件, 可是,我 ...
再次学习C++类之构造函数
学习C++类,首先要说C中的结构体,虽然C++类扩展了C中的结构体,可以添加成员函数,但他们是有区别的.在结构体中,成员变量.成员函数都是公有的,而类中,一般是成员变量是私有的,成员函数是公有的,私有 ...
Linux传统Huge Pages与Transparent Huge Pages再次学习总结
Linux下的大页分为两种类型:标准大页(Huge Pages)和透明大页(Transparent Huge Pages).Huge Pages有时候也翻译成大页/标准大页/传统大页,它们都是Hu ...
requests 进阶用法学习（文件上传、cookies设置、代理设置）
一.文件上传 1.模拟网站提交文件提交此图片,图片名称:timg.jpg import requests files={ 'file':open('timg.jpg','rb') } respons ...
再次学习linux文件特殊权限：SUID、SGID、Sticy Bit
以前对于文件管理的认识只限于UGO的管理,对于特殊权限的学习还是一知半解.重新学习了一遍,我自己理解的东东记录一下. 首先,列一下SUID.SGID.Sticy Bit所代表的权限数值.就好像rwx分 ...
requests库的学习——跟随官方文档
发送GET请求: import requests r=requests.get("http://www.kekenet.com/") 如果需要传递参数可以有以下几种方法: impo ...
Requests的基础学习
官方文档链接:http://cn.python-requests.org/zh_CN/latest/ 安装: pip install requests 错误异常: 1.所有Requests显式抛出的异 ...

随机推荐

Python学习笔记1：基础
1.编码默认情况下,Python 3 源码文件以 UTF-8 编码,所有字符串都是 unicode 字符串. 你也可以为源文件指定不同的字符编码.在 #! 行(首行)后插入至少一行特殊的注释行来定义 ...
[MIT6.006] 14. Depth-First Search (DFS), Topological Sort 深度优先搜索，拓扑排序
一.深度优先搜索它的定义是:递归探索图,必要时要回溯,同时避免重复. 关于深度优先搜索的伪代码如下: 左边DFS-Visit(V, Adj.s)是只实现visit所有连接某个特定点(例如s)的其他点 ...
【JVM第四篇--运行时数据区】堆
写在前面的话:本文是在观看尚硅谷JVM教程后,整理的学习笔记.其观看地址如下:尚硅谷2020最新版宋红康JVM教程一.堆的概述 JVM的运行时数据区如下: 一个Java程序运行起来对应着一个进程(操 ...
MySQL架构(面)
和其它数据库相比,MySQL有点与众不同,它的架构可以在多种不同场景中应用并发挥良好作用.主要体现在存储引擎的架构上,插件式的存储引擎架构将查询处理和其它的系统任务以及数据的存储提取相分离.这种架构可 ...
MySQL视图详细介绍
前言: 在MySQL中,视图可能是我们最常用的数据库对象之一了.那么你知道视图和表的区别吗?你知道创建及使用视图要注意哪些点吗?可能很多人对视图只是一知半解,想详细了解视图的同学看过来哟,本篇文章会详 ...
Java 架构学习图谱
Python面试题_初级版
1.如何在一个函数内部修改全局变量 a=5 def fn(): a=4 fn() print(a) # 5 #在一个函数内部修改全局变量 a=5 def fn(): global a a=4 fn() ...
python 学习代码
1 #-- 寻求帮助: 2 dir(obj) # 简单的列出对象obj所包含的方法名称,返回一个字符串列表 3 help(obj.func) # 查询obj.func的具体介绍和用法 4 5 #-- ...
【剑指offer】面试题68(补充) 0到n-1中缺失的数字（二分法的进一步应用）
题目一个长度为n-1的递增排序数组中的所有数字都是唯一的,并且每个数字都在范围0到n-1之内. 在范围0到n-1的n个数字中有且只有一个数字不在该数组中,请找出这个数字. 输出输入:[0,1,2, ...
python-网络安全编程第二天（文件操作）
前言才吃完火锅嘿嘿,吃完把今天所学的内容写个博客当做笔记用哈哈! 文件操作 f=open("test.txt",w)直接打开一个文件,如果文件不存在则创建文件open模式w:以写 ...

requests的再次学习

1、response的解析

2、模拟登陆

3、使用代理

requests的再次学习的更多相关文章

随机推荐

热门专题