python的requests库

requests是在爬虫中常用到的一个库，它可以帮助我们很好的去请求我们想要爬取的网站，并返回网站的内容。

0x01：请求

get请求、post请求这两个是最常用的请求方式，此外还有类似delete、head、options。

请求的参数

params/data：这个两个是传入请求时传给服务器的参数，params用于get中，data用于post中

headers：传入请求头

proxies：传入代理

timeout：超时设置

代码演示：

 import requests

 url = 'http://www.tianya.cn/'

 params = {'username': 'zhangan', 'password': 123456}

 header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.0) Gecko/20100101 Firefox/68.0' }

 proxies = {

   "http": "http://10.10.1.10:3128",

   "https": "http://10.10.1.10:1080",

 }

 # html = requests.get(url=url, params=params, headers=header, proxies=proxies, timeout=1)

 html = requests.get(url=url, params=params, headers=header)

 print(html.url)

 print(html.request.headers)

输出如下：
http://www.tianya.cn/?username=zhangan&password=123456
{'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.0) Gecko/20100101 Firefox/68.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

第七行输出请求的url，可以看到，在get请求时params传入的参数被直接放在了后面，另外，我们在请求时利用headers参数设置了一个请求头，这样伪装成了浏览器，而不是我们使用的python requests。第八行，输出请求的请求头

如果需要设置代理和超时时间，像11行那样传入proxies和timeout参数就行了，由于这里的代理时无效的，所以没有运行，这又一个免费获取代理的网站，大家需要的话可以去这上面找：https://www.xicidaili.com/

0x02：获取

除了能够获取到url和请求头之外，还能获取到更多的内容。

获取网页源码：.text / .content 前者是以文本的方式获取，后者是以二进制的方式获取到。

获取状态码：.status_code

获取响应头：.headers

获取cookies：.cookies

稍微改一下上面的代码：

url = 'http://www.tianya.cn/'

params = {'username': 'zhangan', 'password': 123456}

header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.0) Gecko/20100101 Firefox/68.0' }

proxies = {

  "http": "http://10.10.1.10:3128",

  "https": "http://10.10.1.10:1080",

}

# html = requests.get(url=url, params=params, headers=header, proxies=proxies, timeout=1)

html = requests.get(url=url, params=params, headers=header)

print(html.status_code)  # 获取状态码

print(html.headers)         # 获取响应头

print(html.cookies)         # 获取到cookies

输出结果如下：
200
{'Server': 'nginx', 'Date': 'Wed, 24 Jul 2019 10:57:06 GMT', 'Content-Type': 'text/html; charset=UTF-8', 'Transfer-Encoding': 'chunked', 'Connection': 'close', 'Vary': 'Accept-Encoding', 'Cache-Control': 'no-cache', 'Pragma': 'no-cache', 'Expires': 'Thu, 01 Nov 2012 10:00:00 GMT', 'ETag': 'W/"6de10a5VRB4"', 'Last-Modified': 'Fri, 19 Jul 2019 09:40:47 GMT', 'Content-Encoding': 'gzip'}
<RequestsCookieJar[]>

依次输出了返回的状态码/服务器的响应头/cookies。

除此此外，requests还可保持会话维持，身份认证，SSL证书验证等。静谧大佬的爬虫文章写的很棒，大家可以参考下：https://cuiqingcai.com/5523.html

python的requests库的更多相关文章

【转】使用Python的Requests库进行web接口测试
原文地址:使用Python的Requests库进行web接口测试 1.Requests简介 Requests 是使用 Apache2 Licensed 许可证的 HTTP 库.用 Python 编写, ...
Python爬虫—requests库get和post方法使用
目录 Python爬虫-requests库get和post方法使用 1. 安装requests库 2.requests.get()方法使用 3.requests.post()方法使用-构造formda ...
python中requests库使用方法详解
目录 python中requests库使用方法详解官方文档什么是Requests 安装Requests库基本的GET请求带参数的GET请求解析json 添加headers 基本POST请求 ...
解决python的requests库在使用过代理后出现拒绝连接的问题
在使用过代理后,调用python的requests库出现拒绝连接的异常问题在windows10环境下,在使用代理(VPN)后.如果在python中调用requests库来地址访问时,有时会出现这样 ...
python利用requests库模拟post请求时json的使用
我们都见识过requests库在静态网页的爬取上展现的威力,我们日常见得最多的为get和post请求,他们最大的区别在于安全性上: 1.GET是通过URL方式请求,可以直接看到,明文传输. 2.POS ...
python导入requests库一直报错原因总结（文件名与库名冲突）
花了好长时间一直在搞这个源代码: 一直报如下错误: 分析原因: 总以为没有导入requests库,一直在网上搜索各种的导入库方法(下载第三方的requests库,用各种命令工具安装),还是报错后来 ...
python爬虫---requests库的用法
requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多因为是第三方库,所以使用前需要cmd安装 pip install requests 安装完成后import一下 ...
Python爬虫---requests库快速上手
一.requests库简介 requests是Python的一个HTTP相关的库 requests安装: pip install requests 二.GET请求 import requests # ...
python 之Requests库学习笔记
1. Requests库安装 Windows平台安装说明: 直接以管理员身份打开cmd运行界面,使用pip管理工具进行requests库的安装. 具体安装命令如下: >pip instal ...
Python爬虫--Requests库
Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库,requests是python实现的最简单易用的HTTP库, ...

随机推荐

浅谈js的事件冒泡和事件捕获
本文地址:https://www.cnblogs.com/christineqing/p/7607113.html 前言: 这篇文章起源于上次工作上的原因,在事件上出的bug,所以就抽空写出一篇 ...
Es6编程风格
let 取代 var let 和 const 之间优先使用 const 字符串静态字符串一律使用单引号或反引号,不使用双引号动态字符串使用反引号 `` 解构赋值使用数组成员对变量赋值时,优先使用 ...
jmeter录制移动端脚本
jmeter录制脚本有两种方式,一种借助外部工具badbody,一种是本身的功能,使用代理服务器,介绍下如何使用代理服务器录制脚本.我一般在测app或者移动端H5页面时才会录制,所以此文也针对移动端. ...
python科学计算库-pandas
------------恢复内容开始------------ 1.基本概念在数据分析工作中,Pandas 的使用频率是很高的, 一方面是因为 Pandas 提供的基础数据结构 DataFrame 与 ...
使用Docker搭建HttpRunnerManager环境
建立一个HttpRunnerManager的环境需要Mysql,RabbitMQ服务,为简单部署,全部使用Docker 1. 在服务器建立Docker环境 2.建立Mysql容器 docker run ...
Azure EA (3) 使用Postman访问海外Azure Billing API
<Windows Azure Platform 系列文章目录> 本文介绍的是海外版的Azure Global服务,因为跨境内境外网络,访问速度会比较慢在开始使用Azure Billing ...
网易云信技术分享：IM中的万人群聊技术方案实践总结
本文来自网易云信团队的技术分享,原创发表于网易云信公众号,原文链接:mp.weixin.qq.com/s/LT2dASI7QVpcOVxDAsMeVg,收录时有改动. 1.引言在不了解IM技术的人眼 ...
redis命令之 ----String（字符串）
SET SET key value [EX seconds] [PX milliseconds] [NX|XX] 将字符串值 value 关联到 key . 如果 key 已经持有其他值, SET 就 ...
Neo4j 第十篇：更新数据
更新图包括图的节点和关系的创建.更新和删除,也能更新图的节点和关系的属性.节点标签和关系类型. 一,创建节点 1,创建空的节点 CREATE (n) CREATE (a),(b) 2,创建带标签的节点 ...
Tomcat put上传漏洞_CVE2017-12615( JSP Upload Bypass/Remote Code Execution)
CVE2017-12615漏洞复现( tomcat JSP Upload Bypass /Remote Code Execution) 一.漏洞原理在windows服务器下,将readonly参数设 ...

python的requests库

python的requests库的更多相关文章

随机推荐

热门专题