Python爬虫：HTTP协议、Requests库

HTTP协议：

HTTP（Hypertext Transfer Protocol）：即超文本传输协议。URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源。

HTTP协议对资源的操作：

Requests库提供了HTTP所有的基本请求方式。官方介绍：http://www.python-requests.org/en/master

Requests库的6个主要方法：

Requests库的异常：

Requests库的两个重要对象：Request（请求）、Response（相应）。Request对象支持多种请求方法；Response对象包含服务器返回的所有信息，也包含请求的Request信息。

Response对象的属性：

其中，r.encoding指：如果header中不存在charset，则认为编码为ISO‐8859‐1。

r.raise_for_status()可以直接知道r.status_code是否等于200。

HTTP协议与Requests库对比：

爬取网页的通用代码框架：

try:     r = requests.get(url,timeout = 30)     r.raise_for_status()     # 如果状态不是200，引发HTTPError异常     r.encoding = r.apparent_encoding     return r.text except:     return '产生异常'

例如，获取PMCAFF首页的信息：

'     print(getHtmlText(url))

（

巨弘娱乐 juhongyulept.com
新贝娱乐 xinbeiyuLe.cn
吉美娱乐 jimeiyulept.com
无极娱乐 wujiyule88.cn
七彩娱乐 qicaiyulept.cn

Python爬虫：HTTP协议、Requests库的更多相关文章

python爬虫之一：requests库
目录安装requtests requests库的连接异常 HTTP协议 HTTP协议对资源的操作 requests库的7个主要方法 request方法 get方法网络爬虫引发的问题 robots协 ...
PYTHON 爬虫笔记三:Requests库的基本使用
知识点一:Requests的详解及其基本使用方法什么是requests库 Requests库是用Python编写的,基于urllib,采用Apache2 Licensed开源协议的HTTP库,相比u ...
Python爬虫的开始——requests库建立请求
接下来我将会用一段时间来更新python爬虫网络爬虫大体可以分为三个步骤. 首先建立请求,爬取所需元素: 其次解析爬取信息,剔除无效数据: 最后将爬取信息进行保存: 今天就先来讲讲第一步,请求库re ...
芝麻HTTP： Python爬虫利器之Requests库的用法
前言之前我们用了 urllib 库,这个作为入门的工具还是不错的,对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助.入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取.那么这一节来 ...
python爬虫#网络请求requests库
中文文档 http://docs.python-requests.org/zh_CN/latest/user/quickstart.html requests库虽然Python的标准库中 urlli ...
【python爬虫】用requests库模拟登陆人人网
说明:以前是selenium登陆取cookie的方法比较复杂,改用这个 """ 用requests库模拟登陆人人网 """ import r ...
网络爬虫入门：你的第一个爬虫项目（requests库）
0.采用requests库虽然urllib库应用也很广泛,而且作为Python自带的库无需安装,但是大部分的现在python爬虫都应用requests库来处理复杂的http请求.requests库语 ...
Python爬虫--- 1.1请求库的安装与使用
来说先说爬虫的原理:爬虫本质上是模拟人浏览信息的过程,只不过他通过计算机来达到快速抓取筛选信息的目的所以我们想要写一个爬虫,最基本的就是要将我们需要抓取信息的网页原原本本的抓取下来.这个时候就要用到请 ...
Python爬虫入门——使用requests爬取python岗位招聘数据
爬虫目的使用requests库和BeautifulSoup4库来爬取拉勾网Python相关岗位数据爬虫工具使用Requests库发送http请求,然后用BeautifulSoup库解析HTML文 ...
Python使用urllib,urllib3,requests库+beautifulsoup爬取网页
Python使用urllib/urllib3/requests库+beautifulsoup爬取网页 urllib urllib3 requests 笔者在爬取时遇到的问题 1.结果不全 2.'抓取失 ...

随机推荐

Luogu4528 CTSC2008 图腾树状数组、容斥
传送门设$f_i$表示$i$排列的数量,其中$x$表示不确定那么$$ans=f_{1324}-f_{1432}-f_{1243}=(f_{1x2x}-f_{1423})-(f_{14xx}-f_{ ...
java内存模型与volatile变量与Atomic的compareAndSet
java分主内存和工作内存, 主内存是线程共享的, 工作内存是每个线程独有的. java对主内存的操作是通过工作内存间接完成的: 先拷贝主内存变量值到工作内存, 在工作内存操作这个变量的副本, 完成后 ...
WordPress更新提示无法创建目录的解决方案
上一篇我们说到无法连接FTP服务器,我们已经完美的解决了,然后...发现...还是无法更新,啥情况??? 提示为无法创建目录原因是执行更新程序的是www用户, 解决方案如下: 需要把插件或主程序下载 ...
ACM-ICPC 2017 Asia Urumqi：A. Coins（DP）
挺不错的概率DP,看似基础,实则很考验扎实的功底这题很明显是个DP,为什么???找规律或者算组合数这种概率,N不可能给的这么友善... 因为DP一般都要在支持N^2操作嘛. 稍微理解一下,这DP[i ...
LINUX内核分析第八周总结：进程的切换和系统的一般执行过程
一.进程调度与进程切换 1.不同的进程有不同的调度需求第一种分类: I/O密集型(I/O-bound) 频繁的进行I/O 通常会花费很多时间等待I/O操作的完成 CPU密集型(CPU-bound) ...
2丶利用NABCD模型进行竞争性需求分析
确定项目:公交查询系统分析小组:在路上选择比努力更重要.一个项目成功自然离不开组员们的努力.但是,光努力是不够的.还需要用户有需求,能快速实现. 这些东西,看似很虚,却能让我们少走不少弯路.做项目 ...
男神女神配——alpha阶段总结
一.需求分析虽然公共社交网络系统能够满足大多数高校校园用户在校园网络社交的需求,但是针对校园学习.工作和文化生活等方面的支持以及学校个性化需求方面却存在不足.利用电子校务平台的数据,设计了与真实校园 ...
javac编译提示错误需要为 class、interface 或 enum
HelloWorld.java:1: 需要为 class.interface 或 enum锘缝ublic class HelloWorld{^1 错误这个错误出现的原因主要是在中文操作系统中,使用一 ...
构建之法--初识Git
该作业来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2103 GitHub地址:https://github.com/GVic ...
Distances to Zero CodeForces - 803B （二分）
题目链接:https://vjudge.net/problem/CodeForces-803B#author=0 题意: 给你一个数组,其中至少包括一个0,求每一个元素距离最近一个0的距离是多少. 样 ...

Python爬虫：HTTP协议、Requests库

Python爬虫：HTTP协议、Requests库的更多相关文章

随机推荐

热门专题