一、request入门

　　之前写过一个urllib的爬虫方法，这个库是python内建的，从那篇文章也可以看到，使用起来很繁琐。现在更流行的一个爬虫库就是requests，他是基于urllib3封装的，也就是将之前比较繁琐的步骤封装到一块，更适合人来使用。

　　该库中主要有7个方法：request() get() head() post() put() patch() delete() 他们的作用也就是他们的字面意思（例如：get获取网页信息，post提交信息等等），具体的可以自行查询。

　　下面先从最简单的使用开始，尽可能的用例子展示他都可以干什么。

 import requests

 r = requests.get("https://www.icourse163.org/home.htm?userId=1021614219#/home/course")  # get方法，从网页上获取信息

 r.status_code  # http请求的返回状态，为200时表示正常访问

 print(r.encoding)  # 从HTTPheader中猜测的响应内容编码方式

 print(r.apparent_encoding)  # 从内容分析出响应内容编码方式（备选编码方式）

　　上面使用get方法就已经得到了网页信息，返回值时200。r字母代表着response，也就是访问网页的响应。网页内的信息可能会有汉字等等，为了方便以后使用，在开始就先说明一下这个，encoding和apparent_encoding在上面解释了，最后是为了使用一个可以把网页正确解析的编码格式。

　　一般来说，可以使用r.encoding = 'utf-8'或者r.encoding = r.apparent_encoding。

 # 已经访问到了网页，那么就要看一下提取到的内容

 r.text  # http响应内容的字符串形式，url对应的页面内容

 r.headers  # 返回响应的头部信息

 r.content  # http响应内容的二进制形式

 r.json  # 返回json格式，需要提前导入json包

　　其中二进制格式，可以方便的存储一些图片格式等等的数据，例如需要下载一个照片，可以使用‘wb’格式写到文件当中，当然也可以直接使用库中的方法。

二、异常处理

　　在我们爬取一些网页的时候，经常会遇到一系列的问题，访问不到页面，禁止访问之类的，或者一些自身代码的一些问题。如果代码量很多，或者具体一点，比如正在从网站爬取一些照片。当跑到其中一张图片时没有正常的访问到，那么整个程序就卡在这里了。后续的照片也就无法爬取了。这当然不是我们想要的，因此就需要一些对异常的处理，让他出现异常时，继续执行后续的程序。异常捕获在python的基础里面已经有了，就是用那个在这里应用一下。

 import requests

 from requests.exceptions import ReadTimeout, ConnectionError, RequestException

 try:

     response = requests.get("http://httpbin.org/get", timeout = 0.5)

     print(response.status_code)

 except ReadTimeout:

     print('Timeout')

 except ConnectionError:

     print('Connection error')

 except RequestException:

     print('Error')

　　如果是刚接触的人可能看到这么多长串的字符有些记不清，其实也可以先不去管他是什么样的异常，只要是异常就反馈回来。

　　response.raise_for_status() 这个方法可以捕获异常，使得出现异常时就会跳到except中执行，而不影响整体进程。下面是一个通用的格式来捕获异常。

 import requests

 def getHtmlText(url):

     try:

         r = requests.get(url)

         r.raise_for_status()  # 如果状态不是200，引发HTTPError异常

         r.encoding = r.apparent_encoding  # 不论headers中是否要求编码格式，都从内容中找到实际编码格式，确保顺利解码

         return r.text

     except:

         return '产生异常'

 if __name__ == "__main__":

     url = "http://baidu.com"

     print(getHtmlText(url))

三、插一个小栗子

　　爬取京东上面商品的页面。理一下思路：

　　首先要导入网络请求的包（requests）-->通过get方法访问网页-->捕获一下异常看看是否正常访问到页面-->如果返回200，确定编码格式-->通过response.text查看一下得到的内容是不是想要的。

 import requests

 url = "https://item.jd.com/8578888.html"

 try:

     r = requests.get(url)

     r.raise_for_status()

     r.encoding = r.apparent_encoding

     print(r.text[:500])  # 由于网页内容比较多，[:500] 表示只看其从0到500个字节的内容

 except:

     print("爬取失败")

四、模拟浏览器

　　上面访问的网站并没有什么防护，但是现在越来越多的网站都是有各种各样的反爬虫机制，其中一种简单的方法就是通过发送请求时头文件中的内容来判断。通过response.headers可以找到访问时候的User-Agent为requests，也就是告诉网站是通过爬虫来访问的。这么明显，当然有些网站会阻止访问。这时候有一个办法，就是用一个浏览器来模拟一下，替换掉User-Agent中的内容。网上搜会有很多，或者直接从你电脑上的浏览器中检查，来查看你的浏览器在访问网页时显示的User-Agent是什么样的。

　　通过headers，传入一个字典，例如：{"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60"}

　　其实，如果还不放心的话，可以搜一些User-Agent，每次通过随机抽取其中的一个来访问网页，来避免被网站发现。

　　下面套用上面给出的框架来写这个爬虫：

 # 模拟浏览器爬取信息

 import requests

 url = "https://www.amazon.cn/dp/B074BNFY1H/ref=cngwdyfloorv2_recs_0?pf_rd_p=d0690322-dfc8-4e93-ac2c-8e2eeacbc49e&pf_rd_s=desktop-2&pf_rd_t=36701&pf_rd_i=desktop&pf_rd_m=A1AJ19PSB66TGU&pf_rd_r=2JDNVB7YD5ZF07YQSRQ6&pf_rd_r=2JDNVB7YD5ZF07YQSRQ6&pf_rd_p=d0690322-dfc8-4e93-ac2c-8e2eeacbc49e"

 try:

     headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60"}

     r = requests.get(url, headers = headers)

     print(r.request.headers) # 起初发现503错误，因为亚马逊会限制爬虫，当使用爬虫时，会在头部显示request代理。因此用一个新的user-agent代替原来的

     r.raise_for_status()

     r.encoding = r.apparent_encoding

     print(r.text[:500])

 except:

     print("爬取失败")

五、超时设置

 # 当访问长时间未响应时就不再等待，因为毕竟爬虫时为了提高效率

 import requests

 from requests.exceptions import ReadTimeout

 try:

     response = requests.get("http://httpbin.org/get", timeout = 0.5)

     response.raise_for_status()

 except:

     print('Timeout')

六、IP代理

 # 在访问网站时有可能你没有遵守该robots协议，面临被封IP的风险，这样该IP就不能再访问了，大概过段时间才把你从黑名单中拿出来，这时候就用到了IP代理，这个大概介绍一下，因为本人也是初学，能力有限

 import requests

 proxies = {

   "http": "***************" }

 response = requests.get("https://www.taobao.com", proxies=proxies)

 print(response.status_code)

七、cookie

　　这是浏览器缓存，就是我们在之前访问过该网站后，后留下一下脚印，例如之前请求到的一些信息，或者提交，比如需要登录的网站，短时间内再次进入时候不需要再次输入账户密码。因此http请求要从很远的服务器中拉取你要的信息，当然效率不会很高，所以，他就会在本地的浏览器中暂且保留一段时间的信息，这段时间内登录就是从本地来得到网页响应，也会相对快一些。

　　在爬虫的时候，尤其是需要登录才能访问的页面，为了让他可以自动化的一直爬取信息，就可以预先找到登录后在该网页留下的脚印，来放到你的爬虫里，让其自动登录爬取。

 import requests

 response = requests.get("https://www.baidu.com")

 print(response.cookies)  # 可以直接调用方法得到当前访问页面时的cookie

　　在需要登录的网页时，我们需要同时请求多个端口来实现，可以用到requests.session()，看一个例子体会一下。

 import requests

 s = requests.Session()

 s.get('http://httpbin.org/cookies/set/****/*****')

 response = s.get('http://httpbin.org/cookies')  # 在访问页面的同时打开之前的cookie请求。如果使用requests的get方法的话，你会发现，第一次请求之后，第二次的get是开启的一个新的请求，而不是针对同一个对象，因此不能实现

 print(response.text)

　　这点东西并没有讲清楚，待我再好好学一下再解释。

Requests爬虫的更多相关文章

requests 爬虫
爬虫常用爬虫爬取网页,但如果一直爬取会被ban掉,因此需要对爬虫进行一些改进反反爬使用requests和beautifulsoup4构建爬虫,1.随机user-agent:2.ip代理:4.coo ...
一:requests爬虫基础
一,什么是爬虫? 描述: 本质是一个自动化程序,一个模拟浏览器向某一个服务器发送请求获取响应资源的过程. 爬虫的基本流程 robots.txt协议编写一个robots.txt的协议文件来约束爬虫程序 ...
python +requests 爬虫-爬取图片并进行下载到本地
因为写12306抢票脚本需要用到爬虫技术下载验证码并进行定位点击所以这章主要讲解,爬虫,从网页上爬取图片并进行下载到本地爬虫实现方式: 1.首先选取你需要的抓取的URL:2.将这些URL放入待抓 ...
python 跨语言数据交互、json、pickle(序列化)、urllib、requests(爬虫模块)、XML。
Python中用于序列化的两个模块 json 用于[字符串]和 [python基本数据类型] 间进行转换 pickle 用于[python特有的类型] 和 [python基本数据类型]间进 ...
requests爬虫get请求
1.简单get请求 url = 'https://www.baidu.com' headers = { 'accept': 'text/html,application/xhtml+xml,appli ...
爬虫入门系列（三）：用 requests 构建知乎 API
爬虫入门系列目录: 爬虫入门系列(一):快速理解HTTP协议爬虫入门系列(二):优雅的HTTP库requests 爬虫入门系列(三):用 requests 构建知乎 API 在爬虫系列文章优雅的H ...
Python简单爬虫Requests
首先添加库附配环境变量:安装环境变量 cmd==> 输入指令: path=%path%;C:\Python(Python安装路径) 回车 python2.7版本可能没有pip的话可以先到www ...
爬虫框架 Scrapy
一介绍 crapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的用途十分广泛,可用 ...
爬虫模块介绍--request（发送请求模块）
爬虫:可见即可爬 # 每个网站都有爬虫协议基础爬虫需要使用到的三个模块 requests 模块 # 模拟发请求的模块 PS:python原来有两个模块urllib和urllib的升级urlli ...

随机推荐

(后端)Sql Server日期查询-SQL查询今天、昨天、7天内、30天(转)
今天的所有数据: 昨天的所有数据: 7天内的所有数据: 30天内的所有数据: 本月的所有数据: 本年的所有数据: 查询今天是今年的第几天: select datepart(dayofyear,getD ...
linux源
系统:centos7 x86_64 一.配置本地yum源 1.1加载光驱 1.2挂载到系统注:如果要长期使用最好把整个镜像文件拷贝到系统下 1.3配置文件路径/etc/yum.repos.d/ 打 ...
shell的case用法
今天给大家简单介绍一下结构条件语句的用法,实际上就是规范的多分支if语句,如下: case语法: case "字符串变量" in 值1)指令1... ;; 值2)指令2... ;; ...
[Hive_add_5] Hive 的 join 操作
0. 说明在 Hive 中进行 join 操作 1. 操作步骤 1.0 建表在 hiveserver2 服务启动的前提下,在 Beeline客户端中输入以下命令 # 新建顾客表 create ta ...
IT部门不应该是一个后勤部门
管理上最大的问题在于不重视预算与核算的管理.从管理层到员工,很少有经营的念头,只是一味地埋头做事.西方企业总结了当今几百年的经营理念,最终把企业一切活动的评价都归结到唯一的.可度量的标准上:钱来度量. ...
linux下last与lastb命令详解
在linux系统中,last与lastb命令用来列出目前与过去登录系统的用户相关信息.指令英文原义: last, lastb - show listing of last logged in user ...
获取当前页面的URL信息
以前在做网站的时候,经常会遇到当前页的分类高亮显示,以便让用户了解当前处于哪个页面.之前一直是在每个不同页面写方法.工程量大,也不便于修改.一直在想有什么简便的方法实现.后来在网上查到可以用获取当前U ...
js模块化规范—AMD规范
AMD规范说明 AMD全称是:Asynchronous Module Definition(异步模块定义),github地址是专门用于浏览器端, 模块的加载是异步的 AMD规范基本语法定义暴露模块 ...
【vue】使用el-table时，实现批量选中效果
简单demo ①页面: <template> <el-table ref="multipleTable" :data="tableData3" ...
MemCache在.NET中使用Memcached.ClientLibrary详解转发 https://www.cnblogs.com/li150dan/p/9529112.html
本文说明:memcached分布式缓存的负载均衡配置比例,数据压缩,socket的详细配置等,以及在.net中的常用方法首先下载客户端的3个dll,ICSharpCode.SharpZipLib.d ...

Requests爬虫