（爬虫）requests库

一、requests库简介

　　urllib库和request库的作用一样，都是服务器发起请求数据，但是requests库比urllib库用起来更方便，它的接口更简单，选用哪种库看自己。

　　如果没有安装过这个库，需要先 pip install requests 安装。

二、requests库的基本用法

1、发送GET请求

　　通过get方法去请求百度页面：

 import requests

 resp = requests.get('http://www.baidu.com/')

 # text是requests库以自己猜测的解码方式去解码，所以可能会出现乱码的问题

 print(resp.text)

 # content返回的bytes的数据，所以可以根据自己指定的解码方式去解码就不会出现问题

 print(resp.content.decode('utf-8'))

 # url获取当前请求的url

 print(resp.url)

 # encoding获取当前页面的编码方式

 print(resp.encoding)

 # status_code获取当前的状态码

 print(resp.status_code)

　　那么如何添加请求参数和headers请求头信息呢，requests库现在就比urllib库好用简单了，urllib库还需要手动对请求的参数进行编码才能去请求，而requests库则将这个步骤在底层进行封装了，只需要将参数传递进去即可，如下：

 import requests

 url = 'http://www.baidu.com/s'

 headers = {

         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36'

     }

 params = {

     'wd': '林俊杰'

 }

 resp = requests.get(url, params=params, headers=headers)

 print(resp.url)

 with open('baidu.html', 'w', encoding='utf-8') as f:

     f.write(resp.content.decode('utf-8'))

2、发送POST请求

　　我们以拉钩网为例，去爬取拉勾网的职位信息：

 import requests

 url = 'https://www.lagou.com/jobs/positionAjax.json?city=%E5%8C%97%E4%BA%AC&needAddtionalResult=false'

 headers = {

     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36',

     'Referer': 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput='

     }

 data = {

     'first': 'true',

     'pn': 1,

     'kd': 'python'

 }

 resp = requests.post(url, data=data, headers=headers)

 print(resp.json())

3、使用代理

　　requests库使用代理就非常简单了，只需要在请求的方法（get、post）中添加proxies参数即可：

 import requests

 proxy = {

     'http': '115.218.216.251:9000'

 }

 resp = requests.get(url='http://www.httpbin.org/ip', proxies=proxy)

 print(resp.text)

4、cookie模拟登陆

　　我们可以通过cookie获取到cookie信息：

 import requests

 resp = requests.get('http://www.baidu.com/')

 # cookie 返回cookie对象

 print(resp.cookies)

 # get_dict 将cookie信息以字典的形式返回

 print(resp.cookies.get_dict())

　　urllib库可以使用opener发送多个请求，并且多个请求之间是共享cookie的，requests库也要达到共享cookie的目的，我们可以使用requests库提供的session对象，这里的session不是web中的那个session，这里只是一个会话的对象而已，下面以登录人人网为例，来使用cookie来登录：

 import requests

 login_url = 'http://www.renren.com/PLogin.do'

 dapeng_url = 'http://www.renren.com/880151247/profile'

 headers = {

     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36',

 }

 data = {

     'email': '',

     'password': 'xxxxx'

 }

 session = requests.Session()

 session.post(url=login_url, data=data, headers=headers)

 resp = session.get(url=dapeng_url, headers=headers)

 with open('renren.html', 'w', encoding='utf-8') as f:

     f.write(resp.content.decode('utf-8'))