5.爬虫 requests库讲解高级用法

0.文件上传

import requests

files = {'file': open('favicon.ico', 'rb')}

response = requests.post("http://httpbin.org/post", files=files)

print(response.text)

1.获取cookies

import requests

response = requests.get("https://www.baidu.com")

print(response.cookies)

for key, value in response.cookies.items():

    print(key + '=' + value)

2.会话维持

import requests

requests.get('http://httpbin.org/cookies/set/number/123456789')

response = requests.get('http://httpbin.org/cookies')

print(response.text)

*可以通过http://httpbin.org/cookies/set/number/123456789对这个网址设置个cookies

输出结果如下：

{

  "cookies": {}

}

为空？！因为两次get请求，实际上相当于你用两个浏览器打开了不同的网页。用Session()方法试试？

import requests

s = requests.Session()

s.get('http://httpbin.org/cookies/set/number/123456789')

response = s.get('http://httpbin.org/cookies')

print(response.text)

输出结果如下：

{

  "cookies": {

    "number": "123456789"

  }

}

* 用Session()我们实现了维持会话登陆模拟登陆(即用于模拟在一个浏览器中打开同一站点的不同页面)

3.证书验证

import requests

response = requests.get('https://www.12306.cn')

print(response.status_code)

# 提示出现SSLError表示证书验证错误

#######################

#去除警告

import requests

from requests.packages import urllib3

urllib3.disable_warnings()

response = requests.get('https://www.12306.cn', verify=False)

print(response.status_code)

#######################

#指定一个本地证书用作客户端证书

import requests

response = requests.get('https://www.12306.cn', cert=('/path/server.crt', '/path/key'))

print(respo
nse.status_code)

4.代理设置

#无密码的

import requests

proxies = {

  "http": "http://127.0.0.1:9743",

  "https": "https://127.0.0.1:9743",

}

response = requests.get("https://www.taobao.com", proxies=proxies)

print(response.status_code)

##############################

#有密码的

import requests

proxies = {

    "http": "http://user:password@127.0.0.1:9743/",

}

response = requests.get("https://www.taobao.com", proxies=proxies)

print(response.status_code)

##############################

#代理不支持http，支持sockes

#pip3 install 'requests[socks]'

import requests

proxies = {

    'http': 'socks5://127.0.0.1:9742',

    'https': 'socks5://127.0.0.1:9742'

}

response = requests.get("https://www.taobao.com", proxies=proxies)

print(response.status_code)

5.超时设置

import requests

from requests.exceptions import ReadTimeout

try:

    response = requests.get("http://httpbin.org/get", timeout = 0.5)

    print(response.status_code)

except ReadTimeout:

    print('Timeout')

*timeout = （5，30） 5是连接超时时间 30是读取超时时间

*timeout = 35 35是连接和读取两者之和

*timeout = None 或者我不设置代表永久等待

6.认证设置

import requests

from requests.auth import HTTPBasicAuth

r = requests.get('http://120.27.34.24:9001', auth=HTTPBasicAuth('user', ''))
#还可以像下面这样写 简单些(默认使用HTTPBasicAuth这个类来认证 当然这个网址访问不了的)
#r = requests.get('http://120.27.34.24:9001', auth=('user', '123'))

print(r.status_code)

7.异常处理

import requests

from requests import ReadTimeout, ConnectionError, RequestException

try:

    response = requests.get("http://httpbin.org/get", timeout = 0.5)

    print(response.status_code)

except ReadTimeout:

    print('Timeout')

except ConnectionError:

    print('Connection error')

except RequestException:

    print('Error')

*可以去requests库的官方文档，找到API，再看里面的异常！！

8.Prepared Request

*在urllib里，可以将请求表示为数据结构，其余各个参数都可以通过一个Request对象来表示.

*在requests里，用Prepared Request同样可以做到！

from requests import Request,Session

url = "..."

data = {'...':'...'}

headers = {'User-Agent':'...'}

s = Session()

req = Request('POST',url,data = data,headers = headers)

prepped = s.prepare_request(req)

r = s.send(prepped)

print(r.text)

*在这里，我们引入Request，然后用url、data、headers参数构造了一个Requests对象，这时候调用Session的prepare_request()方法将其转换为一个Prepared Request对象，然后再调用send方法发送即可。

*有了这个Requests对象，就可以将请求当作独立的对象来看待，这样在进行队列调度时会非常方便。

5.爬虫 requests库讲解高级用法的更多相关文章

Python爬虫Urllib库的高级用法
Python爬虫Urllib库的高级用法设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Head ...
Python中第三方库Requests库的高级用法详解
Python中第三方库Requests库的高级用法详解虽然Python的标准库中urllib2模块已经包含了平常我们使用的大多数功能,但是它的API使用起来让人实在感觉不好.它已经不适合现在的时代, ...
爬虫requests库的基本用法
需要注意的几个点: 1.后面的s是一个虚拟目录 2.url后面不用加问号,发起请求的时候会自动帮你加上问号 get_url = 'http://www.baidu.com/s' 3. url的特性:u ...
4.爬虫 requests库讲解 GET请求 POST请求响应
requests库相比于urllib库更好用!!! 0.各种请求方式 import requests requests.post('http://httpbin.org/post') requests ...
6.爬虫 requests库讲解总结
requests库的总结: 用ProcessOn根据前面的几节内容做了个思维导图:
Python爬虫 Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
Python爬虫入门之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
Python爬虫入门四之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
转 Python爬虫入门四之Urllib库的高级用法
静觅 » Python爬虫入门四之Urllib库的高级用法 1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我 ...

随机推荐

Failed to resolve: com.android.support:appcompat-v7:23.*
打开 sdk manager ,安装 android support repository.
notepad++括号自动补全插件: XBracket Lite
1.4.5.1. 通过XBracket Lite实现括号的自动补全先去打开相应的设置: 再根据自己的需要去设置: 其中解释一下相应的选项的含义: Treat'' as brackets 把单引号', ...
grunt_beginner
前端集成解决方案:一套包含框架和工具,便于开发者快速构建美丽实用的web应用程序的工作流,同时这套工作流必须是稳健强壮的. Yeman Bower web包管理器框架.库.公共部分 Grunt ...
Mvc5 表单和HTML辅助方法
①表单的使用在WebFrom里面你创建一个页面,页面上就会出<from></from>. 1,action和method属性 action表示目的,method表示表单传值方 ...
JavaScript创建对象的三种方法
在 JavaScript 中我们知道无法通过类来创建对象,那么如何创建对象呢? (1)通过“字面量”方式创建对象将你的信息写到{ }中,并赋值给一个变量,此时这个变量就是一个对象,例: var ga ...
Openresty最佳案例 | 第6篇：OpenResty连接Mysql
转载请标明出处: http://blog.csdn.net/forezp/article/details/78616698 本文出自方志朋的博客 centos 安装mysl Centos系统下安装my ...
菜鸟崛起 DB Chapter 1 数据库概述
1. 数据库的概述在目前阶段,如果要存储和管理数据,则离不开数据库.当数据存储到数据库后,就会通过数据库管理系统对这些数据进行组织和管理.数据库由一批数据构成有序的集合,这些数据被存放在结构化的数据 ...
C++中vector，set，map自定义排序
一.vector排序 vector支持cmp,就类似数组,可以直接sort. #include <iostream> #include <algorithm> #include ...
【shell脚本学习-4】
文本处理 #!/bin/bash#----------文本处理---------- #---------------echo----------------- # "-n":处理光 ...
使用Jcrop-canvas画布-制作前端图像裁剪
写在前面 –公司有这个需求,安排调查 –目前各大网站都是采用的-前端做裁剪返回坐标-由后端来做到裁剪 –而使用html-canvas画布可以直接前端裁剪并返回base64流-ajax可以直接下载保存 ...

5.爬虫 requests库讲解 高级用法

5.爬虫 requests库讲解 高级用法的更多相关文章

随机推荐

热门专题

5.爬虫 requests库讲解高级用法

5.爬虫 requests库讲解高级用法的更多相关文章