requests库的使用
- requests库的使用
pip快速安装
pip install requests
请求方法
每一个请求方法都有一个对应的API,比如GET请求就可以使用get()方法:
import requests
# 发送请求
res = requests.get('https://www.baidu.com/')
# encoding设置编码
res.encoding ='utf-8'
# text 接收返回内容
print(res.text)
而POST请求就可以使用post()方法,并且将需要提交的数据传递给data参数即可:
import requests
# 发送请求
res = requests.post('http://www.httpbin.org/post',data={'username':'q123','password':123})
# encoding设置编码
res.encoding ='utf-8'
# text 接收返回内容
print(res.text)
传递URL参数
传递URL参数也不用再像urllib中那样需要去拼接URL,而是简单的,构造一个字典,并在请求时将其传递给params参数:
import requests
# 设置参数
params = {'kay1':32324242, 'kay2':'fwewefewf232'}
# url拼接
res = requests.get(url='http://httpbin.org/get',params=params)
# 打印url
print(res.url)
自定义Headers
如果想自定义请求的Headers,同样的将字典数据传递给headers参数
import requests
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36'} res = requests.get(url='https://www.baidu.com/', headers=headers)
print(res.headers)
自定义Cookies
Requests中自定义Cookies也不用再去构造CookieJar对象,直接将字典递给cookies参数。
import requests
cookies = {'cookies_are':'working'}
res = requests.get(url='http://httpbin.org/cookies', cookies=cookies)
print(res.text)
设置代理(proxite)
当我们需要使用代理时,同样构造代理字典,传递给proxies参数。
import requests
proxite = {
'http':'http://172.0.0.1:3128',
'https':'http://172.0.0.1:3128'
}
requests.get('https://www.baidu.com/',proxite=proxite)
重定向(allow_redirects)
在网络请求中,我们常常会遇到状态码是3开头的重定向问题,在Requests中是默认开启允许重定向的,即遇到重定向时,会自动继续访问。
import requests
# 重定向(False=关闭重定向,True=开户重定向)
requests.get('https://www.baidu.com/', allow_redirects=False)
禁止证书验证(verify)
有时候我们使用了抓包工具,这个时候由于抓包工具提供的证书并不是由受信任的数字证书颁发机构颁发的,所以证书的验证会失败,所以我们就需要关闭证书验证。 在请求的时候把verify参数设置为False就可以关闭证书验证了。
import requests
# 证书验证(False=关闭验证,True=开户验证)
requests.get('https://www.baidu.com/', verify=False)
设置超时(timeout)
设置访问超时,设置timeout参数即可。
import requests
# 设置超时
requests.get('https://www.baidu.com/', timeout=0.1)
- 接收响应
响应内容(text)
通过Requests发起请求获取到的,是一个requests.models.Response对象。通过这个对象我们可以很方便的获取响应的内容。
之前通过urllib获取的响应,读取的内容都是bytes的二进制格式,需要我们自己去将结果decode()一次转换成字符串数据。
而Requests通过text属性,就可以获得字符串格式的响应内容。
import requests
# 接收响应内容
res = requests.get('https://www.baidu.com/')
print(res.text)
字符编码(encoding)
Requests会自动的根据响应的报头来猜测网页的编码是什么,然后根据猜测的编码来解码网页内容,基本上大部分的网页都能够正确的被解码。而如果发现text解码不正确的时候,就需要我们自己手动的去指定解码的编码格式。
import requests
# 字符编码
res = requests.get('https://www.baidu.com/')
res.encoding = 'utf-8'
print(res.text)
二进制数据(content)
而如果你需要获得原始的二进制数据,那么使用content属性即可。
import requests
# 二进制数据
res = requests.get('https://www.baidu.com/')
print(res.content)
json数据(json)
如果我们访问之后获得的数据是JSON格式的,那么我们可以使用json()方法,直接获取转换成字典格式的数据。
import requests res = requests.get('https://api.github.com/events')
# 转换为json数据
res.json()
print(res.text)
状态码(status_code)
通过status_code属性获取响应的状态码
import requests
res = requests.get('https://api.github.com/events')
print(res.status_code)
响应报头(headers)
通过headers属性获取响应的报头
import requests
res = requests.get('https://api.github.com/events')
print(res.headers)
服务器返回的cookies(cookies)
通过cookies属性获取服务器返回的cookies
import requests
res = requests.get('https://api.github.com/events')
print(res.cookies)
url
还可以使用url属性查看访问的url。
import requests
res = requests.get('https://api.github.com/events')
print(res.url)
- Session对象
在Requests中,实现了Session(会话)功能,当我们使用Session时,能够像浏览器一样,在没有关闭关闭浏览器时,能够保持住访问的状态。 这个功能常常被我们用于登陆之后的数据获取,使我们不用再一次又一次的传递cookies。
首先我们需要去生成一个Session对象,然后用这个Session对象来发起访问,发起访问的方法与正常的请求是一摸一样的。 同时,需要注意的是,如果是我们在get()方法中传入headers和cookies等数据,那么这些数据只在当前这一次请求中有效。如果你想要让一个headers在Session的整个生命周期内都有效的话,需要用以下的方式来进行设置:
import requests
# 发送请求
res = requests.get('https://api.github.com/events')
# 创建session实例
session = requests.Session()
# 用session发送请求
resp = session.get('https://api.github.com/events')
print(resp.text)
- 爬虫例子
爬取铃声:
import requests
from lxml import etree
# 用户输入要爬取的页码
load =input('请输入您需要下载的页码:')
# 发送请求并以二进制读取数据
mp3_url =requests.get('http://ring.itools.cn/index.php?m=applist&gid=zuire&page=%s'%load).content.decode()
# 解析下载的数据(转换为html)
html = etree.HTML(mp3_url)
# 用xpath获得铃声的链接
html_data = mp3_url.xpath('//div/a/@lurl')
# 循环取列表中的链接
for url in html_data:
# 发送铃声的链接以二是制获取铃声的内容
url_go = requests.get(url).content
# 分割链接,用以命名
name = url.split('/')[-1]
# 打开文件
with open('mp3/%s'%name,'wb') as f:
f.write(url_go)
print('下载完成:',name) print('已经全部下载完成')
豆瓣登录案例:
import requests
# 登录页面
img_url='https://accounts.douban.com/j/mobile/login/basic'
# 添加请求头
headers ={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36',
}
# 发送登录信息,登录信息在浏览器F12中查找或在抓包工具中获得
data ={
'ck': '5oo_',
'name': '1598959****',
'password': 'q12322333',
'remember': 'false'
}
# 发送登录信息到服务器
imges=requests.post(img_url,data=data,verify=False,headers=headers)
# 接收服务器返回的cookies
cookies =imges.cookies
# 发送请求
idex =requests.get('https://www.douban.com/',headers=headers,cookies=cookies)
print(idex.text)
糗事百科信息提取案例:
import re
import requests
# 用户输入采集页面
page = input('输入收集的页面:')
# 设置请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36',
'Referer': 'https://www.qiushibaike.com/hot/page/1/'
}
# 发送请求并读取返回的内容
res =requests.get('https://www.qiushibaike.com/hot/page/%s/'%page,headers=headers,verify=False).text
# 用re模块提取想要的信息
user = re.findall(r"id='qiushi_tag_1(.*?)'>",res,re.S)
# 拼接链接
url =['https://www.qiushibaike.com/article/'+url for url in user]
for i in url:
# 发送请求
user_url =requests.get(i,headers=headers).text
# 用re模块提取想要的信息
name= re.findall(r'<h1 class="article-title">\n(.*?)的糗事:',user_url,re.S)[0]
tim = re.findall(r'<span class="stats-time">\n(.*?)\n</span>',user_url,re.S)[0]
content =re.findall(r'<div class="content">(.*?)</div>',user_url,re.S)[0]
print('用户:',name.strip())
print('发布时间:',tim)
print(content,'\n')
3
requests库的使用的更多相关文章
- Python爬虫小白入门(二)requests库
一.前言 为什么要先说Requests库呢,因为这是个功能很强大的网络请求库,可以实现跟浏览器一样发送各种HTTP请求来获取网站的数据.网络上的模块.库.包指的都是同一种东西,所以后文中可能会在不同地 ...
- Requests库上传文件时UnicodeDecodeError: 'ascii' codec can't decode byte错误解析
在使用Request上传文件的时候碰到如下错误提示: 2013-12-20 20:51:09,235 __main__ ERROR 'ascii' codec can't decode byte 0x ...
- Requests库的几种请求 - 通过API操作Github
本文内容来源:https://www.dataquest.io/mission/117/working-with-apis 本文的数据来源:https://en.wikipedia.org/wiki/ ...
- python脚本实例002- 利用requests库实现应用登录
#! /usr/bin/python # coding:utf-8 #导入requests库 import requests #获取会话 s = requests.session() #创建登录数据 ...
- 大概看了一天python request源码。写下python requests库发送 get,post请求大概过程。
python requests库发送请求时,比如get请求,大概过程. 一.发起get请求过程:调用requests.get(url,**kwargs)-->request('get', url ...
- python WEB接口自动化测试之requests库详解
由于web接口自动化测试需要用到python的第三方库--requests库,运用requests库可以模拟发送http请求,再结合unittest测试框架,就能完成web接口自动化测试. 所以笔者今 ...
- python爬虫从入门到放弃(四)之 Requests库的基本使用
什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其 ...
- (转)Python爬虫利器一之Requests库的用法
官方文档 以下内容大多来自于官方文档,本文进行了一些修改和总结.要了解更多可以参考 官方文档 安装 利用 pip 安装 $ pip install requests 或者利用 easy_install ...
- python requests库学习笔记(上)
尊重博客园原创精神,请勿转载! requests库官方使用手册地址:http://www.python-requests.org/en/master/:中文使用手册地址:http://cn.pytho ...
- 使用Python的requests库进行接口测试——session对象的妙用
from:http://blog.csdn.net/liuchunming033/article/details/48131051 在进行接口测试的时候,我们会调用多个接口发出多个请求,在这些请求中有 ...
随机推荐
- Kubernetes (1.6) 中的存储类及其动态供给
原文地址:http://blog.fleeto.us/translation/dynamic-provisioning-and-storage-classes-kubernetes-0?utm_sou ...
- Mysql设计索引的原则
内容来自书籍<深入浅出MySQL++数据库开发.优化与管理维护+第2版+唐汉明> 设计索引的原则1. 搜索的索引列,不一定是所要选择的列.换句话说,最适合索引的列是出现在 WHERE 子句 ...
- Hadoop(分布式系统基础架构)---Hive与HBase区别
对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的.本文将尝试从其各自的定义.特点.限制.应用场景等角度来进行分析,以作抛砖引玉之用. Hive是什么? Apache Hive是 ...
- 设计模式20:Memento 备忘录模式(行为型模式)
Memento 备忘录模式(行为型模式) 对象状态的回溯 对象状态的变化无端,如何回溯.恢复对象在某个点的状态? 动机(Motivation) 在软件构建过程中,某些对象的状态在转换过程中,可能由于某 ...
- 编写高质量代码改善C#程序的157个建议——建议66:正确捕获多线程中的异常
建议66:正确捕获多线程中的异常 多线程的异常处理需要采用特殊的方式.一下这种方式会存在问题: try { Thread t = new Thread((ThreadStart)delegate { ...
- 【小梅哥FPGA进阶教程】第十四章 TFT屏显示图片
十四.TFT屏显示图片 本文由杭电网友曾凯峰贡献,特此感谢 学习了小梅哥的TFT显示屏驱动设计后,想着在此基础上通过TFT屏显示一张图片,有了这个想法就开始动工了.首先想到是利用FPGA内部ROM存储 ...
- c语言和java以及安卓和苹果
苹果手机是本地,没有中间环节,速度快,基于Linux系统 安卓是通过虚拟机,影响速度 就像c语言和java c适用于架构小的地方,因为直接编译运行 而java用于架构比较大的地方,启动慢,启动之后效率 ...
- 桂林理工大学第十届java程序设计初试竞赛试题
原创 三.程序设计题(不得改变已经给出的部分,允许添加新的辅助函数或类)(共36分) (6分)1.以下函数的功能是判断一个正整数是否为质数,若是返回true,否则返回false.其中参数data为要判 ...
- ios系统架构及常用框架
1.iOS基于UNIX系统,因此从系统的稳定性上来说它要比其他操作系统的产品好很多 2.iOS的系统架构分为四层,由上到下一次为:可触摸层(Cocoa Touch layer).媒体层(Media l ...
- selenium爬取网易云
from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.c ...