requests请求库
# coding = utf-8
"""
同urllib一样
requests 也是发送http请求的第三方库 兼容Python2和3
实现了http的绝大部分功能。 安装 pip install requests
""" # 1.requests发送请求
"""
同直接同requests.get/post来指定发送请求的方式
pycharm环境下,可通过alt+鼠标点击进入源代码,可观察requests的相关参数
"""
# import requests
# 请求百度页面
# response = requests.get('http://www.baidu.com')
# print(response)
# 打印响应内容,也可通过debug来查看response对象里面包含的值
# 请求返回值是一个Response对象,是对HTTP协议中服务端返回给客户端响应数据的封装
# 包括状态码,响应头,响应体 # 显示状态码
# code = response.status_code # 状态码 # 响应头信息
# for key, value in response.headers.items():
# print('{}:{}'.format(key, value)) # 响应体
# print(response.content)
# content返回原始数据,字节串,bytes类型,一般图片、音频、视频数据,就用content
# 可通过response.content.decode()解码,默认utf-8解码,将字节串转码为字符串 # print(response.text)
# 返回文本数据, str类型,是经过转码的数据,但是文本中的中文可能出现乱码 # 显示请求网页的编码方式
# print(response.encoding) # 一般为ISO-8859 # 设置网页编码方式
# response.encoding = 'utf-8'
# 因为网页默认编码为ISO8859,所以显示中文的时候,可能乱码,
# 因此通过以上方法设置编码为utf-8,可解决中文乱码问题 # 2.requests请求url传参
"""
通过对url传参,拼接字符串,因此请求变为http://www.baidu.com/s?wd=python
"""
# import requests
# get请求的传参
# parms = {'wd': 'python'}
# response = requests.get('http://www.baidu.com/s?', parms=parms) # post请求的传参,此处的url为测试网站
# 同get一样,参数类型也是字典格式
# data = {'key1': 2, 'key3': 3}
# r = requests.post('http://httpbin.org/post', data=data)
# print(r.text) # 3.requests中的超时设置
# import requests
# 设置超时时间为5秒,若5s内目标地址没有响应,则抛出异常
# requests.get('https://www.google.com', timeout=5) # 4.request中的cookies处理
"""
通过requests请求目标网站,返回值中自动携带cookies
可通过response.cookies查看
可将返回的cookie保存下来,然后下一次访问时携带上即可
例:
cookie = response.cookies
下次请求时:resquest.get(xxx.xxx, cookies=cookie)即可携带上次访问
页面时返回的cookie信息
"""
# import requests
# params = {'wd':"python"}
# response = requests.get('http://www.baidu.com/s?', params=params)
# print(response.cookies) #5.requests中的会话--session
"""
http协议是一种无状态协议,无法保持会话状态,因此出现cookies,访问时携带cookie信息,
即可保持上一次会话的信息,requests中返回值中携带cookies信息,但是下次访问时需要
手动传入,依旧不方便,因此出现session,它会自动保存cookies信息,
并在下一次访问中自动传入
访问网页的方式基本和requests相同
"""
# import requests
# 构建一个会话 api基本和requests相同,后面的访问操作都通过该会话进行
# session = requests.session()
# 请求方式和request相同
# session.get('http://www.baidu.com') #6.requests中的ssl 认证
"""
部分网站请求时需要证书,因此需要对证书进行一定处理
设置verify=False来设定请求网站时不验证证书
同样的,通过设置verify=True设置请求时验证证书
"""
# import requests
# r = requests.get('https://www.jianshu.com', verify=False) # 7.requests伪装浏览器访问目标网站
"""
部分网站会识别是通过代码请求还是人来请求的,requests中同样提供将请求伪装为
浏览器的接口, 通过headers传参即可 因为知乎在未登录时,会自动跳转到登录页面
通过allow_redirects=False设置不跳转
"""
# import requests
# headers = {
# 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'
# }
# r = requests.get('http://www.zhihu.com', verify=False,
# headers=headers, allow_redirects=False) #
# 8.requests中的代理设置
# import requests
# 将代理设置为如下格式,参数传入即可
# proxies = {
# 'http': 'http://10.11.12.13:1234',
# 'https': 'http://10.11.12.13:1234',
# }
# requests.get("http://httpbin.org/ip", proxies=proxies) # 9. json
"""
将json格式数据转成字典格式,前提是目标网站返回值是json格式的
因此该方法用的也很少
"""
# import requests
# url = 'http://www.baidu.com'
# r = requests.get(url)
# print(r.json())
requests请求库的更多相关文章
- 爬虫(一)—— 请求库(一)requests请求库
目录 requests请求库 爬虫:爬取.解析.存储 一.请求 二.响应 三.简单爬虫 四.requests高级用法 五.session方法(建议使用) 六.selenium模块 requests请求 ...
- 爬虫之requests请求库
介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) #注意:requests库发送请求将网页内容下 ...
- 爬虫之requests请求库高级应用
1.SSL Cert Verification #证书验证(大部分网站都是https) import requests respone=requests.get('https://www.12306. ...
- requests请求库练习--GitHub登录
# coding = utf-8 """ 结合抓包工具,采用两种方法模拟登录github直接利用session登录和利用requests登录 ""&q ...
- Python爬虫requests请求库
requests:pip install request 安装 实例: import requestsurl = 'http://www.baidu.com'response = requests. ...
- Selenium请求库
阅读目录 一 介绍 二 安装 三 基本使用 四 等待元素被加载 五 选择器 六 元素交互操作 七 其他 八 项目练习 九 破解登录验证 一 介绍 1.selenium是什么? selenium最初是一 ...
- 爬虫请求库——requests
请求库,即可以模仿浏览器对网站发起请求的模块(库). requests模块 使用requests可以模拟浏览器的请求,requests模块的本质是封装了urllib3模块的功能,比起之前用到的urll ...
- Python3 网络爬虫(请求库的安装)
Python3 网络爬虫(请求库的安装) 爬虫可以简单分为几步:抓取页面,分析页面和存储数据 在页面爬取的过程中我们需要模拟浏览器向服务器发送请求,所以需要用到一些python库来实现HTTP的请求操 ...
- Python浅谈requests三方库
requests 三方库用于获取URL资源 1.GET请求访问一个页面 import requests r = requests.get('https://www.cnblogs.com/xqxacm ...
随机推荐
- Display(显示) 与 Visibility(可见性)
display属性设置一个元素应如何显示,visibility属性指定一个元素应可见还是隐藏. 隐藏元素 - display:none或visibility:hidden 隐藏一个元素可以通过把dis ...
- Logstash 安装及简单实用(同步MySql数据到Elasticsearch)(Windows)
Logstash是一款轻量级的日志搜集处理框架,可以方便的把分散的.多样化的日志搜集起来,并进行自定义的处理,然后传输到指定的位置,比如某个服务器或者文件 Windows环境: 1.下载logstas ...
- Android H5混合开发(1):构建Cordova 项目
Cordova是什么 Apache Cordova是一个开源的移动开发框架.允许你用标准的web技术-HTML5,CSS3和JavaScript做跨平台开发. 以移动平台为例,安卓.IOS平台设备的常 ...
- VS Code 1.40 发布!可自行搭建 Web 版 VS Code!
今天(北京时间 2019 年 11 月 8 日),微软发布了 Visual Studio Code 1.40 版本.让我们来看看有哪些主要的更新. 自建 Web 版 VS Code 前不久,微软正式发 ...
- RTKLib的Manual解读
Key-word: integer ambiguity resolution :整周模糊度解算 navigation:导航 Kinematic:动态,RTK的K rover:漫游 validation ...
- 轰炸行动(bomb):tarjan,拓扑排序
考场上看错题,没什么好说的. 然而它就是一个大板子. 发的题解勉强还能看.但是我还想再讲讲. 题目的表述是,如果从A能直接或间接到B,那么就不能同时轰炸A和B. 那么我们从图里随便拽出一条有向路径,从 ...
- 七月月赛T1
题目背景 借助反作弊系统,一些在月赛有抄袭作弊行为的选手被抓出来了! 题目描述 现有 2^n\times 2^n (n\le10)2n×2n(n≤10) 名作弊者站成一个正方形方阵等候 kkksc03 ...
- 【Leetcode 做题学算法周刊】第三期
首发于微信公众号<前端成长记>,写于 2019.11.13 背景 本文记录刷题过程中的整个思考过程,以供参考.主要内容涵盖: 题目分析设想 编写代码验证 查阅他人解法 思考总结 目录 35 ...
- VSCode JAVA环境配置使遇到的几个小问题
1.出现的问题: The JAVA_HOME environment variable points to a missing or inaccessible folder等三个报错! 2.说明及解决 ...
- Proxy动态代理-增强方法
增强对象的功能 设计模式:一些通用的解决固定问题的方式 装饰器模式 代理模式 概念: 在代理模式(Proxy Pattern)中,一个类代表另一个类的功能.这种类型的设计模式属于结构型模式. 在代理模 ...