python3爬虫之requests库基本使用
官方文档链接(中文)
https://2.python-requests.org/zh_CN/latest/
requests 基于 urllib3 ,python编写。
安装 pip install requests (python3)
anaconda 版本 用pip安装 要在 anaconda prompt 里打入安装命令
提示Requirement already satisfied: requests in xxxxxx 表示 已经安装了
import requests
response=requests.get('http://www.baidu.com')
#打印类型
print(type(response))
#打印状态码
print(response.status_code)
#打印网页源码类型
#字符串类型,不需要decode(区别于urllib)
print(type(response.text))
#打印网页源码
print(response.text)
#打印cookie
print(response.cookies)
requests.get
import requests
data={'name':'germey',
'age':22}
response=requests.get('http://httpbin.org/get',params=data)
print(response.text)
输出结果:
{
"args": {
"age": "22",
"name": "germey"
},
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Host": "httpbin.org",
"User-Agent": "python-requests/2.21.0"
},
"origin": "xxx.xxx.xxx.xxx, xxx.xxx.xxx.xxx",
"url": "https://httpbin.org/get?name=germey&age=22"
}
可以看到,在原始网站上增加了
?name=germey&age=22
问号后的便是params数据
解析json
import requests
import json response=requests.get('http://httpbin.org/get')
print(type(response.text))
#下面两句结果一样
print(response.json())
print(json.loads(response.text)) print(type(response.json()))
输出结果:
<class 'str'>
{'args': {}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.21.0'}, 'origin': xxx.xxx.xxx.xxx 'url': 'https://httpbin.org/get'}
{'args': {}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.21.0'}, 'origin': 'xxx.xxx.xxx.xxx 'url': 'https://httpbin.org/get'}
<class 'dict'>
可以看到用json解析后的为字典类型
获取二进制文件
#获取二进制文件
import requests
response=requests.get('https://github.com/favicon.ico')
print(type(response.content))
#保存二进制文件
with open('favicon.ico','wb') as f:
f.write(response.content) #将response.content写入favicon.ico
f.close() #关闭文件
#favicon.ico为文件名
#wb参数中w表示写入,b表示二进制文件,r表示读取。
headers
import requests #返回200
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0'
}
response=requests.get('https://www.zhihu.com/explore',headers=headers)
print(response.status_code) #返回400
response=requests.get('https://www.zhihu.com/explore')
print(response.status_code)
User-Agent表示的是 浏览器的客户端信息
http://www.useragentstring.com/
中可以查询
#响应的属性
response=requests.get('http://www.baidu.com')
print(response.status_code)
print(response.headers)
print(response.cookies)
print(response.url)
print(response.history)
#文件上传
files={'file':open('favicon.ico','rb')}
response=requests.post('http://httpbin.org/post',files=files)
print(response.text)
#获取cookies
import requests
response=requests.get('http://www.baidu.com')
print(response.cookies)
for key,value in response.cookies.items():
print(key+ '=' + value)
#其他 #代理设置样例,根据选择需要其中一种
proxies={
"http":"http://user:password@xxx.xxx.xxx.xxx:xxxx/:
}
proxies={
"http":"socks5://xxx.xxx.xxx.xxx:xxxx",
"https":"socks5://xxx.xxx.xxx.xxx:xxxx"
}
proxies={
"http":"http://xxx.xxx.xxx.xxx:xxxx",
"https":"https://xxx.xxx.xxx.xxx:xxxx"
}
r=requests.get('url',proxies=proxies,timeout=1)
#timeout表示超时设置。单位为秒
#超出时间,将会终端程序
#使用try except
from requests.exceptions import ReadTimeout
try:
r=requests.get('url',proxies=proxies,timeout=1)
print(r.status_code)
except ReadTimeout:
print('timeout')
#认证设置 import requests
from requests.auth import HTTPBasicAuth
r=requests.get('http://xxx.xxx.xxx.xxx:xxxx')
print(r.status_code) #返回401表示需要认证 r=requests.get('http://xxx.xxx.xxx.xxx:xxxx',auth=('user','passwd')
print(r.status_code)
python3爬虫之requests库基本使用的更多相关文章
- Python爬虫之requests库介绍(一)
一:Requests: 让 HTTP 服务人类 虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 ...
- python爬虫之requests库
在python爬虫中,要想获取url的原网页,就要用到众所周知的强大好用的requests库,在2018年python文档年度总结中,requests库使用率排行第一,接下来就开始简单的使用reque ...
- 爬虫相关--requests库
requests的理想:HTTP for Humans 一.八个方法 相比较urllib模块,requests模块要简单很多,但是需要单独安装: 在windows系统下只需要在命令行输入命令 pip ...
- Python爬虫:requests 库详解,cookie操作与实战
原文 第三方库 requests是基于urllib编写的.比urllib库强大,非常适合爬虫的编写. 安装: pip install requests 简单的爬百度首页的例子: response.te ...
- Python爬虫之requests库的使用
requests库 虽然Python的标准库中 urllib模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests宣传是 "HTTP for ...
- 【Python爬虫】爬虫利器 requests 库小结
requests库 Requests 是一个 Python 的 HTTP 客户端库. 支持许多 HTTP 特性,可以非常方便地进行网页请求.网页分析和处理网页资源,拥有许多强大的功能. 本文主要介绍 ...
- 爬虫值requests库
requests简介 简介 Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库 ,使用起来比urllib简洁很多 因为是第三方库, ...
- (爬虫)requests库
一.requests库简介 urllib库和request库的作用一样,都是服务器发起请求数据,但是requests库比urllib库用起来更方便,它的接口更简单,选用哪种库看自己. 如果没有安装过这 ...
- 【Python爬虫】Requests库的基本使用
Requests库的基本使用 阅读目录 基本的GET请求 带参数的GET请求 解析Json 获取二进制数据 添加headers 基本的POST请求 response属性 文件上传 获取cookie 会 ...
随机推荐
- js实现两个文本框数值的加减乘除运算
<!DOCTYPE html><html> <head> <meta charset="utf-8"> <title>& ...
- 创建IDOC
第一步:WE31 创建IDOC所包含的字段. 第二步:WE30 创建IDOC 把Segment分配给IDOC 第三步:WE81 创建信息类型 第四步:WE82 把IDOC类型与信息类型对应. 第五步: ...
- Composer更新慢的终极解决方案-转
转自:http://blog.csdn.net/fishermanmax/article/details/51975692 Packagist 镜像 请各位使用本镜像的同学注意: 本镜像已经依照 co ...
- 【Leetcode_easy】1089. Duplicate Zeros
problem 1089. Duplicate Zeros 题意: solution: 其中关于虚拟新数组的下标的计算还是有点迷糊... class Solution { public: void d ...
- nginx限流方案的实现(三种方式)
通过查看nginx官方文档,小弟查看到了三种nginx限流方式. 1.limit_conn_zone 2.limit_req_zone 3.ngx_http_upstream_module 前两种只能 ...
- eNSP——OSPF的基础配置
原理: 模拟实验: 拓扑图: 实验编址: 1.基本配置 根据实验编址和拓扑图进行基本配置,并测试连通性. 2.部署OSPF网络 首先使用ospf命令创建并运行OSPF,1代表进程号 接着使用area命 ...
- python 计算文件夹里所有内容的大小总和
计算文件夹里所有内容的大小总和 递归方法 '''计算文件夹的大小''' import os def dir_file_size(path): if os.path.isdir(path): file_ ...
- [转载]Oracle中TO_NUMBER()函数的用法
1 用法简介TO_NUMBER函数()是Oracle中常用的类型转换函数之一,主要是将字符串转换为数值型的格式,与TO_CHAR()函数的作用正好相反. To_number函数的格式如下: To_nu ...
- 阿里云RocketMQ的消费者简单实现
业务场景之类的请看另一篇生产者的实现: package com.ttt.eee; import com.aliyun.openservices.ons.api.Action; import com.a ...
- Fiddler之基础:面板、图标介绍
1.面板介绍:菜单栏,工具栏,回话面板,监控面板 2.工具栏-图标 3.会话面板-图标 4.监控面板 5.状态栏 控制台Fiddler的左下角有一个命令行工具叫做QuickExec,允许你直接输入命令 ...