python3爬虫之requests库基本使用

官方文档链接（中文）

https://2.python-requests.org/zh_CN/latest/

requests 基于 urllib3 ，python编写。

安装 pip install requests （python3）

anaconda 版本用pip安装要在 anaconda prompt 里打入安装命令

提示Requirement already satisfied: requests in xxxxxx 表示已经安装了

import requests

response=requests.get('http://www.baidu.com')

#打印类型

print(type(response))

#打印状态码

print(response.status_code)

#打印网页源码类型

#字符串类型，不需要decode（区别于urllib）

print(type(response.text))

#打印网页源码

print(response.text)

#打印cookie

print(response.cookies)

requests.get

import requests

data={'name':'germey',

      'age':22}

response=requests.get('http://httpbin.org/get',params=data)

print(response.text)

输出结果：

{

  "args": {

    "age": "22",

    "name": "germey"

  },

  "headers": {

    "Accept": "*/*",

    "Accept-Encoding": "gzip, deflate",

    "Host": "httpbin.org",

    "User-Agent": "python-requests/2.21.0"

  },

  "origin": "xxx.xxx.xxx.xxx, xxx.xxx.xxx.xxx",

  "url": "https://httpbin.org/get?name=germey&age=22"

}

可以看到，在原始网站上增加了

?name=germey&age=22

问号后的便是params数据

解析json

import requests

import json

response=requests.get('http://httpbin.org/get')

print(type(response.text))

#下面两句结果一样

print(response.json())

print(json.loads(response.text))

print(type(response.json()))

输出结果：

<class 'str'>

{'args': {}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.21.0'}, 'origin': xxx.xxx.xxx.xxx 'url': 'https://httpbin.org/get'}

{'args': {}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.21.0'}, 'origin': 'xxx.xxx.xxx.xxx 'url': 'https://httpbin.org/get'}

<class 'dict'>

可以看到用json解析后的为字典类型

获取二进制文件

#获取二进制文件

import requests

response=requests.get('https://github.com/favicon.ico')

print(type(response.content))

#保存二进制文件

with open('favicon.ico','wb') as f:

    f.write(response.content)    #将response.content写入favicon.ico

    f.close()   #关闭文件

#favicon.ico为文件名

#wb参数中w表示写入，b表示二进制文件，r表示读取。

headers

import requests

#返回200

headers={

    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0'

    }

response=requests.get('https://www.zhihu.com/explore',headers=headers)

print(response.status_code)

#返回400

response=requests.get('https://www.zhihu.com/explore')

print(response.status_code)

User-Agent表示的是浏览器的客户端信息

http://www.useragentstring.com/

中可以查询

#响应的属性

response=requests.get('http://www.baidu.com')

print(response.status_code)

print(response.headers)

print(response.cookies)

print(response.url)

print(response.history)

#文件上传

files={'file':open('favicon.ico','rb')}

response=requests.post('http://httpbin.org/post',files=files)

print(response.text)

#获取cookies

import requests

response=requests.get('http://www.baidu.com')

print(response.cookies)

for key,value in response.cookies.items():
print(key+ '=' + value)

#其他

#代理设置样例，根据选择需要其中一种

proxies={

    "http":"http://user:password@xxx.xxx.xxx.xxx:xxxx/:

}

proxies={

    "http":"socks5://xxx.xxx.xxx.xxx:xxxx",

    "https":"socks5://xxx.xxx.xxx.xxx:xxxx"

}

proxies={

    "http":"http://xxx.xxx.xxx.xxx:xxxx",

    "https":"https://xxx.xxx.xxx.xxx:xxxx"

}

r=requests.get('url',proxies=proxies,timeout=1)

#timeout表示超时设置。单位为秒

#超出时间，将会终端程序

#使用try except

from requests.exceptions import ReadTimeout

try：

    r=requests.get('url',proxies=proxies,timeout=1)

    print(r.status_code)

except ReadTimeout:

    print('timeout')

#认证设置

import requests

from requests.auth import HTTPBasicAuth

r=requests.get('http://xxx.xxx.xxx.xxx:xxxx')

print(r.status_code)

#返回401表示需要认证

r=requests.get('http://xxx.xxx.xxx.xxx:xxxx',auth=('user','passwd')

print(r.status_code)

python3爬虫之requests库基本使用的更多相关文章

Python爬虫之requests库介绍(一)
一:Requests: 让 HTTP 服务人类虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 ...
python爬虫之requests库
在python爬虫中,要想获取url的原网页,就要用到众所周知的强大好用的requests库,在2018年python文档年度总结中,requests库使用率排行第一,接下来就开始简单的使用reque ...
爬虫相关--requests库
requests的理想:HTTP for Humans 一.八个方法相比较urllib模块,requests模块要简单很多,但是需要单独安装: 在windows系统下只需要在命令行输入命令 pip ...
Python爬虫：requests 库详解，cookie操作与实战
原文第三方库 requests是基于urllib编写的.比urllib库强大,非常适合爬虫的编写. 安装: pip install requests 简单的爬百度首页的例子: response.te ...
Python爬虫之requests库的使用
requests库虽然Python的标准库中 urllib模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests宣传是 "HTTP for ...
【Python爬虫】爬虫利器 requests 库小结
requests库 Requests 是一个 Python 的 HTTP 客户端库. 支持许多 HTTP 特性,可以非常方便地进行网页请求.网页分析和处理网页资源,拥有许多强大的功能. 本文主要介绍 ...
爬虫值requests库
requests简介简介 Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库 ,使用起来比urllib简洁很多因为是第三方库, ...
（爬虫）requests库
一.requests库简介 urllib库和request库的作用一样,都是服务器发起请求数据,但是requests库比urllib库用起来更方便,它的接口更简单,选用哪种库看自己. 如果没有安装过这 ...
【Python爬虫】Requests库的基本使用
Requests库的基本使用阅读目录基本的GET请求带参数的GET请求解析Json 获取二进制数据添加headers 基本的POST请求 response属性文件上传获取cookie 会 ...

随机推荐

24Flutter中常见的表单有TextField单行文本框，TextField多行文本框、CheckBox、Radio、Switch
一.Flutter常用表单介绍: CheckboxListTile.RadioListTile.SwitchListTile.Slide. 二.TextField:表单常见属性: maxLines:设 ...
阶段5 3.微服务项目【学成在线】_day18 用户授权_10-前端集成认证授权-需求分析
4 前端集成认证授权 4.1 需求分析截至目前认证授权服务端的功能已基本完成,本章实现前端集成认证授权功能. 前端集成认证授权功能需要作如下工作: 1.前端页面校验用户的身份,如果用户没有登录则跳转 ...
Linux 系统中部署 LNMP 高可用负载均衡架构集群实现动态博客
(一)设计思路高可用:keepalived 解决方案负载均衡:(lvs)DR做轮询,需要一个调度器,后端节点两个(部署nginx动态博客),通过一个vip去访问动态博客后端节点需要部署动态博客作 ...
C#读取带命名空间的xml
首先带有命名空间的xml读取可以使用Xml.Linq,也可以使用xpath,本文将采用xpath的方式解析. 原文参考了:https://www.cnblogs.com/duanjt/p/544054 ...
Jenkins增加日志查看内容. 如何查看Jenkins插件的日志？
进入Jenkins日志项添加新的日志记录把插件的GroupID信息填入对应的源代码日志生成代码执行插件,即可查看插件里的日志输出
react-developer-tools
链接: https://pan.baidu.com/s/1g7kLC3fF-u-lQySLqpivog 提取码: 92j9 复制这段内容后打开百度网盘手机App,操作更方便哦安装:1.点击--> ...
Bugly——Xuporter问题处理
Unity接入Bugly 用其原生的package文件导入,结果在Ios打包时报错,找不到相对应的库. 经过排查: 这个地方如果不加拦截的话,项目中所有的 .projmods文件都会按照xupor ...
使用kubeadm部署K8S v1.17.0集群
kubeadm部署K8S集群安装前的准备集群机器 172.22.34.34 K8S00 172.22.34.35 K8S01 172.22.34.36 K8S02 注意: 本文档中的 etcd . ...
jquery入口函数的测试
/*编写一个自定义的jquery框架*/ (function (window,undefined) { var njquery=function (selector ,) { return new j ...
Max coverage disjoint intervals
Assume you have k<=10^5 intervals [a_i, b_i] \in [1,10^18] (some of them may overlap), and you ne ...

python3爬虫之requests库基本使用

python3爬虫之requests库基本使用的更多相关文章

随机推荐

热门专题