Python 爬虫-Requests库入门

2017-07-25 10:38:30

response = requests.get(url, params=None, **kwargs)

url : 拟获取页面的url链接∙ params : url中的额外参数，字典或字节流格式，可选
params参数是字典或字节序列，作为参数增加到url中

kv = {'key1': 'value1', 'key2': 'value2'}

>>> r = requests.request('GET', 'http://python123.io/ws', params=kv)

>>> print(r.url)

http://python123.io/ws?key1=value1&key2=value2

**kwargs: 12个控制访问的参数

headers:字典，HTTP定制头

 hd = {'user‐agent': 'Chrome/10'}

 r = requests.request('POST', 'http://python123.io/ws', headers=hd)

timeout : 设定超时时间，秒为单位

 r = requests.request('GET', 'http://www.baidu.com', timeout=10)

proxies : 字典类型，设定访问代理服务器，可以增加登录认证

>>> pxs = { 'http': 'http://user:pass@10.10.10.1:1234'

'https': 'https://10.10.10.1:4321' }

>>> r = requests.request('GET', 'http://www.baidu.com', proxies=pxs)

使用举例：

import requests

# r：response 右侧get: requests

r = requests.get('http://jwc.seu.edu.cn/')

一、返回值Response对象的属性

二、爬取网页的通用代码框架

import requests

def gethtml(url):

    # 打开网页有风险，需要使用try-except语句进行风险控制

    try:

        r = requests.get(url)

        r.raise_for_status()   # 如果打开失败，则会抛出一个HttpError异常

        # encoding是从header中分析出来的编码方式，apparent_encoding是 从内容分析出的编码方式

        r.encoding=r.apparent_encoding

        return r.text

    except:

        print("打开失败")

三、requests库的方法和HTTP协议

HTTP协议：超文本传输协议

HTTP是一个基于“请求与响应”模式的、无状态的应用层协议。

HTTP协议采用URL作为定位网络资源的标识，URL格式如下：http://host[:port][path]

HTTP协议对资源的操作方法：

其中get,head方法是从服务器取回数据，post,put,patch,delete方法是向服务器写入或者修改数据。

patch 和 put 的区别：patch 是局部更新，而put 是全部更新。patch节省网络带宽，是HTTP协议改良后的新增指令。

HTTP的指令和requests 的方法一一对应。

Requests 的七个主要方法

Python 爬虫-Requests库入门的更多相关文章

Python爬虫—requests库get和post方法使用
目录 Python爬虫-requests库get和post方法使用 1. 安装requests库 2.requests.get()方法使用 3.requests.post()方法使用-构造formda ...
Python爬虫--Requests库
Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库,requests是python实现的最简单易用的HTTP库, ...
【Python成长之路】Python爬虫 --requests库爬取网站乱码（\xe4\xb8\xb0\xe5\xa）的解决方法【华为云分享】
[写在前面] 在用requests库对自己的CSDN个人博客(https://blog.csdn.net/yuzipeng)进行爬取时,发现乱码报错(\xe4\xb8\xb0\xe5\xaf\x8c\ ...
Python爬虫 requests库基础
requests库简介 requests是使用Apache2 licensed 许可证的HTTP库. 用python编写. 比urllib2模块更简洁. Request支持HTTP连接保持和连接池,支 ...
python爬虫---requests库的用法
requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多因为是第三方库,所以使用前需要cmd安装 pip install requests 安装完成后import一下 ...
Python爬虫---requests库快速上手
一.requests库简介 requests是Python的一个HTTP相关的库 requests安装: pip install requests 二.GET请求 import requests # ...
python爬虫——requests库使用代理
在看这篇文章之前,需要大家掌握的知识技能: python基础 html基础 http状态码让我们看看这篇文章中有哪些知识点: get方法 post方法 header参数,模拟用户 data参数,提交 ...
Python爬虫的简单入门(一)
Python爬虫的简单入门(一) 简介这一系列教学是基于Python的爬虫教学在此之前请确保你的电脑已经成功安装了Python(本教程使用的是Python3).爬虫想要学的精通是有点难度的,尤其是遇 ...
python爬虫---selenium库的用法
python爬虫---selenium库的用法 selenium是一个自动化测试工具,支持Firefox,Chrome等众多浏览器在爬虫中的应用主要是用来解决JS渲染的问题. 1.使用前需要安装这个 ...

随机推荐

vmware tool安装
https://www.vmware.com/support/ws55/doc/ws_newguest_tools_linux.html VMware Workstation 5.5 Features ...
《Enhanced LSTM for Natural Language Inference》（自然语言推理）
解决的问题自然语言推理,判断a是否可以推理出b.简单讲就是判断2个句子ab是否有相同的含义. 方法我们的自然语言推理网络由以下部分组成:输入编码(Input Encoding ),局部推理模型(L ...
Atcoder Tenka1 Programmer Contest 2019 D Three Colors
题意: 有$n$个石头,每个石头有权值,可以给它们染'R', 'G', 'B'三种颜色,如下定义一种染色方案为合法方案: 所有石头都染上了一种颜色令$R, G, B$为染了'R', 染了'G ...
python recv()是什么
socket有个recv方法,recv有一个参数,指定数据缓冲区的大小但是现在的问题就是不知道将要接受的数据的大小到底是多少,可能只有几个字节,可能会有几M,google了一下socket的入门文章 ...
nginx 参考文章汇总
Nginx 反向代理.负载均衡.页面缓存.URL重写及读写分离详解: http://freeloda.blog.51cto.com/2033581/1288553 Nginx开发从入门到精通: htt ...
Advapi32.dll--介绍
https://blog.csdn.net/zhoujielun123456/article/details/50338147 使用方法详见:OpsTotalService
Notepad++ 主题配色配置
以下方法来源网络,仅供参考: 方案1: 1.主题名称:Obsidian 2.字体字号:Courier New 10 (这里字体你可以随意选择,让自己满意即可) 3.设置方法:设置---语言格式设置-- ...
bzoj5470 / P4578 [FJOI2018]所罗门王的宝藏
P4578 [FJOI2018]所罗门王的宝藏设第$i$行上的值改变了$r1[i]$,第$j$列上的值改变了$r2[i]$ 显然密码$(i,j,c)=r1[i]+r2[j]$ 对于同一列上的两个密码 ...
01: RestfulAPI与HTTP
1.1 RestfulAPI与HTTP简介 1.什么是RestfulAPI 1.REST直接翻译:表现层状态转移,实质就是一种面向资源编程的方法 2.REST描述的是在网络中client和server ...
某模拟题（USACO部分题+noip2005部分题）
题目描述农场上有N(1 <= N <= 50,000)堆草,放在不同的地点上.FJ有一辆拖拉机,也在农场上.拖拉机和草堆都表示为二维平面上的整数坐标,坐标值在1..1000的范围内.拖拉 ...

Python 爬虫-Requests库入门

Python 爬虫-Requests库入门的更多相关文章

随机推荐

热门专题