01-urllib库添加headers的一般方法

2018-08-23 13:07:57

对于请求一些网站，我们需要加上请求头才可以完成网页的抓取，不然会得到一些错误，无法返回抓取的网页。下面，介绍两种添加请求头的方法。

方法一：借助build_opener和addheaders完成

 import urllib.request

 url="http://www.meizitu.com"

 #注意：在urllib 中headers是元组

 headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE")

 opener=urllib.request.build_opener()

 opener.addheaders=[headers]

 data=opener.open(url)

 print(data.read())

注意：此处的headers要写为一个元组类型才可以。写为字典类型的话会报错！

方法二、创建一个Request实例对象

 # 案例1

 import urllib.request

 url="http://www.meizitu.com"

 #注意：在urllib 中这种的headers 是需要是字典的

 headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE"}

 req=urllib.request.Request(url=url,headers=headers)

 file=urllib.request.urlopen(req)

 #出现有些解码错误的话，加上“ignore”就可以啦

 print(file.read().decode("utf-8",'ignore'))

注意：此处的headers要写为一个字典类型才可以。
创建一个Reques对象，把需要的headers,url，proxy 都放进去，或者在post 请求中还可以把编码过后的data 值放进去，再用urlopen 打开，就比较方便了。

另外，这种方法还可以用add_headers（）来添加headers，代码如下：

 import urllib.request

 try:

     url="http://www.meizitu.com"

     req=urllib.request.Request(url=url)

     req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE")

     file=urllib.request.urlopen(req,timeout=10.1)

     print(file.read().decode("utf-8",'ignore'))

 except Exception as e:

     print("时间超时",str(e))

总结：通过以上两种方法，可以完成请求头的相关参数设置，但是得注意headers是用字典类型来传入还是元组类型。

01-urllib库添加headers的一般方法的更多相关文章

urllib库使用方法
这周打算把学过的内容重新总结一下,便于以后翻阅查找资料. urllib库是python的内置库,不需要单独下载.其主要分为四个模块: 1.urllib.request——请求模块 2.urllib.e ...
客户端ajax请求为实现Token验证添加headers后导致正常请求变为options跨域请求解决方法
客户端为了实现token认证,通过Jquery的ajaxSetup方法全局配置headers: 全局配置headers后会导致部分不需要token认证的请求变为options请求,导致跨域访问.报错信 ...
Python爬虫学习==>第七章：urllib库的基本使用方法
学习目的: urllib提供了url解析函数,所以需要学习正式步骤 Step1:什么是urllib urllib库是Python自带模块,是Python内置的HTTP请求库包含4个模块: >& ...
urllib库使用方法 3 get html
import urllib.requestimport urllib.parse #https://www.baidu.com/s?ie=UTF-8&wd=中国#将上面的中国部分内容,可以动态 ...
爬虫之urllib库
一.urllib库简介简介 Urllib是Python内置的HTTP请求库.其主要作用就是可以通过代码模拟浏览器发送请求.它包含四个模块: urllib.request :请求模块 urllib.e ...
Python3中Urllib库基本使用
什么是Urllib? Python内置的HTTP请求库 urllib.request 请求模块 urllib.error 异常处理模块 urllib.par ...
爬虫学习--Urllib库基本使用 Day1
一.Urllib库详解 1.什么是Urllib Python内置的HTTP请求库 urllib.request 请求模块(模拟实现传入网址访问) urllib.error ...
爬虫（二）：Urllib库详解
什么是Urllib: python内置的HTTP请求库 urllib.request : 请求模块 urllib.error : 异常处理模块 urllib.parse: url解析模块 urllib ...
python爬虫 - Urllib库及cookie的使用
http://blog.csdn.net/pipisorry/article/details/47905781 lz提示一点,python3中urllib包括了py2中的urllib+urllib2. ...

随机推荐

10.Set 和 Map 数据结构
Set 和 Map 数据结构 Set 和 Map 数据结构 Set 基本用法 ES6 提供了新的数据结构 Set.它类似于数组,但是成员的值都是唯一的,没有重复的值. Set 本身是一个构造函数,用来 ...
用PDMReader工具生成数据库设计文档(转载)
来源:http://blog.csdn.net/xinglun88/article/details/19987719 第一步:下载并安装PDMReader,资源网站: http://www.pdmre ...
mvc手把手教你写excel导入
实习狗的每天新知识日常准备工作: 1.在项目中添加对NPOI的引用,NPOI下载地址:http://npoi.codeplex.com/releases/view/38113 2.NPOI学习系列教 ...
啰里吧嗦kafka
1.kafka是什么 kafka官网: http://kafka.apache.org/ kafka是一种高吞吐量的分布式发布订阅消息系统,用它可以在不同系统中间传递分发消息 2.zookeeper是 ...
fuz 2159 WuYou
Problem 2159 WuYou Accept: 16 Submit: 64Time Limit: 1000 mSec Memory Limit : 32768 KB Problem ...
wcf和webapi（转）
WCF 1.这个也是基于SOAP的,数据格式是XML 2.这个是Web Service(ASMX)的进化版,可以支持各种各样的协议,像TCP,HTTP,HTTPS,Named Pipes, MSMQ. ...
[js常用]连续播放音频
许多音频连续播放.有的时候音频过大会分成多个音频.播放的时候需要连续播放 <!DOCTYPE HTML> <html> <head> <meta charse ...
Android 使用全局变量的问题
现在每天都在忙,而且一忙起来,就把写笔记的事情放在了后面,最近在写程序的时候,突然要使用全局变量,就按照以前的方式,写了一个类,然后把变量都声明为静态变量,然后做为全局变量使用,但是在进行Activi ...
Keras & Theano 输出中间层结果
Keras & Theano get output of an intermediate layer 1.使用函数模型API,新建一个model,将输入和输出定义为原来的model的输入和想要 ...
安装部署 OpenPAI Install OpenPAI on Ubuntu
介绍不管是机器学习的老手,还是入门的新人,都应该装备上尽可能强大的算力.除此之外,还要压榨出硬件的所有潜力来加快模型训练.OpenPAI作为GPU管理的利器,不管是一块GPU,还是上千块GPU, ...

01-urllib库添加headers的一般方法

01-urllib库添加headers的一般方法的更多相关文章

随机推荐

热门专题