Python3使用request/urllib库重定向问题

foxgab 2024-08-23 16:06:16 原文

禁止自动重定向

python3的urllib.request模块发http请求的时候，如果服务器响应30x会自动跟随重定向，返回的结果是重定向后的最终结果而不是30x的响应结果。

request是靠HTTPRedirectHandler这个中的方法拦截重定并发起重新发起请求的，网上有方法说继承这个类并把类下面的方法都改成pass，这样可以阻止重定向，但是无法阻止30x响应被HTTPErrorProcessor类捕获，会最终抛出异常。可以通过处理这个exception来解决，但是稍麻烦。

有没有办法让302响应像200一样不抛异常而返回response类对象呢？我看了一下urllib.request模块的代码，是可以很简单地实现的。看代码：

from urllib import request

class NoRedirHandler(request.HTTPRedirectHandler):

    def http_error_302(self, req, fp, code, msg, headers):

        return fp

    http_error_301 = http_error_302

# other_handler = ...

opener = request.build_opener( NoRedirHandler, other_handlers)

rsp = opener.open('http://example.com')

# rsp.code

#>> 302

# rsp.read()

#>> b''

主意上面的“other_handler”是个示例，你可能会把他替换成HTTPCookieProcessor或其他handler类实例或直接删除它。

实际上就是http_error_302函数的fp这个传参比较令人疑惑，我发现request这个库里其他地方传参给这个函数时这个pf其实就是response，只有在这里变成了pf，不知道作者是故意不想让人改呢还是什么原因。

重定向携带cookie（会话）

request库会自动跟随重定向，返回新页面的信息，但是如果重定向后的页面需要会话信息（cookie），就可能导致重定向循环，直到重定向次数过多，抛出错误。

解决这个问题用上HTTPCookieProcessor，这样请求会自动保存获得的cookie并在后面使用，不需要自己去set header，全自动的。例：

from urllib import request

cookie_hdr = request.HTTPCookieProcessor()

opener = request.build_opener(cookie_hdr)

req = request.Request('http://example.com')

with opener.open(req) as f:

    # bla...bla...bla

    page_data = f.read()

CookieProcess也能支持把cookie放一个文件里，可以再程序重启后保持之前的会话。

Python3使用request/urllib库重定向问题的更多相关文章

python3爬虫之Urllib库（二）
在上一篇文章中,我们大概讲了一下urllib库中最重要的两个请求方法:urlopen() 和 Request() 但是仅仅凭借那两个方法无法执行一些更高级的请求,如Cookies处理,代理设置等等 ...
python3爬虫之Urllib库（一）
上一篇我简单说了说爬虫的原理,这一篇我们来讲讲python自带的请求库:urllib 在python2里边,用urllib库和urllib2库来实现请求的发送,但是在python3种在也不用那么麻烦了 ...
python3里的Urllib库
首先Urllib是python内置的HTTP请求库. 包括以下模块: urllib.request 请求模块: urllib.error 异常处理模块: urllib.parse url解析模块: u ...
6.python3爬虫之urllib库
# 导入urllib.request import urllib.request # 向指定的url发送请求,并返回服务器响应的类文件对象 response = urllib.request.urlo ...
Python2/3中的urllib库
urllib库对照速查表 Python2.X Python3.X urllib urllib.request, urllib.error, urllib.parse urllib2 urllib.re ...
python3中urllib库的request模块详解
刚刚接触爬虫,基础的东西得时时回顾才行,这么全面的帖子无论如何也得厚着脸皮转过来啊! 原帖地址:https://www.2cto.com/kf/201801/714859.html 什么是 Urlli ...
Python3爬虫一之（urllib库）
urllib库是python3的内置HTTP请求库. ython2中urllib分为 urllib2.urllib两个库来发送请求,但是在python3中只有一个urllib库,方便了许多. urll ...
urllib库详解 --Python3
相关:urllib是python内置的http请求库,本文介绍urllib三个模块:请求模块urllib.request.异常处理模块urllib.error.url解析模块urllib.parse. ...
常见的爬虫分析库（1）-Python3中Urllib库基本使用
原文来自:https://www.cnblogs.com/0bug/p/8893677.html 什么是Urllib? Python内置的HTTP请求库 urllib.request ...

随机推荐

启动springboot出现错误 Caused by: java.net.BindException: Address already in use: bind
如果运行过程中出现端口被占用抛出了这个异常首先可以在cmd中调出命令窗口然后执行命令 netstat -ano 可以查看所有活动的连接找到你被占用的端口可以看到我被占用的端口的进程是 4 ...
Linux下实现高可用软件-Keepalived基础知识梳理
Keepalived介绍 Keepalived软件起初是专门为LVS负载均衡软件设计的,用来管理并监控LVS集群系统中各个服务节点的状态,后来又加入了可以实现高可用的VRRP功能.因此,Keepali ...
P4357-[CQOI2016]K远点对【K-Dtree】
正题题目链接:https://www.luogu.com.cn/problem/P4357 题目大意平面上给出\(n\)个点,求第\(k\)远的点对距离. 解题思路 \(\text{K-Dtree ...
分享一下我的Python自学历程,分享下我自己学习方法
其实关于编程这事儿没有接触的那么早,大一的时候没什么关注点,有一门课是vb,一天天的,就抄抄作业啥的就完事儿了.当时也觉的自己不是学编程的料,想着以后估摸也不会干开发相关的工作. 我的自学历程阴差阳 ...
Python3入门系列之-----return返回值，我终于懂了
前言初学者学习return的用法有点蒙,不知道它的作用是什么?返回的是什么?在什么时候要用?小伙伴也可能会遇到和我同样的困扰,给大家举个例子,马上就明白了. 同一段代码,函数中带return和没有r ...
Dapr + .NET Core实战（八）服务监测
服务监测分布式服务性能指标,链路追踪,运行状况,日志记录都很重要,我们日常开发中为了实现这些功能需要集成很多功能,替换监控组件时成本也很高. Dapr 可观测性模块将服务监测与应用程序分离.它自动捕 ...
mysql从零开始之MySQL 创建数据库
MySQL 创建数据库我们可以在登陆 MySQL 服务后,使用 create 命令创建数据库,语法如下: CREATE DATABASE 数据库名; 以下命令简单的演示了创建数据库的过程,数据名为 ...
java 从零开始手写 RPC (04) -序列化
序列化 java 从零开始手写 RPC (01) 基于 socket 实现 java 从零开始手写 RPC (02)-netty4 实现客户端和服务端 java 从零开始手写 RPC (03) 如何实 ...
equals之List
School类 package com.collection.equals; /* * 定义一个学校类相当于一个学校模板 * 状态: 1.学校id 2.学校名称 * */ public class ...
Blazor Webassembly多标签页开发
最近准备用Blazor Webassembly做后台开发要用到多标签页,找了半天发现绝大多数都是Blazor Server的多标签没有Webassembly.没办法只能自己想办法造轮子了. 查了许多资 ...