python爬虫——绕开杂乱无章的代码和堵住请求的302异常（2）

　　淘宝那次抓包，居然发现不了要抓的url位置，三星中。。。

　　不过不怕，不就是没法快点分析出包嘛，下次用phantomJS硬杠，或者有时间慢慢分析也好。

　　今天挑战一个稍微好爬的网站：狗搬家（误）

　　打开后台代码一看，山口山

　　一堆<p style="display:none;">直接影响分析数据。

　　有个运用无头浏览器的爬虫使用了图像分析法，不过老夫真心认为这玩意还是不要随便用比较好，就像一些简单的网站不要用phantomJS一样

　　稍微分析ip那里的代码就可以找到解的（避免查水表不发布源代码）去除html标签，连着里面的元素去除什么的，用regex还是比较简单的

　　结果想再爬这个网页时，出现了302重定向

　　这里，直接ban掉重定向没有多大用，关键是识别到状态再根据情况重新请求。

　　从stackoverflow一哥们那里搞来了这段代码：

self.log("(parse_page) response: status=%d, URL=%s" % (response.status, response.url))

        if response.status in (302,) and 'Location' in response.headers:

            self.log("(parse_page) Location header: %r" % response.headers['Location'])

            yield Request(response.headers['Location'],callback=self.parse,meta=self.meta)

　　这段代码判定返回状态，并根据情况决定要不要重传。（这里应该有urljoin的，不知为何我安装的scrapy没有）

　　结果是yield后面的代码没有运行就退出了。

　　还是一样去stackoverflow求助，结果有人告诉我，ban了filter。

　　dont_filter这个参数开始是为了防止程序死循环设计的，然鹅在这个框架就成了问题，它不能yield第二层request

　　初始化request时，dont_filter=true，程序就会不管3721把请求提交，然后数据就返回了

　　幸好这里的302不会一直302，只要cookies对上了，返回的就是200和网页代码，不会出现栈溢出

self.log("(parse_page) response: status=%d, URL=%s" % (response.status, response.url))

        if response.status in (302,) and 'Location' in response.headers:

            self.log("(parse_page) Location header: %r" % response.headers['Location'])

            yield Request(response.headers['Location'],callback=self.parse,meta=self.meta,dont_filter=True)

　　后来仔细看源码。。。特码这个教程只解决了display:none和302的问题，实际的数据还是有毒。。。

　　看了下http://www.cnblogs.com/w-y-c-m/p/6879551.html这位兄台的方法，姿势get到了！不仅知道了如何反混淆，还学会了debug网站

python爬虫——绕开杂乱无章的代码和堵住请求的302异常（2）的更多相关文章

python爬虫如何POST request payload形式的请求
python爬虫如何POST request payload形式的请求1. 背景最近在爬取某个站点时,发现在POST数据时,使用的数据格式是request payload,有别于之前常见的 POST数 ...
Python爬虫教程(16行代码爬百度)
最近在学习python,不过有一个正则表达式一直搞不懂,自己直接使用最笨的方法写出了一个百度爬虫,只有短短16行代码.首先安装必背包: pip3 install bs4 pip3 install re ...
Python爬虫个人梳理（代码有空写）
这里多是摘抄的,只是用于个人理解. 1.urlopen().read()是爬取网页的内容,出来可能是一堆的源代码.和我们右击网页查看是一样的. 2.当用到http请求的时候,我们可以使用Request ...
Python爬虫_qq音乐示例代码
import requests url = 'https://c.y.qq.com/soso/fcgi-bin/client_search_cp' for x in range(5): headers ...
python爬虫(五)_urllib2:Get请求和Post请求
本篇将介绍urllib2的Get和Post方法,更多内容请参考:python学习指南 urllib2默认只支持HTTP/HTTPS的GET和POST方法 urllib.urlencode() urll ...
Python爬虫常用之登录(三) 使用http请求登录
前面说了使用浏览器登录较为简单,不需要过多分析,而使用请求登录恰恰就是以分析为主. 开发一个请求登录程序的流程: 分析请求->模拟请求->测试登录->调整参数->测试登录-&g ...
python接口自动化测试四：代码发送HTTPS请求
HTTPS: get: url = 'https://www.juhe.cn/docs/api/id/39' r = requests.get(url) # ...
python接口自动化测试三：代码发送HTTP请求
get请求: 1.get请求(无参数): 2.get请求(带参数): 接口地址:http://japi.juhe.cn/qqevaluate/qq 返回格式:json 请求方式:get post 请求 ...
【python爬虫】scrapy入门8:发送POST请求
scrapy基础知识之发送POST请求与使用 FormRequest.from_response() 方法模拟登陆 https://blog.csdn.net/qq_33472765/article/ ...

随机推荐

hbase region still in transition
1,删除hbase中的 hbase:meta表中相应的region的row 如; get 'hbase:meta','kylin_metadata,,1481101316881.f3b4c7c1148 ...
iOS WebView中视频横屏播放返回导航栏在状态栏下面
iOS9以上系统横屏播放UIWebView中的视频返回后会出现以下问题:1.如图,UIWebView中包含一个视频: 1 2.播放web内容中的视频,并横屏观看: 2 3.直接在横屏状态下返回 ...
第四天，通过windows来执行第一个python文件步骤
该看第 38部分的啦
Vue中axios踩坑之路-POST传参
https://blog.csdn.net/call_me_fly/article/details/79012581
poj 2826
太自闭了...明明很水的说... 有三种为0的情况.一种是有水平,一种是没交点. 第三种有点难想啊.就是下面那个板子被上面的挡住了,,雨水进不去... 关键是我翻了翻discuss找到了这种数据,,但 ...
Java课程寒假之《人月神话》有感之一
一.焦油坑以前上课的时候,老师讲过早期的程序由于工作量不大,大多只需要几个人完成,随着软件规模的不断扩大,代码量直线上升,仅仅一两个人可能没有办法完成这样的任务,多以开始形成了团队的规模,焦油坑说的 ...
微信小程序之wx.showmodal
1. . wx.showModal({ title: "2222步", content: currentCache ? "确定为自己城市添加步数吗" : &qu ...
mui 弹窗提醒，form表单基本信息
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <meta name ...
C语言定义的操作mysql数据库的接口
编写的环境:centos7系统下,对mysql的衍生mariadb进行数据库的操作,包含设置访问数据库的参数,查询数据库和增删改数据库的三个功能.对于查询数据库,我这里允许不返回查询结果,用于判断查询 ...
spring管理的类如何调用非spring管理的类
spring管理的类如何调用非spring管理的类. 就是使用一个spring提供的感知概念,在容器启动的时候,注入上下文即可. 下面是一个工具类. import org.springframewor ...

python爬虫——绕开杂乱无章的代码和堵住请求的302异常（2）

python爬虫——绕开杂乱无章的代码和堵住请求的302异常（2）的更多相关文章

随机推荐

热门专题