Scrapy之Request函数回调未执行 Filtered offsite request to 'XXX'

在爬取免费代理ip室发现，第一页爬取之后后续的多页爬取没有被解析。在查看调试信息时发现显示 Filtered offsite request to 'www.kuaidaili.com'，经网上查找先关问题解决方案，发现为域名爬取限制，即allowed_domains = ['www.kuaidaili.com/']字段。

解决方法：1.在allowed_domains中加入 url

　　　　　2.直接将allowed_domains = []，即不做限制

　　　　　3.将scrapy.Request(url=url, callback=self.parse,dont_filter=True)，中的dont_filter设置为True。

import scrapy

from freeIP_spider.items import FreeipSpiderItem

class FreeipSpider(scrapy.Spider):

    name = 'freeip'

    #allowed_domains = ['www.kuaidaili.com/']

    allowed_domains =[]

    start_urls = ['http://www.kuaidaili.com/free/inha/1//']

    # 爬取多页

    url = 'http://www.kuaidaili.com/free/inha/{}/'

    page = 1

    def parse(self, response):

        #实例化数据结构

        item= FreeipSpiderItem()

        tr= response.xpath('//table//tbody/tr')

        #print('=====================',len(tr))

        for td in tr:

            item['ip']= td.xpath('./td[1]/text()').extract_first()

            item['port']= td.xpath('./td[2]/text()').extract_first()

            item['ip_type']= td.xpath('./td[4]/text()').extract_first()

            # print('=====================')

            # print(item)

            # print('=====================')

            yield item

        # 爬取多页

        if self.page < 5:

            self.page+=1

            url = self.url.format(self.page)

            #yield scrapy.Request(url=url, callback=self.parse,dont_filter=True)

            yield scrapy.Request(url=url, callback=self.parse)

Scrapy之Request函数回调未执行 Filtered offsite request to 'XXX'的更多相关文章

scrapy-yield scrapy.Request()不执行、失效、Filtered offsite request to错误 [转]
scrapy错误:yield scrapy.Request()不执行.失效.Filtered offsite request to错误.首先我们在Request()方法里面添加这么一个东东: yiel ...
scrapy 爬网站显示 Filtered offsite request to 错误
爬取zol 网站图片,无法抓取. 在 setting.py 文件中设置日志记录等级 LOG_LEVEL= 'DEBUG' LOG_FILE ='log.txt' 查看日志发现报 2015-11 ...
报错 Filtered offsite request
用scrapy框架迭代爬取时报错 scrapy日志: 在 setting.py 文件中设置日志记录等级 LOG_LEVEL= 'DEBUG' LOG_FILE ='log.txt' 观察 scr ...
问题[scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to...
原因是二次解析的域名被过滤掉了, 解决办法解决办法一: yield scrapy.Request(url=detail_url, meta={'item': item}, callback=self ...
Scrapy - Request 中的回调函数callback不执行
回调函数callback不执行大概率是被过滤了两种方法: 在 allowed_domains 中加入目标url 在 scrapy.Request() 函数中将参数 dont_filter=True ...
DLL与EXE之间的通讯调用以及回调函数的线程执行空间
dll 与 exe 之间的通讯方式有很多种, 本文采用回调函数的方法实现, 本文也将研究多线程,多模块的情况下,回调函数所在的线程, 啥也不说了,先附上代码: 下面的是dll模块的的, dll的工程文 ...
vue组件中—bus总线事件回调函数多次执行的问题
在利用vue组件进行事件监听时发现,如果对N个vue组件实例的bus总线绑定同一事件的回调函数,触发任意组件的对应事件,回调函数至少会被执行N次,这是为什么呢? 为此,调研了普通对象的事件绑定和触发实 ...
ajax.request函数使用详解
Ajax.Request ? Ajax.Request( url, { method:method, parameters:para, postBody:xmlString, asynchrono ...
TinScrapy-简化的Scrapy原码-查看爬虫的执行流程
学习了自定义的TinyScrapy框架,整理出以下定注释的代码 from twisted.web.client import getPage,defer from twisted.internet i ...
【Cocos2d-X开发学习笔记】第18期：动作类之改变动作对象、函数回调动作以及过程动作的使用
本系列学习教程使用的是cocos2d-x-2.1.4(最新版为3.0alpha0-pre) ,PC开发环境Windows7,C++开发环境VS2010 一.改变动作执行对象 CCTargetedAct ...

随机推荐

webgl 系列 —— 初识 WebGL
初识 WebGL 什么是 WebGL webgl 在支持 canvas 的浏览器中进行 2d 或 3d 渲染. webgl 程序除了有 Html.javascript,还需要加入着色器语言(GLSL ...
PE头结构解析（代码实现）
PE头结构解析(代码实现) 图表实现在:https://www.cnblogs.com/juicyhumberger/articles/17064764.html #include "std ...
LeetCode算法训练-贪心算法 455.分发饼干 376. 摆动序列 53. 最大子序和
欢迎关注个人公众号:爱喝可可牛奶 LeetCode算法训练-贪心算法 455.分发饼干 376. 摆动序列 53. 最大子序和前置知识贪心算法核心是找局部最优解,通过局部最优推导出全局最优 Lee ...
Python爬虫-爬取17K小说
随笔记录方便自己和同路人查阅. #------------------------------------------------我是可耻的分割线--------------------------- ...
栈的数学性质：n个不同元素入栈，出栈元素不同排列的个数的推导，卡特兰数（明安图数）的推导
栈的数学性质:n个不同元素入栈,出栈元素不同排列的个数的推导,卡特兰数(明安图数)的推导前言:重在记录,可能出错. 这部分内容借鉴了网络上的一些内容.如:什么是卡特兰数?和怎么理解出栈顺序有多少种? ...
thinkphp5框架使用总结
因为采用了mvc模式,所以理解上为了简便,把控制中心作为一个浏览对象去处理,其他不要去考虑只把它们当做附属物一.路径访问方式 http://网址/index.php/模块/控制器/操作.html 其 ...
vscode 开发c++
makefile.mk #makefile.mk 公共头文件 ifndef TARGET # /root/make/src/test_include # notdir TARGET:=$(notdir ...
ubuntu22.04 git升级
git --version //查看版本 sudo add-apt-repository ppa:git-core/ppa //通过PPA源方式安装软件的添加PPA源到Source list中的 ...
字典集合：Dictionary
字典键值对的键是唯一的,如果添加了相同键的项就会抛异常,可以通过索引的方式进行重新赋值 using System; using System.Collections.Generic; using Sy ...
在docker中，运行Jcmd命令，报错
起因: 想调整JVM的设置,观察一下当前jvm进程的资源情况. 输入:docker exec -it xxxxx /bin/sh 输入: jcmd 1 help ,报错 com.sun.tools.a ...

Scrapy之Request函数回调未执行 Filtered offsite request to 'XXX'

Scrapy之Request函数回调未执行 Filtered offsite request to 'XXX'的更多相关文章

随机推荐

热门专题