scrapy-yield scrapy.Request()不执行、失效、Filtered offsite request to错误 [转]

scrapy错误：yield scrapy.Request()不执行、失效、Filtered offsite request to错误。首先我们在Request（）方法里面添加这么一个东东：

yield Request(url, callback=self.parse_item, dont_filter=True)

如果发现成功执行，那你就得检查一下你的：allowed_domains，看看前面是不是添加了：http:// ，如（错误写法）：

allowed_domains = ["http://www.baidu.com"]

正确写法：

allowed_domains = ["www.baidu.com"]

去掉之后，把dont_filter=True也去掉，也能正常执行，其实这里是allowed_domains和去重出现了冲突，scrapy allowed_domains判断不严谨产生的问题，所以书写allowed_domains的时候一定不要加：http://

有疑问，请scrapy中文网留言呦！

scrapy-yield scrapy.Request()不执行、失效、Filtered offsite request to错误 [转]的更多相关文章

scrapy 爬网站显示 Filtered offsite request to 错误
爬取zol 网站图片,无法抓取. 在 setting.py 文件中设置日志记录等级 LOG_LEVEL= 'DEBUG' LOG_FILE ='log.txt' 查看日志发现报 2015-11 ...
报错 Filtered offsite request
用scrapy框架迭代爬取时报错 scrapy日志: 在 setting.py 文件中设置日志记录等级 LOG_LEVEL= 'DEBUG' LOG_FILE ='log.txt' 观察 scr ...
问题[scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to...
原因是二次解析的域名被过滤掉了, 解决办法解决办法一: yield scrapy.Request(url=detail_url, meta={'item': item}, callback=self ...
scrapy yield 回调函数不执行解决方案
yield Request(url=parse.urljoin(response.url, p_url),callback=self.parse_detail) 回调函数不执行: 加上: dont_f ...
scrapy yield Request
import scrapy from myproject.items import MyItem class MySpider(scrapy.Spider): name = ’example.com’ ...
python yield && scrapy yield
title: python yield && scrapy yield date: 2020-03-17 16:00:00 categories: python tags: 语法 yi ...
Scrapy研究探索（三）——Scrapy核心架构与代码执行分析
学习曲线总是这样,简单样例"浅尝".在从理论+实践慢慢攻破.理论永远是基础,切记"勿在浮沙筑高台". 一. 核心架构关于核心架构.在官方文档中阐述的非常清晰, ...
Scrapy中scrapy.Request和response.follow的区别
在写scrapy的spider类的parse方法的时候,有些链接需要提取出来继续爬取,这里scrapy提供了一些方法可以方便的实现这个功能,总结如下: 假设我们的目标a标签是target_a 方法1: ...
初识Scrapy——1—scrapy简单学习，伯乐在线实战、json数据保存
Scrapy——1 目录什么是Scrapy框架? Scrapy的安装 Scrapy的运行流程 Scrapy的使用实战:伯乐在线案例(json文件保存) 什么是Scrapy框架? Scrapy是用纯 ...

随机推荐

查询红帽linux/Oracle Linux的发行版本的方法
[root@localhost ~]# lsb_release -aLSB Version: :core-4.0-amd64:core-4.0-ia32:core-4.0-noarch:grap ...
setjmp/longjmp 处理异常
#include <stdio.h> #include <stdlib.h> #include <setjmp.h> jmp_buf jb; void f1() { ...
C++实现从一个文件夹中读出所有txt文件
前段时间做项目需要读取一个文件夹里面所有的txt文件,查询资料后得到以下实现方法:首先了解一下这个结构体struct _finddata_t { unsigned attrib; t ...
JMeter的__threadGroupName使用注意事项
JMeter从4.1版本开始引入了一个新函数"${__threadGroupName}",这个函数的作用是返回当前线程组的名字.${__threadGroupName}的用途也较为 ...
表格 - bootStrap4常用CSS笔记
[表格标签] <table> 定义一个表格 <thead> 表格表头 <tbody> 表格主体内容 <tr> 行 <th> 表头列 &l ...
PHPCMS V9 二次开发常用代码集
0:调用最新文章,带所在版块 {pc:get sql="SELECT a.title, a.catid, b.catid, b.catname, a.url as turl ,b.url a ...
CSS3实现垂直居中的新方法
测试地址: http://codepen.io/anon/pen/PZKZqe 兼容性:
Netty源码分析第3章(客户端接入流程)---->第3节: NioSocketChannel的创建
Netty源码分析第三章: 客户端接入流程第三节: NioSocketChannel的创建回到上一小节的read()方法: public void read() { //必须是NioEventLo ...
ELK环境搭建
ELK环境搭建 1. Virtualbox/Vagrant安装 41.1. Virtualbox安装 41.2. Vagrant安装 41.2.1. 简述 41.2.2. Vagrant box 41 ...
Python20-Day05
一.模块与包 1.模块什么是模块? 在python中,模块可以分为四个通用类别: 1. 使用python编写的.py文件 2. 已经被编译为共享库或DLL的c或者c++扩展 3. 把一系列模块组织到 ...

scrapy-yield scrapy.Request()不执行、失效、Filtered offsite request to错误 [转]

scrapy-yield scrapy.Request()不执行、失效、Filtered offsite request to错误 [转]的更多相关文章

随机推荐

热门专题