scrapy之spider模块

scrapy中的spider的用法：

　　1、scrapy命令行可以传参数给构造器

scrapy crawl myspider -a category=electronics

　　构造器接收传入的参数

import scrapy

class MySpider(Spider):

name = 'myspider'

def __init__(self, category=None, *args, **kwargs):

super(MySpider, self).__init__(*args, **kwargs)

self.start_urls = ['http://www.example.com/categories/%s' % category]

# ...

　　2、spider.Spider：在系统生成的脚本或自己编写的脚本都必须要继承Spider类，功能是调用start_urls/start_requests并将结果给parse处理
　　　　allowd_domains:当offsiteMiddleware启用时，不在其内的域名不会被爬取

　　3、spider默认的运行规则：

　　　　1、spider启动

　　　　2、运行start_requests()，此方法使用get方法请求url,仅会被scrapy调用一次

　　　　3、start_requests调用make_requests_from_url(url)

　　　　4、start_urls中的url被请求，结果返回给parse 函数处理

　　scrapy默认使用get方法请求url,那当我要post登陆网站，再爬取数据，怎么办呢？

　　可以通过改写start_requests()方法来实现，改写了scrapy默认的运行规则

def start_requests(self):

    return [scrapy.FormRequest("http://www.example.com/login",

                               formdata={'user': 'john', 'pass': 'secret'},

                               callback=self.logged_in)]

def logged_in(self, response):

    # here you would extract links to follow and return Requests for

    # each of them, with another callback

    pass

　　4、parser():是scrapy 处理response的默认方法，负责返回处理的数据

scrapy-reids:

　　1、修改settings

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

ITEM_PIPELINES = {

    'scrapy_redis.pipelines.RedisPipeline':

}

REDIS_URL = 'redis://user:pass@hostname:9001'

scrapy之spider模块的更多相关文章

eclipse+PyDev 中报错"scrapy.spiders.Spider" ,可用"# @UndefinedVariable"压制.
# -*- coding:utf-8 -*- ''' Created on 2015年10月22日 (1.1) 例子来源: http://scrapy-chs.readthedocs.org/zh_C ...
让Scrapy的Spider更通用
1,引言 <Scrapy的架构初探>一文所讲的Spider是整个架构中最定制化的一个部件,Spider负责把网页内容提取出来,而不同数据采集目标的内容结构不一样,几乎需要为每一类网页都做定 ...
scrapy - 给scrapy 的spider 传值
scrapy - 给scrapy 的spider 传值方法一: 在命令行用crawl控制spider爬取的时候,加上-a选项,例如: scrapy crawl myspider -a categor ...
scrapy分布式Spider源码分析及实现过程
分布式框架scrapy_redis实现了一套完整的组件,其中也实现了spider,RedisSpider是在继承原scrapy的Spider的基础上略有改动,初始URL不在从start_urls列表中 ...
Scrapy:为spider指定pipeline
当一个Scrapy项目中有多个spider去爬取多个网站时,往往需要多个pipeline,这时就需要为每个spider指定其对应的pipeline. [通过程序来运行spider],可以通过修改配置s ...
Scrapy框架-Spider和CrawlSpider的区别
目录 1.目标 2.方法1:通过Spider爬取 3. 通过CrawlSpider爬取 1.目标 http://wz.sun0769.com/index.php/question/questionTy ...
Scrapy框架-Spider
目录 1. Spider 2.Scrapy源代码 2.1. Scrapy主要属性和方法 3.parse()方法的工作机制 1. Spider Spider类定义了如何爬取某个(或某些)网站.包括了爬取 ...
爬虫框架Scrapy之Spider
Spider Spider类定义了如何爬取某个(或某些)网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item). 换句话说,Spider就是您定义爬取的动作及 ...
BurpSuite—-Spider模块(蜘蛛爬行)
一.简介 Burp Spider 是一个映射 web 应用程序的工具.它使用多种智能技术对一个应用程序的内容和功能进行全面的清查. Burp Spider 通过跟踪 HTML 和 JavaScript ...

随机推荐

我从来不理解 JavaScript 闭包，直到有人这样向我解释它...
正如标题所述,JavaScript 闭包对我来说一直有点神秘,看过很多闭包的文章,在工作使用过闭包,有时甚至在项目中使用闭包,但我确实是这是在使用闭包的知识. 最近看国外的一些文章,终于,有人用于一种 ...
ubuntu下截图工具推荐 -- [deepin-scrot]
有时候我们需要在linux下截图来保存.如果你仅仅需要全屏截图的话其实可以直接按键盘上的PrScrn或者Press Print键盘按键来实现即可: 但是如果你需要对截图的图片进行标记.画个线画个圈加个 ...
Ubuntu 16.04下如何安装VMware-Workstation
一.下载下载地址:https://my.vmware.com/cn/group/vmware/details?downloadGroup=WKST-1411-LX&productId=686 ...
abstract、virtual、sealed、 interface、struct 基础知识整理
abstract abstract 修饰符指示被修改内容的实现已丢失或不完整. abstract 修饰符可用于类.方法.属性.索引和事件. 在类声明中使用 abstract修饰符以指示某个类仅旨在作为 ...
C# 常用验证
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.W ...
【Java基本功】一文读懂String及其包装类的实现原理
String作为Java中最常用的引用类型,相对来说基本上都比较熟悉,无论在平时的编码过程中还是在笔试面试中,String都很受到青睐,然而,在使用String过程中,又有较多需要注意的细节之处. S ...
C语言第十二讲,文件操作.
C语言第十二讲,文件操作. 一丶文件操作概述在操作系统中,我们的文档都称为文件.操作系统也为我们提供了接口进行操作.不同语言都是使用的相同的接口,只不过封装的上层接口不一样操作文件的步骤打开文件 ...
Java 在 CMD 环境下编译
1. 未引用第三方 Jar 包类(该 Java 类默认无包名) # 定位到类存放地址 cd E:\tsgg # 编译命令 javac Test.java # 执行命令 java Test 2. 引用第 ...
SqlServer 查看死锁的进程
版权声明:本文为走错路的程序员原创文章,欢迎转载. https://blog.csdn.net/phker/article/details/78612974搞sqlsever 好多年, 从来没锁过 ...
c#连接访问数据库（菜鸡篇）
C#如何访问数据库(小白篇) 刚入坑不久学习的路上还是遇到了不小的问题,昨天学习C#的时候需要连接数据库获取数据. 网上有很多这样的文章,说实话对于我这样的小白还真是有点难理解,经过一番周折总算是了解 ...

scrapy之spider模块

scrapy之spider模块的更多相关文章

随机推荐

热门专题