(4)分布式下的爬虫Scrapy应该如何做-规则自动爬取及命令行下传参

本次探讨的主题是规则爬取的实现及命令行下的自定义参数的传递，规则下的爬虫在我看来才是真正意义上的爬虫。

我们选从逻辑上来看，这种爬虫是如何工作的：

我们给定一个起点的url link ，进入页面之后提取所有的ur 链接，我们定义一个规则，根据规则(用正则表达式来限制)来提取我们想要的连接形式，然后爬取这些页面，进行一步的处理(数据提取或者其它动作)，然后循环上述操作，直到停止，这个时候有一个潜在的问题，就是重复爬取，在scrapy 的框架下已经着手处理了这些问题，一般来说，对于爬取过滤的问题，通用的处理方式是建立一个地址表，在爬取之前查一下这个地址表，是否已经爬取过，如果是，则直接过滤掉。另一种就是使用现成的通用解决方案，bloom filter

本次讨论的是如何使用CrawlSpider 来进行爬取豆瓣标签下的所有小组的信息：

一，我们新建立一个类，继承自CrawlSpider

from scrapy.spiders import CrawlSpider, Rule

from scrapy.linkextractors import LinkExtractor

from douban.items import GroupInfo

class MySpider(CrawlSpider):

关于CrawlSpider的更多说明，请参考：http://doc.scrapy.org/en/latest/topics/spiders.html#crawlspider

二，为了完成命令行下的参数传递，我们需要在类的构造函数里面输入我们想要的参数

：

在命令行下这样使用：

scrapy crawl douban.xp --logfile=test.log -a target=%E6%96%87%E5%85%B7

这样就可以将自定义的参数传入到里面

这里特别说明最后的一行：super(MySpider, self).__init__()

我们转到定义，查看CrawlSpider 的定义：

构造函数会调用私有方法编译rules变量，如果在我们自己定义的Spider里面没有调用方法，会直接报错的。

三，编写规则：

     self.rules = (

            Rule(LinkExtractor(allow=('/group/explore[?]start=.*?[&]tag=.*?$', ), restrict_xpaths=('//span[@class="next"]')), callback='parse_next_page',follow=True),

            )

allow 定义想要提取标签样式，使用正则匹配，restrict_xpaths 严格限制这种标签的范围在指定的标签内，callback ,提取到之后的回调函数。

四，全部代码参考：

from scrapy.spiders import CrawlSpider, Rule

from scrapy.linkextractors import LinkExtractor

from douban.items import GroupInfo

class MySpider(CrawlSpider):

    name = 'douban.xp'

    current = ''

    allowed_domains = ['douban.com']

    def __init__(self, target=None):

        if self.current is not '':

            target = self.current

        if target is not None:

            self.current = target

        self.start_urls = [

                'http://www.douban.com/group/explore?tag=%s' % (target)

            ]

        self.rules = (

            Rule(LinkExtractor(allow=('/group/explore[?]start=.*?[&]tag=.*?$', ), restrict_xpaths=('//span[@class="next"]')), callback='parse_next_page',follow=True),

            )

        #call the father base function

        super(MySpider, self).__init__()       

    def parse_next_page(self, response):

        self.logger.info(msg='begin init the page %s ' % response.url)

        list_item = response.xpath('//a[@class="nbg"]')

        #check the group is not null

        if list_item is None:

            self.logger.info(msg='cant select anything in selector ')

            return

        for a_item in list_item:

            item = GroupInfo()

            item['group_url'] = ''.join(a_item.xpath('@href').extract())

            item['group_tag'] = self.current

            item['group_name'] = ''.join(a_item.xpath('@title').extract())

            yield item

    def parse_start_url(self, response):

        self.logger.info(msg='begin init the start page %s ' % response.url)

        list_item = response.xpath('//a[@class="nbg"]')

        #check the group is not null

        if list_item is None:

            self.logger.info(msg='cant select anything in selector ')

            return

        for a_item in list_item:

            item = GroupInfo()

            item['group_url'] = ''.join(a_item.xpath('@href').extract())

            item['group_tag'] = self.current

            item['group_name'] = ''.join(a_item.xpath('@title').extract())

            yield item

    def parse_next_page_people(self, response):

        self.logger.info('Hi, this is an the next page! %s', response.url)

五，实际运行：

scrapy crawl douban.xp --logfile=test.log -a target=%E6%96%87%E5%85%B7

实际的数据效果：

本次主要解决两个问题：

1.如何从命令行下传递参考

2.如何编写CrawlSpider

里面的演示的功能都比较有限，实际的运行中其实是需要进一步编写其它的规则，比如如何防止被ban，下一篇在简短的介绍下

(4)分布式下的爬虫Scrapy应该如何做-规则自动爬取及命令行下传参的更多相关文章

(9)分布式下的爬虫Scrapy应该如何做-关于ajax抓取的处理(一)
转载请注明出处:http://www.cnblogs.com/codefish/p/4993809.html 最近在群里频繁的被问到ajax和js的处理问题,我们都知道,现在很多的页面都是用动态加载的 ...
(2)分布式下的爬虫Scrapy应该如何做-关于对Scrapy的反思和核心对象的介绍
本篇主要介绍对于一个爬虫框架的思考和,核心部件的介绍,以及常规的思考方法: 一,猜想我们说的爬虫,一般至少要包含几个基本要素: 1.请求发送对象(sender,对于request的封装,防止被封) ...
(5)分布式下的爬虫Scrapy应该如何做-windows下的redis的安装与配置
软件版本: redis-2.4.6-setup-64-bit.exe — Redis 2.4.6 Windows Setup (64-bit) 系统: win7 64bit 本篇的内容是为了给分布式下 ...
(3)分布式下的爬虫Scrapy应该如何做-递归爬取方式，数据输出方式以及数据库链接
放假这段时间好好的思考了一下关于Scrapy的一些常用操作,主要解决了三个问题: 1.如何连续爬取 2.数据输出方式 3.数据库链接一,如何连续爬取: 思考:要达到连续爬取,逻辑上无非从以下的方向着 ...
scrapy框架之CrawlSpider全站自动爬取
全站数据爬取的方式 1.通过递归的方式进行深度和广度爬取全站数据,可参考相关博文(全站图片爬取),手动借助scrapy.Request模块发起请求. 2.对于一定规则网站的全站数据爬取,可以使用Cra ...
(8)分布式下的爬虫Scrapy应该如何做-图片下载(源码放送)
转载主注明出处:http://www.cnblogs.com/codefish/p/4968260.html 在爬虫中,我们遇到比较多需求就是文件下载以及图片下载,在其它的语言或者框架中,我们可能 ...
(1)分布式下的爬虫Scrapy应该如何做-安装
关于Scrapy的安装,网上一搜一大把,一个一个的安装说实话是有点麻烦,那有没有一键安装的?答案显然是有的,下面就是给神器的介绍: 主页:http://conda.pydata.org/docs/ 下 ...
kvm--virsh命令行下管理虚拟机
virsh 既有命令行模式,也有交互模式,在命令行直接输入 virsh 就进入交互模式, virsh 后面跟命令参数,则是命令行模式: (1)基础操作 --- 命令行下管理虚拟机 virsh list ...
python网络爬虫之使用scrapy自动爬取多个网页
前面介绍的scrapy爬虫只能爬取单个网页.如果我们想爬取多个网页.比如网上的小说该如何如何操作呢.比如下面的这样的结构.是小说的第一篇.可以点击返回目录还是下一页对应的网页代码: 我们再看进入后面 ...

随机推荐

LA 3415 保守的老师
题目链接:https://vjudge.net/contest/161820#problem/E 题意: 有一些同学,要从中选出一些同学来,人数尽量多,但是,两两之间要满足至少一个条件(身高差> ...
课堂笔记——循环语句-for
一.循环:多次执行某段代码. 二.循环四要素: 1.初始条件 2.循环条件 3.状态改变 4.循环体三.for循环 1.语法: for(初始条件;循环条件;状态改变) { 循环体 } 2 ...
[19/03/23-星期六] 容器_ 泛型Generics
一.概念生活中的容器不难理解,是用来容纳物体的,程序中的“容器”也有类似的功能,就是用来容纳和管理数据. 数组就是一种容器,可以在其中放置对象或基本类型数据. ---优势:是一种简单的线性序列,可以 ...
msfconsole_无法启动问题
service postgresql start # 启动数据库服务 msfdb init # 初始化数据库 msfconsole # 启动metasploit
Mac上传文件到Linux服务器
1. 打开终端,选择 2.选择安全文件传输,输入连接主机IP 3.输入主机名 4.输入yes,然后输入主机密码,按回车结束确认连接输入远程主机密码 5.连接成功,上传文件 put 本地文件路径 ...
推荐一个zookeeper信息查看工具
zookeeper信息查看工具下载地址:https://issues.apache.org/jira/secure/attachment/12436620/ZooInspector.zip 解压,打 ...
idea 一次性自动导包
当复制粘贴一段纯文本代码时,许多类需要导包. 如图使用optimize imports了,发还是没有办法导入未导入的包,只能删除未使用导包,这跟eclipse不一样,让人很不习惯,查了好多资料都没有 ...
mac 上安装lua
mac 安装lua google了好个看起来都不怎么好操作,这个是在命令行下操作的很简单. http://www.lua.org/download.html curl -R -O http://www ...
ubuntu 网桥配置
vim /etc/network/interfaces auto lo iface lo inet loopback auto eth0 auto eth2 auto eth3 iface eth0 ...
一、安装 IntelliJ IDEA
首先,双击打开 IntelliJ IDEA 的快捷方式: 在此,需要说明: 如果咱们的电脑曾经安装过 IntelliJ IDEA,并且你在卸载 IntelliJ IDEA 的时候没有删除其配置文件目录 ...

(4)分布式下的爬虫Scrapy应该如何做-规则自动爬取及命令行下传参

(4)分布式下的爬虫Scrapy应该如何做-规则自动爬取及命令行下传参的更多相关文章

随机推荐

热门专题