一. domz.py

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

class DmozSpider(CrawlSpider):

    """Follow categories and extract links."""

    name = 'dmoz'

    #gihtub上面给的举例网址挂了，换成这个

    allowed_domains = ['dmoztools.net']

    start_urls = ['http://dmoztools.net/']

    #这个链接提取器秩序要定位到标签，他会自动提取链接

    rules = [

        Rule(LinkExtractor(

            restrict_css=('.top-cat', '.sub-cat', '.cat-item')

        ), callback='parse_directory', follow=True),

    ]

    #解析过程

    def parse_directory(self, response):

        for div in response.css('.title-and-desc'):

            yield {

                'name': div.css('.site-title::text').extract_first(),

                'description': div.css('.site-descr::text').extract_first().strip(),

                'link': div.css('a::attr(href)').extract_first(),

            }

　　看一下和scapy的主要区别：

二. settings.py

# Scrapy settings for example project

#

# For simplicity, this file contains only the most important settings by

# default. All the other settings are documented here:

#

#     http://doc.scrapy.org/topics/settings.html

#

SPIDER_MODULES = ['example.spiders']

NEWSPIDER_MODULE = 'example.spiders'

#ua不同

USER_AGENT = 'scrapy-redis (+https://github.com/rolando/scrapy-redis)'

#比scrappy多了这三行

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"  #指定去重方法给requests对象去重

SCHEDULER = "scrapy_redis.scheduler.Scheduler"              #指定scheduler队列

SCHEDULER_PERSIST = True                                    #队列中的内容是否持久化保存，如果为False会在会在关闭redis的时候清空redis

#SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"

#SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"

#SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

#pipline多了下面一行，并且打开的

ITEM_PIPELINES = {

    'example.pipelines.ExamplePipeline': 300,

    'scrapy_redis.pipelines.RedisPipeline': 400,   #scrapy_redis实现item保存到redis的pipline

}

LOG_LEVEL = 'DEBUG'

# 这个需要自己添加

#链接数据库，只要pipline开启，并且'scrapy_redis.pipelines.RedisPipeline': 400,

#那么数据就会保存到数据库，并且我们并不需要去pipline写保存的函数

REDIS_URL='redis://127.0.0.1:6379'

#redis也可以这么写：

# REDIS_HOST='127.0.0.1'

# REDIS_PORT=6379

# Introduce an artifical delay to make use of parallelism. to speed up the

# crawl.

DOWNLOAD_DELAY = 1

三.运行爬虫后的的结果

　　进入项目文件夹，执行：

scrapy crawl domz

　　再看一下数据库：

注意：

　　1.这个并没有用到items和pipline所以我们先研究这两个文件

四.注释掉写入reid的语句，在运行一下看下结果　　

　　在settings.py 注释这一句

ITEM_PIPELINES = {

    'example.pipelines.ExamplePipeline': 300,

    # 'scrapy_redis.pipelines.RedisPipeline': 400,

}

　　运行爬虫，发现

爬虫正常运行，但是items的数量并没有增多，说明RedisPipeline只是实现了item出具存储到redis的过程，
我们可以新建一个pipeline（或者修改example的的examplepipinne），让数据存储到任意地方

scrapy_redis之官网列子domz的更多相关文章

React 官网列子学习
一个有状态的组件除了接受输入数据(通过 this.props ),组件还可以保持内部状态数据(通过this.state ).当一个组件的状态数据的变化,展现的标记将被重新调用render() 更新. ...
转+更新 Graphviz 教程,例子+ 高级应用写代码,编程绘制架构图(分层拓扑图) 转自官网
1. Graphviz介绍 Graphviz是大名鼎鼎的贝尔实验室的几位牛人开发的一个画图工具. 它的理念和一般的“所见即所得”的画图工具不一样,是“所想即所得”. Graphviz提供了dot语言来 ...
千呼万唤始出来，微软Power BI简体中文版官网终于上线了，中文文档也全了。。
前几个月时间,研究微软Power BI技术,由于没有任何文档和资料,只能在英文官网瞎折腾,同时也发布了英文文档的相关文章:系列文章,刚好上周把文章发布完,结果简体中文版上线了.哈哈,心里有苦啊,早知道 ...
Yeoman 官网教学案例：使用 Yeoman 构建 WebApp
STEP 1:设置开发环境与yeoman的所有交互都是通过命令行.Mac系统使用terminal.app,Linux系统使用shell,windows系统可以使用cmder/PowerShell/c ...
一键生成APP官网
只需要输入苹果下载地址,安卓市场下载地址,或者内测下载地址,就能一键生成APP的官网,方便在网上推广. 好推APP官网 www.hotapp.cn/app
RavenDB官网文档翻译系列第一
本系列文章主要翻译自RavenDB官方文档,有些地方做了删减,有些内容整合在一起.欢迎有需要的朋友阅读.毕竟还是中文读起来更亲切吗.下面进入正题. 起航获取RavenDB RavenDB可以通过Nu ...
FineUI（开源版）v4.2.2发布（8年125个版本，官网示例突破300个）！
开源版是 FineUI 的基石,从 2008 年至今已经持续发布了 120 多个版本,拥有会员 15,000 多位,捐赠会员达到 1,200 多位. FineUI(开源版)v4.2.2 是 8 年 ...
[干货]Chloe官网及基于NFine的后台源码毫无保留开放
扯淡经过不少日夜的赶工,Chloe 的官网于上周正式上线.上篇博客中LZ说过要将官网以及后台源码都会开放出来,为了尽快兑现我说过的话,趁周末,我稍微整理了一下项目的源码,就今儿毫无保留的开放给大家, ...
React.js 官网入门教程分离文件操作无法正常显示HelloWord
对着React官网的教程练习操作,在做到分离文件练习时,按照官网步骤来却怎么也无法正常显示HelloWord. 经测试,html文件中内容改为: <!DOCTYPE html><ht ...

随机推荐

数字图像处理实验（8）：PROJECT 04-04，Highpass Filtering Using a Lowpass Image 标签：图像处理MATLAB 2017-05-25 0
实验要求: 高通滤波器可以通过1减去低通滤波器的传递函数得到. 使用公式计算可以的得到 . 实验代码: % PROJECT 04-04 Highpass Filtering Using a Lowp ...
6.AND & OR 运算符
AND 和 OR 运算符用于基于一个以上的条件对记录进行过滤 AND 和 OR 运算符 AND 和 OR 可在 WHERE 子语句中把两个或多个条件结合起来. 如果第一个条件和第二个条件都成立,则 A ...
ESP8266文档阅读ESP8266 SDK 入门指南
ESP8266 SDK 入门指南 1.概述 1.2.ESP8266 HDK 1.3.ESP8266 SDK 1.4.ESP8266 FW 1.5.ESP8266 工具集 2.1.开发板方案 3.软件 ...
ubuntu扩展屏幕
1.了解设置的名称直接运行xrandr(不带任何参数)就可以显示出当前的显示设备及设备的模式. xdj@xdj-Presario-CQ42-Notebook-PC:~$ xrandr Screen ...
基于任务的异步编程模式，Task-based Asynchronous Pattern
术语: APM 异步编程模型,Asynchronous Programming Model,其中异步操作由一对 Begin/End 方法(如 FileStream.BeginRea ...
jsp-MySQL连接池
1．将数据库驱动程序的JAR文件放在Tomcat的 common/lib 中: mysql-connector-java-5.1.18-bin.jar 下载地址:https://yunpan.cn/c ...
CSS3的2D与3D转换
2D和3D转换涉及到数学中的知识,作为一个数学专业的毕业生,不研究一下岂不是对不起自己的专业? 首先来看几个参数: 1.transform-origin:origin(起源,起点),也即变形的起点,在 ...
mysql数据库学习小结
数据库的学习可以从以下几个层次了解掌握,这样思路清晰后后面不管怎么变化都可以随时应变: 1.mysql基础知识 2.操作数据库的方法,增删改查 3.jdbc连接数据库,工作原理难点重点,如:P ...
我用Django搭网站(1)-新浪微博登录
新浪微博第三方登录使用的是OAuth2.0,开发前提已经注册开发者帐号,是开发者. OAuth简介 OAuth: OAuth(开放授权)是一个开放标准,允许用户授权第三方网站访问他们存储在另外的服务提 ...
TCP连接状态-如何判断一个TCP连接是否可用
在使用一个长连接的TCP时,如果TCP服务器端接收到TCP的客户端连接过来后,接着服务器端的TCP节点需要对这个客户端进行数据收发,收发时需要判断这个SOCKET是否可用用,判断方法有多种: 1.li ...

scrapy_redis之官网列子domz

一. domz.py

二. settings.py

三.运行爬虫后的的结果

四.注释掉写入reid的语句，在运行一下看下结果

scrapy_redis之官网列子domz的更多相关文章

随机推荐

热门专题

四.注释掉写入reid的语句，在运行一下看下结果