基于Scrapy框架的增量式爬虫

概述

概念：监测

核心技术：去重

基于 redis 的一个去重

适合使用增量式的网站：

基于深度爬取的
- 对爬取过的页面url进行一个记录（记录表）
基于非深度爬取的
- 记录表：爬取过的数据对应的数据指纹
  - 数据指纹：原始数据的一组唯一标识
  - 数据 –> 数据指纹 –> 库中查询
  - hashlib

所谓的记录表是以怎样的形式存在于哪？

redis的set充当记录表

例子

爬取4567电影网中影片名称以及简介，当网站有更新时爬取增加的了数据。

地址为：https://www.4567tv.tv/frim/index1.html
该例为基于深度爬取的。

scrapy startproject zlsPro

scrapy genspider zls www.xxx.com

①

使用手动传参进行深度的爬取
使用 self.conn.sadd('movie_url', detail_url) 的返回值来判断是否爬取过该电影。

# zls.py
# -*- coding: utf-8 -*-
import scrapy
from zlsPro.items import ZlsproItem
from redis import Redis

class ZlsSpider(scrapy.Spider):
    name = 'zls'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.4567tv.tv/frim/index1.html']
    conn = Redis('127.0.0.1', 6379)

    def parse(self, response):
        li_list = response.xpath('/html/body/div[1]/div/div/div/div[2]/ul/li')
        for li in li_list:
            title = li.xpath('./div/div/h4/a/text()').extract_first()
            detail_url = 'https://www.4567tv.tv' + li.xpath('./div/div/h4/a/@href').extract_first()
            ret = self.conn.sadd('movie_url', detail_url)
            if ret:
                # 如果成功写入则该url不存在，可以之后后续操作：
                performer = li.xpath('./div/div/p/text()').extract_first()
                item = ZlsproItem()
                item['title'] = title
                item['performer'] = performer
                yield scrapy.Request(detail_url, callback=self.parse_detail, meta={'item': item})
            else:
                print('暂无更新的数据')

    def parse_detail(self, response):
        item = response.meta['item']
        content = response.xpath(
            '//div[@class="stui-content__detail"]/p/span[@class="detail-content"]/text()').extract_first()
        item['content'] = content
        yield item

②

定义Item

# items.py
import scrapy

class ZlsproItem(scrapy.Item):
    # define the fields for your item here like:
    title = scrapy.Field()
    performer = scrapy.Field()
    content = scrapy.Field()

③

定义pipeline
传入redis

# pipelines.py
class ZlsproPipeline(object):

    def process_item(self, item, spider):
        title = item['title']
        performer = item['performer']
        content = item['content']
        conn = spider.conn
        conn.lpush('movie', item)
        return item

基于Scrapy框架的增量式爬虫的更多相关文章

基于Scrapy框架的Python新闻爬虫
概述该项目是基于Scrapy框架的Python新闻爬虫,能够爬取网易,搜狐,凤凰和澎湃网站上的新闻,将标题,内容,评论,时间等内容整理并保存到本地详细代码下载:http://www.demoda ...
Scrapy 增量式爬虫
Scrapy 增量式爬虫 https://blog.csdn.net/mygodit/article/details/83931009 https://blog.csdn.net/mygodit/ar ...
基于scrapy框架的爬虫
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. scrapy 框架高性能的网络请求高性能的数据解析高性能的 ...
基于scrapy框架输入关键字爬取有关贴吧帖子
基于scrapy框架输入关键字爬取有关贴吧帖子站点分析首先进入一个贴吧,要想达到输入关键词爬取爬取指定贴吧,必然需要利用搜索引擎点进看到有四种搜索方式,分别试一次,观察url变化我们得知: 搜 ...
使用scrapy框架做赶集网爬虫
使用scrapy框架做赶集网爬虫一.安装首先scrapy的安装之前需要安装这个模块:wheel.lxml.Twisted.pywin32,最后在安装scrapy pip install wheel ...
爬虫---scrapy分布式和增量式
分布式概念: 需要搭建一个分布式的机群, 然后在每一台电脑中执行同一组程序, 让其对某一网站的数据进行联合分布爬取. 原生的scrapy框架不能实现分布式的原因调度器不能被共享, 管道也不能被共享 ...
基于scrapy框架的分布式爬虫
分布式概念:可以使用多台电脑组件一个分布式机群,让其执行同一组程序,对同一组网络资源进行联合爬取. 原生的scrapy是无法实现分布式调度器无法被共享管道无法被共享基于 scrapy+redi ...
基于scrapy框架的爬虫基本步骤
本文以爬取网站代码的边城为例 1.安装scrapy框架详细教程可以查看本站文章点击跳转 2.新建scrapy项目生成一个爬虫文件.在指定的目录打开cmd.exe文件,输入代码 scrapy ...
Scrapy框架实战-妹子图爬虫
Scrapy这个成熟的爬虫框架,用起来之后发现并没有想象中的那么难.即便是在一些小型的项目上,用scrapy甚至比用requests.urllib.urllib2更方便,简单,效率也更高.废话不多说, ...

随机推荐

metal sample code
https://developer.apple.com/metal/sample-code/ 又被我发现了个宝贝
jvm crash分析
问题描述:线上进程异常退出,查看服务器端日志,有jvm crash文件生成 # # A fatal error has been detected by the Java Runtime Enviro ...
BZOJ 2759 一个动态树好题 (LCT)
PoPoQQQ 再一次orz-没看得特别明白的可以回来看看蒟蒻的补充口胡我这里提一下关于splaysplaysplay维护的子树信息- 在原树上考虑,对于每一个点iii都有这样一个信息xi=ki∗x ...
Springboot项目关闭Httpclient的Debug日志
今天在做httpclient测试时,发现控制台打印了好多请求相关的信息,如何去掉这些不打印? (2)在配置文件包下加入logback.xml文件,文件内容如下: <?xml version=&q ...
Verilog状态机使用技巧
“没有什么难处是通过增加一个状态机不能够解决的,如果不行,那就俩..” 在实现某种功能时,若感觉该功能的各种可能状态间的切换太绕了,此时,增加一个状态机往往能使思路变得清晰,功能的实现也就简单明了了. ...
pycharm批量查找替换,正则匹配
ctrl + r:查找替换 ctrl+f:查找 ctrl+shift+r:全局查找替换 ctrl+alt+f:全局查找 shift+tab将代码左对齐 replace all 完成
mybatis标签selectkey无法返回主键值
使用WinDbg内核调试[转]
Technorati 标签: windbg,内核调试 WINDOWS调试工具很强大,但是学习使用它们并不容易.特别对于驱动开发者使用的WinDbg和KD这两个内核调试器(CDB和NTSD是用户态调试器 ...
codeforces#1108E2. Array and Segments （线段树+扫描线）
题目链接: http://codeforces.com/contest/1108/problem/E2 题意: 给出$n$个数和$m$个操作每个操作是下标为$l$到$r$的数减一选出某些操作,使$ ...
[pytorch] 自定义激活函数中的注意事项
如何在pytorch中使用自定义的激活函数? 如果自定义的激活函数是可导的,那么可以直接写一个python function来定义并调用,因为pytorch的autograd会自动对其求导. 如果自定 ...

基于Scrapy框架的增量式爬虫

概述

例子

①

②

③

基于Scrapy框架的增量式爬虫的更多相关文章

随机推荐

热门专题