Scrapy 框架增量式

增量式:

用来检测网站中数据的更新情况

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from redis import Redis

class DianyingSpider(CrawlSpider):

    """

    www.4567tv.tv

    """

    name = 'dianying'

    # allowed_domains = ['https://www.4567tv.tv/index.php/vod/show/id/1/page/388.html']

    start_urls = ['https://www.4567tv.tv/index.php/vod/show/id/8/page/1.html']

    link = LinkExtractor(allow=r'/index.php/vod/show/id/8/page/\d+\.html')

    rules = (

        Rule(link, callback='parse_item', follow=True),

    )

    conn = Redis(host='127.0.0.1', port=6379)

    def parse_item(self, response):

        li_list = response.xpath('//li[@class="col-md-6 col-sm-4 col-xs-3"]')

        for li in li_list:

            detail_url = 'https://www.4567tv.tv' + li.xpath('./div/a/@href').extract_first()

            if_num = self.conn.sadd('dianying', detail_url)

            print(if_num)

            if if_num:

                print('有最新数据的更新......')

                # yield scrapy.Request(url=detail_url, callback=self.detail_callback)

            else:

                print('暂无最新数据可爬取......')

    def detail_callback(self, response):

        title = response.xpath('//h1/text()').extract_first()

        zhuyan = response.xpath('//div[@class="stui-content__detail"]/p[2]//text()').extract()

        print(title, zhuyan)

对于文本内容使用

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from redis import Redis

from qiubaiPro.items import QiubaiproItem

import hashlib

class QiubaiSpider(CrawlSpider):

    name = 'qiubai'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://www.******.com/text/']

    conn = Redis(host='127.0.0.1',port=6379)

    rules = (

        Rule(LinkExtractor(allow=r'/text/page/\d+/'), callback='parse_item', follow=True),

    )

    def parse_item(self, response):

        # print(response)

        div_list = response.xpath('//div[@id="content-left"]/div')

        for div in div_list:

            item = QiubaiproItem()

            item['author'] = div.xpath('./div[1]/a[2]/h2/text()').extract_first()

            item['content'] = div.xpath('.//div[@class="content"]/span//text()').extract()

            item['content'] = ''.join(item['content'])

            data = item['author']+item['content']

            #对数据生成一个数据指纹

            data_hash = hashlib.sha256(data.encode()).hexdigest()

            ex = self.conn.sadd('if_data',data_hash)

            if ex == 1:

                print('数据更新，可爬......')

                yield item

            else:

                print('暂无更新数据......')

Scrapy 框架增量式的更多相关文章

基于Scrapy框架的增量式爬虫
概述概念:监测核心技术:去重基于 redis 的一个去重适合使用增量式的网站: 基于深度爬取的对爬取过的页面url进行一个记录(记录表) 基于非深度爬取的记录表:爬取过的数据对应的数据指纹 ...
Scrapy 增量式爬虫
Scrapy 增量式爬虫 https://blog.csdn.net/mygodit/article/details/83931009 https://blog.csdn.net/mygodit/ar ...
爬虫---scrapy分布式和增量式
分布式概念: 需要搭建一个分布式的机群, 然后在每一台电脑中执行同一组程序, 让其对某一网站的数据进行联合分布爬取. 原生的scrapy框架不能实现分布式的原因调度器不能被共享, 管道也不能被共享 ...
爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...
Scrapy 框架总结
总结: 1.中间件:下载中间件(拦截请求和响应) - process_request: - prceess_response: - process_exception: - 请求: - UA伪装: - ...
Scrapy框架（3）
一.如何提升scrapy框架的爬取效率增加并发: 默认scrapy开启的并发线程为32个,可以适当进行增加.在settings配置文件中修改CONCURRENT_REQUESTS = 100,并发设 ...
Scrapy框架学习参考资料
00.Python网络爬虫第三弹<爬取get请求的页面数据> 01.jupyter环境安装 02.Python网络爬虫第二弹<http和https协议> 03.Python网络 ...
Scrapy框架的应用
一, Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有 ...
爬虫Ⅱ:scrapy框架
爬虫Ⅱ:scrapy框架 step5: Scrapy框架初识 Scrapy框架的使用 pySpider 什么是框架: 就是一个具有很强通用性且集成了很多功能的项目模板(可以被应用在各种需求中) scr ...

随机推荐

SQL Server 怎么在分页获取数据的同时获取到总记录数
SQL Server 获取数据的总记录数,有两种方式: 1.先分页获取数据,然后再查询一遍数据库获取到总数量 2.使用count(1) over()获取总记录数量 SELECT * FROM ( SE ...
[nodejs] nodejs开发个人博客（一）准备工作
前言 nodejs是运行在服务端的js,基于google的v8引擎.个人博客系统包含对数据库的增删查改,功能齐备,并且业务逻辑比较简单,是很多后台程序员为了检测学习成果,最先拿来练手的小网站程序.我也 ...
详解MySQL基准测试和sysbench工具(转)
前言作为一名后台开发,对数据库进行基准测试,以掌握数据库的性能情况是非常必要的.本文介绍了MySQL基准测试的基本概念,以及使用sysbench对MySQL进行基准测试的详细方法. 文章有疏漏之处, ...
解决org.hibernate.HibernateException: identifier of an instance of com.ahd.entity.Order was altered from2 to 0
错误信息严重: Servlet.service() for servlet [springmvc] in context with path [/order] threw exception [Re ...
Java基础篇——JVM之GC原理（干货满满）
原创不易,如需转载,请注明出处https://www.cnblogs.com/baixianlong/p/10697554.html ,多多支持哈! 一.什么是GC? GC是垃圾收集的意思,内存处理是 ...
JavaWeb学习日记----DTD
DTD:文档类型定义,可以定义合法的XML文档构建模块.使用一系列的合法标签元素来定义文档的结构. 现有一个XML文档内容如下: <?xml version="1.0"?&g ...
深入源码分析SpringMVC底层原理（二）
原文链接:深入源码分析SpringMVC底层原理(二) 文章目录深入分析SpringMVC请求处理过程 1. DispatcherServlet处理请求 1.1 寻找Handler 1.2 没有找到 ...
JavaScript中8个常见的陷阱
译者按: 漫漫编程路,总有一些坑让你泪流满面. 原文: Who said javascript was easy ? 译者: Fundebug 为了保证可读性,本文采用意译而非直译.另外,本文版权归原 ...
es6 语法（Promise）
{ // 基本定义 let ajax = function(callback) { console.log('执行'); //先输出 1 执行 setTimeout(function() { call ...
DAY5(PYTHON) 字典的增删改查和dict嵌套
一.字典的增删改查 dic={'name':'hui','age':17,'weight':168} dict1={'height':180,'sex':'b','class':3,'age':16} ...

Scrapy 框架 增量式

增量式:

用来检测网站中数据的更新情况

Scrapy 框架 增量式的更多相关文章

随机推荐

热门专题

Scrapy 框架增量式

Scrapy 框架增量式的更多相关文章