scrapy增量爬取

开始接触爬虫的时候还是初学Python的那会，用的还是request、bs4、pandas，再后面接触scrapy做个一两个爬虫，觉得还是框架好，可惜都没有记录都忘记了，现在做推荐系统需要爬取一定的文章，所以又把scrapy捡起来。趁着这次机会做一个记录。

目录如下：

环境

本地窗口调试命令

工程目录

xpath选择器

一个简单的增量爬虫示例

配置介绍

环境

自己的环境下安装scrapy肯定用anaconda（再次强调anaconda的优越性

本地窗口调试与运行

开发的时候可以利用scrapy自带的调试功能进行模拟请求，这样request、response都会与后面代码保持一样。

# 测试请求某网站

scrapy shell URL

# 设置请求头

scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"  URL

# 指定爬虫内容输出文件格式（json、csv等

scrapy crawl SPIDER_NAME -o FILE_NAME.csv

# 创建爬虫工程

scrapy startproject  articles # 在当前目录创建一个scrapy工程

新工程结构介绍

# spiders文件下存放所有爬虫，item.py格式化数据输出

# middlewares.py 设置请求细节（请求头之类的），pipelines.py为数据输出的管道，每一个封装好的item都会经过这里

# settings.py 对工程进行全局设置（存放配置

├── articles

│   ├── articles

│   │   ├── __init__.py

│   │   ├── items.py

│   │   ├── middlewares.py

│   │   ├── pipelines.py

│   │   ├── settings.py

│   │   └── spiders

│   │       ├── healthy_living.py

│   │       ├── __init__.py

│   │       └── people_health.py

│   └── scrapy.cfg

├── README.en.md

└── README.md

页面解析神器——Xpath选择器

scrapy自带xpath选择器，很方便，简单介绍一些常用的

# 全站爬取神器--LinkExtractor，可以自动获取该标签下的所有url跟text（因为网站结构大都一个套路

from scrapy.linkextractors import LinkExtractor

le = LinkExtractor(restrict_xpaths="//ul[@class='nav2_UL_1 clearFix']")# 返回一个迭代器，通过循环(for i in le)，可获取url(i.url)  (i.text)

# 获取属性class为所有aa的div标签内容中的内容

response.xpath("//div[@class='aa']/text()").extract()		# '//'代表获取所有，'/'代表获取第一个，类似的可以找属性为ul的其它标签

# 获取内容包含“下一页”的所有a标签中包含的链接（提取下一页链接神器

response.xpath("//a[contains(text(),'下一页')]/@href").extract()

一个简单的增量爬取示例

这里增量爬取的思想很简单：目标网站的数据都是按照时间排列的，所以在对某个连接进行request之前，先查询数据库中有没有这条数据，如果有，就停止爬虫，如果没有发起请求

class HealthyLiving(scrapy.Spider):

    # 一定要一个全局唯一的爬虫名称，命令行启动的时候需要指定该名称

    name = "healthy_living"

    # 指定爬虫入口，scrapy支持多入口，所以一定是lis形式

    start_urls = ['http://www.jkb.com.cn/healthyLiving/']

    '''

    抓取大类标签入口

    '''

    def parse(self, response):

        le = LinkExtractor(restrict_xpaths="//ul[@class='nav2_UL_1 clearFix']")

        for link in le.extract_links(response)[1:-1]:

            tag = link.text

            # 将这一级提取到的信息，通过请求头传递给下一级（这里是为了给数据打标签

            meta = {"tag": tag}

            # 依次解析每一个链接，并传递到下一级进行继续爬取

            yield scrapy.Request(link.url, callback=self.parse_articles, meta=meta)

    '''

    抓取页面内的文章链接及下一页链接

    '''

    def parse_articles(self, response):

        # 接收上一级传递的信息

        meta = response.meta

        article_links = response.xpath("//div[@class='txt']/h4/a/@href").extract()

        for link in article_links:

            res = self.collection.find_one({"article_url": link}, {"article_url": 1})

            full_meta = dict(meta)

            # 将文章链接传入下一级

            full_meta.update({"article_url": link})

            if res is None:

                yield scrapy.Request(link, callback=self.parse_article, meta=full_meta)

            else:

                return

        next_page = response.xpath("//div[@class='page']//a[contains(text(),'»')]/@href").extract()[0]

        if next_page:

            yield scrapy.Request(next_page, callback=self.parse_articles, meta=meta)

# 最后解析页面，并输出

    def parse_article(self, response):

     # 从item.py中导入数据封装格式

        article_item = ArticlesItem()

        meta = response.meta

        # 利用xpath提取页面信息并封装成item

        try:

            article_item["tag"] = ""

            #  ... 省略

        finally:

            yield article_item

工程配置介绍

设置请求头、配置数据库

# 设置请求头，在middlewares.py中设定，在settings.py中启用

class RandomUA(object):

    user_agents = [

            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit"

            "/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36",

            "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",

            "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit"

            "/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16"

        ]

    def process_request(self, request, spider):

        request.headers["User-Agent"] = random.choice(self.user_agents)

# 设置数据入库处理，在pipeline.py进行配置，在settings.py进行启用

class MongoPipeline(object):

    def __init__(self, mongo_uri, mongo_db):

        self.mongo_uri = mongo_uri

        self.mongo_db = mongo_db

    @classmethod

    def from_crawler(cls, crawler):

        return cls(

            mongo_uri=crawler.settings.get('MONGO_URI'),

            mongo_db=crawler.settings.get('MONGO_DB')

        )

    def open_spider(self, spider):

        print("开始爬取", datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'))

        self.client = pymongo.MongoClient(self.mongo_uri)

        self.db = self.client[self.mongo_db]

    def process_item(self, item, spider):

        data = self.db[item.collection].find_one({"title": item["title"], "date": item["date"]})

        if data is None:

            self.db[item.collection].insert(dict(item))

        # else:

        #     self.close_spider(self, spider)

        return item

    def close_spider(self, spider):

        print("爬取结束", datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'))

        self.client.close()

# 在settings.py启动：请求头的修改，数据库的配置

DOWNLOADER_MIDDLEWARES = {

   # 'articles.middlewares.ArticlesDownloaderMiddleware': 543,

   'articles.middlewares.RandomUA': 543,# 543代表优先级，数字越低优先级越高

}

ITEM_PIPELINES = {

   'articles.pipelines.MongoPipeline': 300,

}

# 一些其它配置

ROBOTSTXT_OBEY = True # 是否遵守网站的robot协议

FEED_EXPORT_ENCODING = 'utf-8' # 指定数据输出的编码格式

## 数据库配置

MONGO_URI = ''

MONGO_DB = ''

MONGO_PORT = 27017

MONGO_COLLECTION = ''

scrapy增量爬取的更多相关文章

scrapy过滤重复数据和增量爬取
原文链接前言这篇笔记基于上上篇笔记的---<scrapy电影天堂实战(二)创建爬虫项目>,而这篇又涉及redis,所以又先熟悉了下redis,记录了下<redis基础笔记> ...
爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...
使用scrapy实现去重，使用Redis实现增量爬取
面试场景: 要求对正在爬取的内容与mysql数据库中的数据进行比较去重解决方式: 通过Redis来作为中间件,通过url来确保爬过的数据不会再爬,做到增量爬取. Redis数据库其实就是一个中间件, ...
webmagic 增量爬取
webmagic 是一个很好并且很简单的爬虫框架,其教程网址:http://my.oschina.net/flashsword/blog/180623 webmagic参考了scrapy的模块划分, ...
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息系统环境:Fedora22(昨天已安装scrapy环境) 爬取的开始URL:ht ...
使用scrapy框架爬取自己的博文（2）
之前写了一篇用scrapy框架爬取自己博文的博客,后来发现对于中文的处理一直有问题- - 显示的时候 [u'python\u4e0b\u722c\u67d0\u4e2a\u7f51\u9875\u76 ...
如何提高scrapy的爬取效率
提高scrapy的爬取效率增加并发: 默认scrapy开启的并发线程为32个,可以适当进行增加.在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置 ...
scrapy框架爬取笔趣阁完整版
继续上一篇,这一次的爬取了小说内容 pipelines.py import csv class ScrapytestPipeline(object): # 爬虫文件中提取数据的方法每yield一次it ...
scrapy框架爬取笔趣阁
笔趣阁是很好爬的网站了,这里简单爬取了全部小说链接和每本的全部章节链接,还想爬取章节内容在biquge.py里在加一个爬取循环,在pipelines.py添加保存函数即可 1 创建一个scrapy项目 ...

随机推荐

关于Java 8新引入语法特性的简要说明
Java 8在语法上的主要改进就是新增了Lambda Expression以及Method Reference.由于官方网站的介绍稍显罗嗦,而且例子也有些复杂.我这里将提供一些更为浅显.直观的例子来帮 ...
思科常见的防病毒ACL
SW(config-ext-nacl)# 10 deny tcp any any eq 27665 SW(config-ext-nacl)# 20 deny tcp any any eq 16660 ...
VLC-DSS搭建直播系统中链路断开影响测试
VLC-DSS搭建直播系统中链路断开影响测试系统环境搭建如图所示.计算机77上运行VLC从摄像机51上取流,推送给一级DSS服务器30:二级DSS服务器78从一级DSS服务器30上取流转发.(其配置 ...
使用IDEA来实现分支代码合并
使用beyond comapre进行分支代码的合并是常用的方法,同时比较2个分支的代码,选择需要和入的代码后再提交即可. 如果是不能使用beyond comapre的情况下,使用IDEA的分支比较功能 ...
使用XCode7打包动态库(Framework)
iOS中的静态库和动态库概念静态库(Static Library)以 .a 为后缀,它是你的源码的实现.m文件编译而成的二进制文件集合,需要配合上暴漏的.h文件使用,它在引用链接时拷贝至可执行文件 ...
ubuntu默认root密码问题,第一次使用ubuntu需要设置root密码
http://www.voidcn.com/article/p-yvnoogkc-ng.html 新接触ubuntu(baseondebian)的人,大多会因为安装中没有提示root密码而不太清楚为什 ...
如何屏蔽掉烦人的www.google-analytics.com
有时候在开发的网站项目中会加载谷歌分析的js,并且加载的非常慢导致浏览器一直在转圈圈. 按下面的方法可屏蔽掉烦人的www.google-analytics.com 现在想只有屏蔽掉google-a ...
swift 第十一课结构体定义model类
结构体是可以作为 model 类使用的不过也要写下的创建方法 import UIKit/***创建一个model 结构,重写init 方法,结构体的属性不能出现可选类型**/ struct Mode ...
思科S系列220系列交换机多个漏洞预警
补天漏洞响应平台近期监测思科官方发布了关于思科 S 系列 220 系列交换机的3个漏洞修复通告,其中包含2个高危漏洞,最高CVSS 3.0评分9.8. 更新时间 2019年 08月 09日威胁目标 ...
Python学习笔记——esle和with 语句
1. else与while组合 def showMaxFactor(num): count = num // 2 while count > 1: if num % count == 0: pr ...