Scrapy学习-8-ItemLoader

ItemLoader使用

作用

　　方便管理维护重用xpath或css规则

实例

itemloader+图片处理

# items.py

    import scrapy

    from scrapy.loader.processors import MapCompose, Join, TakeFirst

    from scrapy.loader import ItemLoader

    import datetime

    import re

    def date_convert(value):

        try:

            create_date = datetime.datetime.strptime(value, "%Y/%m/%d").date()

        except Exception as e:

            create_date = datetime.datetime.now().date()

        return create_date

    def get_nums(value):

        match_re = re.match(".*?(\d+).*", value)

        if match_re:

            nums = int(match_re.group(1))

        else:

            nums = 0

        return nums

    def return_value(value):

        return value

    def remove_comment_tags(value):

        #去掉tag中提取的评论

        if "评论" in value:

            return ""

        else:

            return value

    class ArticleItemLoader(ItemLoader):

        #自定义itemloader

        default_output_processor = TakeFirst()

    class ArticlespiderItem(scrapy.Item):

        # title字段值回在最后加上 -jobbole-abc

        title = scrapy.Field(

            input_processor=MapCompose(lambda x:x+"-jobbole", lambda y:y+"-abc")

        )

        create_date = scrapy.Field(

            input_processor=MapCompose(date_convert),

        )

        url = scrapy.Field()

        url_object_id = scrapy.Field()

        # 由于front_image_url需要存储一个列表，不能使用defauls方法获取，为了保持原来的列表，我们重写一个output_processor

        front_image_url = scrapy.Field(

            output_processor=MapCompose(return_value)

        )

        front_image_path = scrapy.Field()

        praise_nums = scrapy.Field(

            input_processor=MapCompose(get_nums)

        )

        comment_nums = scrapy.Field(

            input_processor=MapCompose(get_nums)

        )

        fav_nums = scrapy.Field(

            input_processor=MapCompose(get_nums)

        )

        tags = scrapy.Field(

            input_processor=MapCompose(remove_comment_tags),

            output_processor=Join(",")

        )

        content = scrapy.Field()

# pipelines.py

    from scrapy.pipelines.images import ImagesPipeline

    class ArticleImagePipeline(ImagesPipeline):

        def item_completed(self, results, item, info):

            if "front_image_url" in item:

                for res, value in results:

                    image_path = value['path']

                    item['front_image_path'] = image_path

            # 处理完成路径需要将item返回，因为在settings中，配置的了优先级，该pipelines可以将items继续传递给下一个pipelines中

            return item 

# 使用自己的pipelines

    ITEM_PIPELINES = {

        'ArticleSpider.pipelines.ArticlespiderPipeline': 300,

        'ArticleSpider.pipelines.ArticleImagePipeline': 1,

    }

Scrapy学习-8-ItemLoader的更多相关文章

Scrapy学习篇（十）之下载器中间件（Downloader Middleware）
下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量.底层的系统. 激活Downloader Midd ...
Scrapy学习篇（七）之Item Pipeline
在之前的Scrapy学习篇(四)之数据的存储的章节中,我们其实已经使用了Item Pipeline,那一章节主要的目的是形成一个笼统的认识,知道scrapy能干些什么,但是,为了形成一个更加全面的体系 ...
Python爬虫框架Scrapy学习笔记原创
字号 scrapy [TOC] 开始 scrapy安装首先手动安装windows版本的Twisted https://www.lfd.uci.edu/~gohlke/pythonlibs/#twi ...
Scrapy:学习笔记(2)——Scrapy项目
Scrapy:学习笔记(2)——Scrapy项目 1.创建项目创建一个Scrapy项目,并将其命名为“demo” scrapy startproject demo cd demo 稍等片刻后,Scr ...
Scrapy:学习笔记(1)——XPath
Scrapy:学习笔记(1)——XPath 1.快速开始 XPath是一种可以快速在HTML文档中选择并抽取元素.属性和文本的方法. 在Chrome,打开开发者工具,可以使用$x工具函数来使用XPat ...
scrapy学习（完全版）
scrapy1.6中文文档 scrapy1.6中文文档 scrapy中文文档 Scrapy框架下载页面解析页面并发深度安装 scrapy学习教程如果安装了anconda,可以在anacon ...
python爬虫之Scrapy学习
在爬虫的路上,学习scrapy是一个必不可少的环节.也许有好多朋友此时此刻也正在接触并学习scrapy,那么很好,我们一起学习.开始接触scrapy的朋友可能会有些疑惑,毕竟是一个框架,上来不知从何学 ...
Scrapy基础(十三)————ItemLoader的简单使用
ItemLoader的简单使用:目的是解决在爬虫文件中代码结构杂乱,无序,可读性差的缺点经过之前的基础,我们可以爬取一些不用登录,没有Ajax的,等等其他的简单的爬虫回顾我们的代码,是不是有点冗长, ...
转载一个不错的Scrapy学习博客笔记
背景: 最近在学习网络爬虫Scrapy,官网是 http://scrapy.org 官方描述:Scrapy is a fast high-level screen scraping and web c ...

随机推荐

来自-小坦克：Fiddler教程
Fiddler 教程阅读目录 Fiddler的基本介绍 Fiddler的工作原理同类的其它工具 Fiddler如何捕获Firefox的会话 Fiddler如何捕获HTTPS会话 Fiddler的基 ...
React框架搭建单页面应用package.json基本包和依赖包
{ //依赖包 "devDependencies": { //babel "babel-core": "6.24.1", "bab ...
javascript设计模式(张容铭) 第14章超值午餐-组合模式学习笔记
JS 组合模式更常用于创建表单上,比如注册页面可能有不同的表单提交模块.对于这些需求我们只需要有基本的个体,然后通过一定的组合即可实现,比如下面这个页面样式(如图14-2所示),我们来用组合模式实现. ...
js中的跨域方法总结
什么是跨域? 浏览器的安全策略,只要协议,域名,端口有任何一个不同,就被当做不同的域. 下面对http://www.qichedaquan.com的同源检测 http://www.qichedaqua ...
欧几里得（辗转相除gcd）、扩欧（exgcd）、中国剩余定理（crt）、扩展中国剩余定理（excrt）简要介绍
1.欧几里得算法(辗转相除法) 直接上gcd和lcm代码. int gcd(int x,int y){ ?x:gcd(y,x%y); } int lcm(int x,int y){ return x* ...
漫谈使用Kafka作为MQ中间件
哪些场景适合使用Kafka线上系统会实时产生数以万计的日志信息,服务器运行状态,用户行为记录,业务消息等信息,这些信息需要用于多个不同的目的,比如审计.安全.数据挖掘等,因此需要以分类的方式将这些信 ...
python--网络通信协议
一 . osi七层协议互联网协议按照功能不同分为osi七层或tcp/ip五层或tcp/ip四层二 . tcp三次握手和四次挥手我们知道网络层,可以实现两个主机之间的通信.但是这并不具体,因为,真 ...
python动态添加属性和方法
---恢复内容开始--- python动态添加属性: class Person(object): def __init__(self,newName,newAge): self.name = newN ...
web开发框架Flask学习一
flask框架用Python做Web开发的三大框架特点 Django 主要特点是大而全,集成了很多的组件,例如:Admin Form Model等,不管你用不用的到,他都会为你提供,通常用于大型W ...
设计模式之建造者模式——Builder
一.概述 Builder模式,中文名为建造者模式,又名生成器模式.构建者模式等,是创建型设计模式之一.用于将一个复杂对象的构建与它的表示分离,使得同样的构建过程可以创建不同的表示. 1.适用性: 对象 ...

Scrapy学习-8-ItemLoader

Scrapy学习-8-ItemLoader的更多相关文章

随机推荐

热门专题