第十篇 scrapy item loader机制

在我们执行scrapy爬取字段中，会有大量的和下面的代码，当要爬取的网站多了，要维护起来很麻烦，为解决这类问题，我们可以根据scrapy提供的loader机制

    def parse_detail(self, response):

        """

        获取文章详情页

        :param response:

        :return:

        """

        article_item = JoBoleArticleItem()

        #封面图,使用get方法有个好处，如果图片不存在。不会抛异常。

        front_image_url = response.meta.get("front_image_url","")

        ret_str = response.xpath('//*[@class="dht_dl_date_content"]')

        title = response.css("div.entry-header h1::text").extract_first()

        create_date = response.css("p.entry-meta-hide-on-mobile::text").extract_first().strip().replace("·", "").strip()

        content = response.xpath("//*[@id='post-112239']/div[3]/div[3]/p[1]")

        article_item["title"] = title

首先，导入 ItemLoader

from scrapy.loader import ItemLoader

可以查看源码，这里先关注的是item和response两入参

        #通过item loader加载item

        item_loader = ItemLoader(item=JoBoleArticleItem(),response=response)

        #针对直接取值的情况

        item_loader.add_value('front_image_url','front_image_url')

        #针对css选择器

        item_loader.add_css('title','div.entry-header h1::text')

        item_loader.add_css('create_date','p.entry-meta-hide-on-mobile::text')

        item_loader.add_css('praise_num','#112547votetotal::text')

        #针对xpath的情况

        item_loader.add_xpath('content','//*[@id="post-112239"]/div[3]/div[3]/p[1]')

        #把结果返回给item对象

        article_item = item_loader.load_item()

debug调试，可以看到拿到的信息

不过实际情况，可能1、我们只取返回结果的某个元素。2、拿到返回结果后还需要执行某些函数。这个scrapy也提供了方法：

在items.py文件里操作，这里用到了MapCompose类

from scrapy.loader.processors import MapCompose

这个类我们可以传递任意多的函数进来处理

导入模块后，

在Field的入参里可以传入这个函数，方式如下，其中MapCompose里填的是函数名，而调用的这个alter_title函数的入参，就是title的拿到的值，即input_processor参数的效果是在传值给item前进行预处理

def alter_title(value):

    return value + "-白菜被猪拱了"

class JoBoleArticleItem(scrapy.Item):

    #标题

    title = scrapy.Field(

        input_processor = MapCompose(alter_title)

    )

debug调试下，

在loader机制中也有类似extract_firest的方法：TakeFirst

from scrapy.loader.processors import MapCompose,TakeFirst

然后在下面的：

经测试 input_processor和output_processor同时存在时，会把input进行预处理拿到的返回值继续给output处理，返回最终结果给item

import datetime

def date_convert(value):

    try :

        create_date = datetime.datetime.strftime(value,"%Y/%m/%d").date()

    except Exception as e:

        create_date = datetime.datetime.now().date()

    return create_date

class JoBoleArticleItem(scrapy.Item):

    #标题

    title = scrapy.Field(

        input_processor = MapCompose(alter_title)

    )

    #创建日期

    create_date  = scrapy.Field(

        # = MapCompose(date_convert),

        input_processor = MapCompose(date_convert),

        output_processor = TakeFirst()

    )

如果要每个字段都要单独调用这个TakeFirst方法，会有些麻烦，可以通过自定义ItemLoader，首先导入ItemLoader进行重载

from scrapy.loader import ItemLoader

点开ItemLoader源码，可以查看到有个default_output_processor

然后我们给ItemLoader重载这个default_output_processor

class ArticleItemLoader(ItemLoader):

    #自定义ItemLoader

    default_output_processor = TakeFirst()

然后在创建itemloader对象时使用自定义的loader：ArticleItemLoader

        item_loader = ArticleItemLoader(item=JoBoleArticleItem(),response=response)

        #针对直接取值的情况

        item_loader.add_value('front_image_url','front_image_url')

        item_loader.add_value('front_image_path','')

        item_loader.add_value('url',response.url)

        item_loader.add_value('url_object_id',get_md5(response.url))

        item_loader.add_value('content','')

debug调试，可以看到获取到的value由list变成str

PS：这里只是把默认的output_processor制定了一个方法，所以如果存在某些item 不想调用默认的output_processor，可以继续在add_value方法里单独传output方法。

问题：

1、调试时遇到下面这错误，一般是由于传递给items.py的数据里缺少了字段、传递的字段和数据表里的字段的类型不符等

3、使用itemloader爬取时，返回的数据类型是list，再存入item容器前，是支持对数据进行预处理的，即输入处理器和输出处理器，可以通过MapCompose这个类来依次对list的元素进行处理，

但如果lsit为【】则不会进行处理，这种情况需要重载MapCompose类的__call__方法，如下，我给vallue增加一个空的str“”

class MapComposeCustom(MapCompose):

    #自定义MapCompose，当value没元素是传入""

    def __call__(self, value, loader_context=None):

        if not value:

            value.append("")

        values = arg_to_iter(value)

        if loader_context:

            context = MergeDict(loader_context, self.default_loader_context)

        else:

            context = self.default_loader_context

        wrapped_funcs = [wrap_loader_context(f, context) for f in self.functions]

        for func in wrapped_funcs:

            next_values = []

            for v in values:

                next_values += arg_to_iter(func(v))

            values = next_values

        return values

第十篇 scrapy item loader机制的更多相关文章

第三百四十四节，Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制
第三百四十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制用命令创建自动爬虫文件创建爬虫文件是根据scrap ...
二十三 Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制
用命令创建自动爬虫文件创建爬虫文件是根据scrapy的母版来创建爬虫文件的 scrapy genspider -l 查看scrapy创建爬虫文件可用的母版 Available templates: ...
第十篇 SQL Server安全行级安全
本篇文章是SQL Server安全系列的第十篇,详细内容请参考原文. 不像一些其他industrial-strength数据库服务,SQL Server缺乏一个内置保护个别数据记录的机制,称为行级安全 ...
Python开发【第二十篇】：缓存
Python开发[第二十篇]:缓存redis&Memcache 点击这里 Python之路[第九篇]:Python操作 RabbitMQ.Redis.Memcache.SQLAlchemy ...
[Android] Android 用于异步加载 ContentProvider 中的内容的机制 -- Loader 机制（LoaderManager + CursorLoader + LoaderManager.LoaderCallbacks）
Android 用于异步加载 ContentProvider 中的内容的机制 -- Loader 机制 (LoaderManager + CursorLoader + LoaderManager.Lo ...
【译】第十篇 SQL Server安全行级安全
本篇文章是SQL Server安全系列的第十篇,详细内容请参考原文. 不像一些其他industrial-strength数据库服务,SQL Server缺乏一个内置保护个别数据记录的机制,称为行级安全 ...
第四天，同步和异常数据存储到mysql，item loader方法
github对应代码:伯乐在线文章爬取一. 普通插入方法 1. 连接到我的阿里云,用户名是test1,然后在navicat中新建数据库
python应用：爬虫框架Scrapy系统学习第四篇——scrapy爬取笔趣阁小说
使用cmd创建一个scrapy项目: scrapy startproject project_name (project_name 必须以字母开头,只能包含字母.数字以及下划线<undersco ...
[scrapy]Item Loders
Items Items就是结构化数据的模块,相当于字典,比如定义一个{"title":"","author":""},i ...

随机推荐

JOGL教程
本章介绍了OpenGL,Java OpenGL绑定(GL4java,LWJGL,JOGL)和JOGL比其他的OpenGL的优点. Java支持OpenGL(JOGL)是近期在Java OpenGL图形 ...
关于char(M)和varchar(N)的区别
1.int(10)的10表示显示的数据的长度,不是存储数据的大小:chart(10)和varchar(10)的10表示存储数据的大小,即表示存储多少个字符. int(10) 10位的数据长度 9999 ...
springMVC相应之返回值
string返回值: <%-- Created by IntelliJ IDEA. User: Administrator Date: 2019/11/12 Time: 16:24 To cha ...
codeforces863F Almost Permutation 费用流
题目传送门题意: 构造出一个数列,数字在$1~n$的范围内,要求$\sum_{i=1}^n count(i)^{2}$最小,$count(i)$的意思是数列中i出现的次数.并且数列要满足两种类型的 ...
【CSS】text-align:justify 的使用
工作需要写一个全是文本的网页,规范格式的时候发现很多css属性不是很熟悉,比如text-align:justify. 这个是两端对齐,css3中新增了text-justify属性语法:text-ju ...
Android 6.0 - 动态权限管理的解决方案（转）
转自:http://www.cnblogs.com/dubo-/p/6018262.html Android 6.0 - 动态权限管理的解决方案转载请标注 Android 6.0版本(Api 2 ...
Schema约束与DTD约束
现将Schema约束与DTD约束实现的一个实例截图出来: 1.DTD 1.1 DTD文件 1.2 DTD实现 2.Schema 2.1 Schema约束 2.2 Schema实现
C++中的delete加深认识
delete操作: 我们在删除一个指针之后,编译器只会释放该指针所指向的内存空间,而不会删除这个指针本身. 1.假如你不去释放,那么该区域的内存始终不能被其他数据所使用.2.指向该内存的指针是个局部变 ...
React中Class的概念
Class的概念一.简介 javaScript是面向对象的编程语言,可以说所以的能够被描述的事.物或抽象的东西,都是可以是对象.而我们记录的对象,会有具有同样的属性和行为. 为了节省重写相同的代码. ...
HTML ASCII 参考手册
HTML 和 XHTML 用标准的 7 比特 ASCII 代码在网络上传输数据. 7 比特 ASCII 代码可提供 128 个不同的字符值. 7 比特可显示的 ASCII 代码结果描述实体编号 ...

第十篇 scrapy item loader机制

第十篇 scrapy item loader机制的更多相关文章

随机推荐

热门专题