在我们执行scrapy爬取字段中,会有大量的和下面的代码,当要爬取的网站多了,要维护起来很麻烦,为解决这类问题,我们可以根据scrapy提供的loader机制

    def parse_detail(self, response):
"""
获取文章详情页
:param response:
:return:
"""
article_item = JoBoleArticleItem() #封面图,使用get方法有个好处,如果图片不存在。不会抛异常。
front_image_url = response.meta.get("front_image_url","")
ret_str = response.xpath('//*[@class="dht_dl_date_content"]')
title = response.css("div.entry-header h1::text").extract_first()
create_date = response.css("p.entry-meta-hide-on-mobile::text").extract_first().strip().replace("·", "").strip()
content = response.xpath("//*[@id='post-112239']/div[3]/div[3]/p[1]")
article_item["title"] = title

首先,导入 ItemLoader

from scrapy.loader import ItemLoader

可以查看源码,这里先关注的是item和response两入参

        #通过item loader加载item
item_loader = ItemLoader(item=JoBoleArticleItem(),response=response)
#针对直接取值的情况
item_loader.add_value('front_image_url','front_image_url')
#针对css选择器
item_loader.add_css('title','div.entry-header h1::text')
item_loader.add_css('create_date','p.entry-meta-hide-on-mobile::text')
item_loader.add_css('praise_num','#112547votetotal::text')
#针对xpath的情况
item_loader.add_xpath('content','//*[@id="post-112239"]/div[3]/div[3]/p[1]')
#把结果返回给item对象
article_item = item_loader.load_item()

debug调试,可以看到拿到的信息

不过实际情况,可能1、我们只取返回结果的某个元素。2、拿到返回结果后还需要执行某些函数。 这个scrapy也提供了方法:

在items.py文件里操作,这里用到了MapCompose类

from scrapy.loader.processors import MapCompose

这个类我们可以传递任意多的函数进来处理

导入模块后,

在Field的入参里可以传入这个函数,方式如下,其中MapCompose里填的是函数名,而调用的这个alter_title函数的入参,就是title的拿到的值,即input_processor参数的效果是在传值给item前进行预处理

def alter_title(value):
return value + "-白菜被猪拱了" class JoBoleArticleItem(scrapy.Item):
#标题
title = scrapy.Field(
input_processor = MapCompose(alter_title)
)

debug调试下,

在loader机制中也有类似extract_firest的方法:TakeFirst

from scrapy.loader.processors import MapCompose,TakeFirst

然后在下面的:

经测试 input_processor和output_processor同时存在时,会把input进行预处理拿到的返回值继续给output处理,返回最终结果给item

import datetime
def date_convert(value):
try :
create_date = datetime.datetime.strftime(value,"%Y/%m/%d").date()
except Exception as e:
create_date = datetime.datetime.now().date() return create_date class JoBoleArticleItem(scrapy.Item):
#标题
title = scrapy.Field(
input_processor = MapCompose(alter_title)
)
#创建日期
create_date = scrapy.Field(
# = MapCompose(date_convert),
input_processor = MapCompose(date_convert),
output_processor = TakeFirst()
)

如果要每个字段都要单独调用这个TakeFirst方法,会有些麻烦,可以通过自定义ItemLoader,首先导入ItemLoader进行重载

from scrapy.loader import ItemLoader

点开ItemLoader源码,可以查看到有个default_output_processor

然后我们给ItemLoader重载这个default_output_processor

class ArticleItemLoader(ItemLoader):
#自定义ItemLoader
default_output_processor = TakeFirst()

然后在创建itemloader对象时使用自定义的loader:ArticleItemLoader

        item_loader = ArticleItemLoader(item=JoBoleArticleItem(),response=response)
#针对直接取值的情况
item_loader.add_value('front_image_url','front_image_url')
item_loader.add_value('front_image_path','')
item_loader.add_value('url',response.url)
item_loader.add_value('url_object_id',get_md5(response.url))
item_loader.add_value('content','')

debug调试,可以看到获取到的value由list变成str

PS:这里只是把默认的output_processor制定了一个方法,所以如果存在某些item 不想调用默认的output_processor,可以继续在add_value方法里单独传output方法。

问题:

1、调试时遇到下面这错误,一般是由于传递给items.py的数据里缺少了字段、传递的字段和数据表里的字段的类型不符等

2

3、使用itemloader爬取时,返回的数据类型是list,再存入item容器前,是支持对数据进行预处理的,即输入处理器和输出处理器,可以通过MapCompose这个类来依次对list的元素进行处理,

但如果lsit为【】则不会进行处理,这种情况需要重载MapCompose类的__call__方法,如下,我给vallue增加一个空的str“”

class MapComposeCustom(MapCompose):
#自定义MapCompose,当value没元素是传入""
def __call__(self, value, loader_context=None):
if not value:
value.append("")
values = arg_to_iter(value)
if loader_context:
context = MergeDict(loader_context, self.default_loader_context)
else:
context = self.default_loader_context
wrapped_funcs = [wrap_loader_context(f, context) for f in self.functions]
for func in wrapped_funcs:
next_values = []
for v in values:
next_values += arg_to_iter(func(v))
values = next_values
return values

第十篇 scrapy item loader机制的更多相关文章

  1. 第三百四十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制

    第三百四十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制 用命令创建自动爬虫文件 创建爬虫文件是根据scrap ...

  2. 二十三 Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制

    用命令创建自动爬虫文件 创建爬虫文件是根据scrapy的母版来创建爬虫文件的 scrapy genspider -l  查看scrapy创建爬虫文件可用的母版 Available templates: ...

  3. 第十篇 SQL Server安全行级安全

    本篇文章是SQL Server安全系列的第十篇,详细内容请参考原文. 不像一些其他industrial-strength数据库服务,SQL Server缺乏一个内置保护个别数据记录的机制,称为行级安全 ...

  4. Python开发【第二十篇】:缓存

    Python开发[第二十篇]:缓存redis&Memcache   点击这里 Python之路[第九篇]:Python操作 RabbitMQ.Redis.Memcache.SQLAlchemy ...

  5. [Android] Android 用于异步加载 ContentProvider 中的内容的机制 -- Loader 机制 (LoaderManager + CursorLoader + LoaderManager.LoaderCallbacks)

    Android 用于异步加载 ContentProvider 中的内容的机制 -- Loader 机制 (LoaderManager + CursorLoader + LoaderManager.Lo ...

  6. 【译】第十篇 SQL Server安全行级安全

    本篇文章是SQL Server安全系列的第十篇,详细内容请参考原文. 不像一些其他industrial-strength数据库服务,SQL Server缺乏一个内置保护个别数据记录的机制,称为行级安全 ...

  7. 第四天,同步和异常数据存储到mysql,item loader方法

    github对应代码:伯乐在线文章爬取     一. 普通插入方法 1. 连接到我的阿里云,用户名是test1,然后在navicat中新建数据库

  8. python应用:爬虫框架Scrapy系统学习第四篇——scrapy爬取笔趣阁小说

    使用cmd创建一个scrapy项目: scrapy startproject project_name (project_name 必须以字母开头,只能包含字母.数字以及下划线<undersco ...

  9. [scrapy]Item Loders

    Items Items就是结构化数据的模块,相当于字典,比如定义一个{"title":"","author":""},i ...

随机推荐

  1. DB2命令行查看执行计划

    查看对应SQL的执行计划 分析程序包   db2expln -d 数据库名 -i -g -c 模式名-p程序包 -s 0 -t   db2expln -d 数据库名 -i -g -c 模式名-p程序包 ...

  2. Linux 2.6.x fs/pipe.c local kernel root(kit?) exploit (x86)

    /****************************************************************************** * .:: Impel Down ::. ...

  3. Mint安装配置Sublime Text3

    1.注册码: Sublime Text 3 3126 注册码 2.安装Package Control组件: 按Ctrl+`调出console(注:安装有QQ输入法的这个快捷键会有冲突的,输入法属性设置 ...

  4. CSS3新增(选择器{属性选择器,结构伪类选择器,伪元素选择器})

    1.属性选择器 属性选择器,可以根据元素特定的属性来选择元素,这样就不用借助 类 或者 id选择器. E [ att ]   选择具有 att 属性的 E 元素   例如:input [ value ...

  5. 微信小程序のwxs语言

    一.wxs介绍 wxs是微信小程序自身的脚本语言,用来过滤和计算.wxs可以通过文件可模块标签来定义 文件需要.wxs后缀文件 二.实例 <wxs module="test1" ...

  6. 使用PL/SQL连接oracle数据库,并将数据进行导出备份和导入恢复

    使用PL/SQL连接oracle数据库,并将数据进行导出备份和导入恢复 这种操作百度一搜一大片,今天整理以前做的项目时自己备份了一下数据库,试着将数据进行导出备份和导入恢复了一下:下面是操作过程: 1 ...

  7. Codeforces 351C Jeff and Brackets 矩阵优化DP

    题意:你要在纸上画一个长度为n * m的括号序列,第i个位置画左括号的花费是a[i % n], 画右括号的花费是b[i % n],问画完这个括号序列的最小花费.n <= 20, m <= ...

  8. 解决VSCode中Python在控制台输出中文乱码的问题

    在菜单Debug->Open Configurations,打开launch.json,新增如下粉红色字符内容: { // Use IntelliSense to learn about pos ...

  9. 特种设备TSG 认证流程

    特种设备许可,也叫安全注册(原为AZ安全注册认可),现为TS.国家为了防止和减少事故,保障人民群众生命和财产安全,促进经济发展而强制实施的安全监察.它的作用相当于欧盟的“CE”认证,但比“CE”认证更 ...

  10. 「ZJOI2019」线段树 解题报告

    「ZJOI2019」线段树 听说有人喷这个题简单,然后我就跑去做,然后自闭感++,rp++(雾) 理性分析一波,可以发现最后形成的\(2^k\)个线段树,对应的操作的一个子集,按时间顺序作用到这颗线段 ...