爬虫——使用ItemLoader维护item

在item的Filed（）中设置参数函数，可以用来预处理item字段的数据，另一方面也方便程序代码的管理和重用

item中

from scrapy.loader.processors import MapCompose, TakeFirst
import scrapy
from scrapy.loader import ItemLoader

def add(value):
　　 # 在MyItem中调用的函数，对输入的数据进行指定的处理后返回值
　　return value + 'HELLO-WORLD'

def fun(value):
　　 return value + do_something

class MyItemLoader(ItemLoader):
　　# 自定义ItemLoader类，继承自ItemLoader,实现默认提取第一个值，用来自动实现output_process=TakeFirst()
　　 default_output_processor = TakeFirst()

class MyItem(scrapy.Item):
　　'''
　　# input_process=MapCompose(add)可以使用外置函数add对传入的item字段进行预处理
　　# MapCompose()里的参数可以是任意函数，例子中add是外置函数，也可以是lambda匿名函数
　　# output_process=TakeFirst()
　　# TakeFirst()只提取第一个值
　　当自定义了ItemLoader，即MyItemLoader类后，output_process就可以省略了
　　'''

　　item = scrapy.Field(
　　input_process=MapCompose(add),
　　#output_process=TakeFirst()
　　)

spider中

from scrapy.loader import ItemLoader
from spider_path.items import MyItem
from ... import MyItemLoader # 导入自定义的ItermLoader

# 通过ItemLoader加载MyItem中的字段, 这里ItemLoader被重写成了MyItermLoader
item_loader= MyItemLoasder(item=MyItem(), response=response)

# 通过css，xpath，value提取
item_loader.add_css('MyItem中的字段','css选择器提取路径')
item_loader.add_xpath('MyItem中的字段','xpath选择器提取路径')
item_loader.add_value('MyItem中的字段',获取的值)

my_item = item_loader.load_item()
yield my_item

爬虫——使用ItemLoader维护item的更多相关文章

第三百四十四节，Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制
第三百四十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制用命令创建自动爬虫文件创建爬虫文件是根据scrap ...
二十三 Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制
用命令创建自动爬虫文件创建爬虫文件是根据scrapy的母版来创建爬虫文件的 scrapy genspider -l 查看scrapy创建爬虫文件可用的母版 Available templates: ...
爬虫框架Scrapy之Item Pipeline
Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item. 每个Item Pipeline ...
python爬虫10 | 网站维护人员：真的求求你们了，不要再来爬取了！！
今天小帅b想给大家讲一个小明的小故事 ... 话说在很久很久以前小明不小心发现了一个叫做学习python的正确姿势的公众号从此一发不可收拾看到什么网站都想爬取有一天小明发现了一个小黄 ...
memcached源码分析-----item过期失效处理以及LRU爬虫
memcached源码分析-----item过期失效处理以及LRU爬虫,memcached-----item 转载请注明出处:http://blog.csdn.net/luotuo44/article ...
爬取伯乐在线文章（五）itemloader
ItemLoader 在我们执行scrapy爬取字段中,会有大量的CSS或是Xpath代码,当要爬取的网站多了,要维护起来很麻烦,为解决这类问题,我们可以根据scrapy提供的loader机制. 导入 ...
Python分布式爬虫打造搜索引擎完整版-基于Scrapy、Redis、elasticsearch和django打造一个完整的搜索引擎网站
Python分布式爬虫打造搜索引擎基于Scrapy.Redis.elasticsearch和django打造一个完整的搜索引擎网站 https://github.com/mtianyan/Artic ...
Python爬虫框架Scrapy学习笔记原创
字号 scrapy [TOC] 开始 scrapy安装首先手动安装windows版本的Twisted https://www.lfd.uci.edu/~gohlke/pythonlibs/#twi ...
Scrapy分布式爬虫打造搜索引擎- (二)伯乐在线爬取所有文章
二.伯乐在线爬取所有文章 1. 初始化文件目录基础环境 python 3.6.5 JetBrains PyCharm 2018.1 mysql+navicat 为了便于日后的部署:我们开发使用了虚拟 ...

随机推荐

moiezen
这题是个随机化+二分裸题--------考场上居然没有想出来--想的出来就怪了吧我们随机一下增加x的顺序,然后进行二分之前,看看这个x加完之后能不能更新答案,不能就不二分了.具题解所说,这个复杂度是 ...
less新手入门（三）作为函数使用的Mixin、@import 导入指令、@import 导入选项
五.作为函数使用的Mixin 从mixin返回变量在mixin中定义的所有变量都是可见的,并且可以在调用者的作用范围中使用(除非调用者用相同的名称定义它自己的变量). .mixin(){ @widt ...
ASP.Net 知识点总结（五）
1.传入某个属性的set方法的隐含参数的名称是什么?value,它的类型和属性所声名的类型相同.2.如何在C#中实现继承? 在类名后加上一个冒号,再加上基类的名称.3.C#支持多重继承么? 不支持.可 ...
C语言小项目-基于TCP协议和SOCKET编程的网络通信系统
1.1 功能结构图网络通信系统一共由4个模块组成,分别是点对点客户端.点对点服务端.服务器中转服务端.服务器中转客户端.这4个模块是成对使用的,点对点客户端和点对点服务端一起使用,服务器中转服务 ...
mysqladmin(MySQL管理工具)
mysqladmin是一个执行管理操作的客户端程序.它可以用来检查服务器的配置和当前状态.创建和删除数据库等. 1.mysqladmin命令的语法: shell > mysqladmin [op ...
CDH搭建Hadoop分布式服务器集群（java新手小白）
1首先对于一个java还白的小白,先理解CDH与Hadoop的关系一.Hadoop版本选择. Hadoop大致可分为Apache Hadoop和第三方发行第三方发行版Hadoop,考虑到Hadoop ...
.Net MVC 与WebApi ActionFilterAttribute 区别
首先我们来看下这两个ActionFilterAttribute 的命名空间区别的: 可以看出mvc 引用的是System.Web.Mvc,webapi 引用的是System.Web.Http.Fil ...
RecylerView为item添加点击事件
RecyclerView侧重的是布局的灵活性,虽说可以替代ListView但是连基本的点击事件都没有,这篇文章就来详细讲解如何为RecyclerView的item添加点击事件. 1 原理: 为Recy ...
Jsp页面，结果集分页和sql(top)分页的性能对比
jsp页面两种分页模式: 第一种: 结果集分页,主要代码见下面: ResultSet rs=stmt.executeQuery(sql); ResultSetMetaData md=rs.getMet ...
HTML 5 <aside> 标签
定义和用法 <aside> 标签定义 article 以外的内容.aside 的内容应该与 article 的内容相关. 实例 <p>Me and my family visi ...

爬虫——使用ItemLoader维护item

爬虫——使用ItemLoader维护item的更多相关文章

随机推荐

热门专题