改写pipeline

为什么要改写方法：get_media_requests，他们的区别在哪里

def get_media_requests(self, item, info):#原始的

        return [Request(x) for x in item.get(self.images_urls_field, [])]

def get_media_requests(self, item, info):#修改的

    for file_url in item['file_urls']:

        yield scrapy.Request(file_url)

refer： https://www.imooc.com/article/21840 这篇文章介绍了多种实例

def get_media_requests(self, item, info):

        request_objects = super(AudiImagesPipeline, self).get_media_requests(item, info)  # super()直接调用父类对象

        for request_object in request_objects:

            request_object.item = item

        return request_objects
#这个是网易云课堂的写法，网上很多也都是这个写法，但是不理解request_object.item 为什么会有一个item，super().get_media_requests(item, info)返回的是request请求，
并没有item，后来找到了下面的例子

class RefererImagePipeline(ImagesPipeline):

    def get_media_requests(self, item, info):

        requests = super().get_media_requests(item, info)

        for req in requests:

            req.headers.appendlist("referer", item['referer'])

        return requests

#这个是修改返回的request的headers，这个就比较容易接受了，仔细看博主的文章，又发现了下面的例子

如果文件名生成规则更加复杂，可以参考znns项目中的pipeline编写。他这里要根据路径生成多级文件夹保存图片，所以他的图片Item需要额外几个属性设置图片分类等。这时候就需要重写get_media_requests方法，从image_urls获取图片地址请求的时候用Request的meta属性将对应的图片Item也传进去，这样在生成文件名的时候就可以读取meta属性来确定图片的分类等信息了。

class ZnnsPipeline(ImagesPipeline):

    def get_media_requests(self, item, info):

        for image_url in item['image_urls']:

            yield Request(image_url, meta={'item': item}, headers=headers)  #

            # 这里把item传过去，因为后面需要用item里面的书名和章节作为文件名 ##@@#这里就是他传item的用法，用meta传参数
*****************************************************************************************************

 def item_completed(self, results, item, info):

        image_paths = [x['path'] for ok, x in results if ok]

        if not image_paths:

            raise DropItem("Item contains no images")

        return item

    def file_path(self, request, response=None, info=None):

        item = request.meta['item']

        image_guid = request.url.split('/')[-1]

        filename = u'full/{0[name]}/{0[albumname]}/{1}'.format(item, image_guid)  #这个file_path的写法比较优雅

        return filename

        #另：通过列表索引设置参数 
        my_list = ['菜鸟教程', 'www.runoob.com']
        print("网站名：{0[0]}, 地址 {0[1]}".format(my_list)) # "0" 是必须的
        网站名：菜鸟教程, 地址 www.runoob.com

改写pipeline的更多相关文章

基于Python,scrapy,redis的分布式爬虫实现框架
原文 http://www.xgezhang.com/python_scrapy_redis_crawler.html 爬虫技术,无论是在学术领域,还是在工程领域,都扮演者非常重要的角色.相比于其他 ...
OpenVINO 目标检测底层C++代码改写实现（待优化）
System: Centos7.4 I:OpenVINO 的安装 refer:https://docs.openvinotoolkit.org/latest/_docs_install_guides_ ...
Ruby Rails学习中：Sass 和 Asset Pipeline，布局中的链接（Rails路由，具名路由），用户注册: 第一步
接上篇: 一.Sass 和 Asset Pipeline Rails 中最有用的功能之一是 Asset Pipeline, 它极大地简化了静态资源文件(CSS.JavaScript 和图像)的生成和管 ...
redis大幅性能提升之使用管道（PipeLine）和批量（Batch）操作
前段时间在做用户画像的时候,遇到了这样的一个问题,记录某一个商品的用户购买群,刚好这种需求就可以用到Redis中的Set,key作为productID,value 就是具体的customerid集合, ...
为Xamarin更好的开发而改写的库
欢迎大家加入以下开源社区 Xamarin-Cn:https://github.com/Xamarin-Cn Mvvmcross-Cn:https://github.com/Mvvmcross-Cn ...
Building the Testing Pipeline
This essay is a part of my knowledge sharing session slides which are shared for development and qua ...
Scrapy:为spider指定pipeline
当一个Scrapy项目中有多个spider去爬取多个网站时,往往需要多个pipeline,这时就需要为每个spider指定其对应的pipeline. [通过程序来运行spider],可以通过修改配置s ...
.NET跨平台之旅：基于.NET Core改写EnyimMemcached，实现Linux上访问memcached缓存
注:支持 .NET Core 的 memcached 客户端 EnyimMemcachedCore 的 NuGet 包下载地址:https://www.nuget.org/packages/Enyim ...
图解Netty之Pipeline、channel、Context之间的数据流向。
声明:本文为原创博文,禁止转载. 以下所绘制图形均基于Netty4.0.28版本. 一.connect(outbound类型事件) 当用户调用channel的connect时,会发起一个 ...

随机推荐

Sigmoid函数简介
Sigmoid函数是一个在生物学中常见的S型的函数,也称为S型生长曲线.[1] 中文名 Sigmoid函数外文名 Sigmoid function 别名 S型生长曲线 Sigmoid函数由下列公式定 ...
Rk3288 双屏异显单触摸
系统版本:RK3288 android 5.1 设备同时有两个lcd,主屏是mipi接口,带有触摸屏,触摸屏是usb接口,副屏是hdmi接口,没有触摸屏,正常情况下,两个lcd显示相同内容,触摸屏一切 ...
23命令模式Command
一.什么是命令模式 Command模式也叫命令模式 ,是行为设计模式的一种.Command模式通过被称为 Command的类封装了对目标对象的调用行为以及调用参数. 二.命令模式的应用场景在面向对 ...
Redis介绍和安装
一. Redis的介绍 Redis 是一个Key-Value存储的系统:它支持存储的value类型有string(字符串),list(列表),set(集合),zset(有序集合):为了保证效率:数据都 ...
exists oracle 的用法
CREATE TABLE `A` ( `id` ) NOT NULL AUTO_INCREMENT, `name` ) DEFAULT NULL, PRIMARY KEY (`id`) ) ENGIN ...
LostRoutes项目日志——玩家飞机精灵Fighter解析
Fighter类的定义在Fighter.js中,Fighter类继承与PhysicsSprite. 原版的Fighter.js: var Fighter = cc.PhysicsSprite.exte ...
[原][openstack-pike][controller node][issue-2][glance] Could not parse rfc1738 URL from string 'mysql+pymysql=http://glance:glance@controller/glance'
问题点在手动上传镜像的时候:出现错误 Could not parse rfc1738 URL from string 'mysql+pymysql=http://glance:glance@cont ...
关于windows 下每次打开IE 8都弹出欢迎使用Internet Explorer 8 弹窗的关闭方法
今天笔者在安装完windows 操作系统后,发现了一个问题,即每次打开IE 8浏览器,都会弹出一个欢迎界面: 弹窗标题为:设置windows Internet Explorer,具体内容如下图所示: ...
Centos6.8 安装spark-2.3.1 以及 scala-2.12.2
一.Spark概述 Spark 是一个用来实现快速而通用的集群计算的平台. 在速度方面,Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流 ...
thinkphp5中使用phpmailer实现发送邮件功能(转载)
一.开启SMTP服务(使用php发送邮件需要用到SMTP服务,这里以163邮箱的SMTP服务为例). 1.登录163邮箱,在首页上找到“设置”. 2.选择开启的服务,一般都全选,POP3/SMTP/I ...

改写pipeline

改写pipeline的更多相关文章

随机推荐

热门专题