scrapy的大文件下载（基于一种形式的管道类实现）

爬虫类中将解析到的图片地址存储到item，将item提交给指定的管道
在管道文件中导包：from scrapy.pipelines.images import ImagesPipeline

基于ImagesPipeline父类，自定义一个管道类

重写管道类中的如下三个方法：

from scrapy.pipelines.images import ImagesPipeline

import scrapy

class ImgporPipeline(ImagesPipeline):

    #指定文件存储的目录（文件名）

    def file_path(self,request,response=None,info=None):

        #接受mate

        item = request.meta['item']

        return item['img_name']

    #对指定资源进行请求发送

    def get_media_requests(self,item,info):

        #meta可以传递给file_path

        yield scrapy.Request(item['img_src'],meta={'item':item})

    #用于返回item，将item传递给下一个即将被执行的管道类

    def item_completed(self,request,item,info):

        return item

settings.py文件中

#指定文件存储的目录

IMAGES_STORE = './imgs'

爬虫文件

import scrapy

from imgPor.items import ImgporItem

class ImgSpider(scrapy.Spider):

    name = 'img'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['http://www.521609.com/daxuemeinv/']

    def parse(self, response):

        li_list = response.xpath('//*[@id="content"]/div[2]/div[2]/ul/li')

        for li in li_list:

            img_src = 'http://www.521609.com' + li.xpath('./a[1]/img/@src').extract_first()

            img_name = li.xpath('./a[2]/b/text() | ./a[2]/text()').extract_first() + '.jpg'

            print(img_name)

            item = ImgporItem()

            item['img_src'] = img_src

            item['img_name'] = img_name

            yield item

scrapy的大文件下载（基于一种形式的管道类实现）的更多相关文章

基于 Scrapy-redis 两种形式的分布式爬虫
基于 Scrapy-redis 两种形式的分布式爬虫 .caret, .dropup > .btn > .caret { border-top-color: #000 !important ...
17，基于scrapy-redis两种形式的分布式爬虫
redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以.原因有二. 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls ...
C++：一般情况下，设计函数的形参只需要两种形式
C++:一般情况下,设计函数的形参只需要两种形式.一,是引用形参,例如 void function (int &p_para):二,是常量引用形参,例如 void function(const ...
javascript面向对象系列第三篇——实现继承的3种形式
× 目录 [1]原型继承 [2]伪类继承 [3]组合继承前面的话学习如何创建对象是理解面向对象编程的第一步,第二步是理解继承.本文是javascript面向对象系列第三篇——实现继承的3种形式 [ ...
IOS NSURLConnection（大文件下载）
NSURL:请求地址 NSURLRequest:一个NSURLRequest对象就代表一个请求,它包含的信息有一个NSURL对象请求方法.请求头.请求体请求超时 … … NSMutableURL ...
es6 Object.assign ECMAScript 6 笔记（六） ECMAScript 6 笔记（一） react入门——慕课网笔记 jquery中动态新增的元素节点无法触发事件解决办法响应式图像弹窗细节微信浏览器——返回操作 Float 的那些事 Flex布局 HTML5 data-* 自定义属性参数传递的四种形式
es6 Object.assign 目录一.基本用法二.用途 1. 为对象添加属性 2. 为对象添加方法 3. 克隆对象 4. 合并多个对象 5. 为属性指定默认值三.浏览器支持 ES6 O ...
ASP.NET 大文件下载的实现思路及代码
文件下载是一个网站最基本的功能,ASP.NET网站的文件下载功能实现也很简单,但是如果遇到大文件的下载而不做特殊处理的话,那将会出现不可预料的后果.本文就基于ASP.NET提供大文件下载的实现思路及代 ...
流式大数据处理的三种框架：Storm，Spark和Samza
许多分布式计算系统都可以实时或接近实时地处理大数据流.本文将对三种Apache框架分别进行简单介绍,然后尝试快速.高度概述其异同. Apache Storm 在Storm中,先要设计一个用于实时计算的 ...
Django 大文件下载
django提供文件下载时,若果文件较小,解决办法是先将要传送的内容全生成在内存中,然后再一次性传入Response对象中: def simple_file_download(request): # ...

随机推荐

CVE-2019-2618任意文件上传漏洞复现
CVE-2019-2618任意文件上传漏洞复现漏洞介绍: 近期在内网扫描出不少CVE-2019-2618漏洞,需要复测,自己先搭个环境测试,复现下利用过程,该漏洞主要是利用了WebLogic组件中的 ...
C# 委托、事件、表达式树理解
1.什么是委托? 委托是一种动态调用方法的类型,属于引用型. 委托是对方法的抽象和封装.委托对象实质上代表了方法的引用(即内存地址) 所有的异步都是委托委托就是函数当入参委托被各种语法糖遮 ...
【命令】at命令和cron命令
博文链接:https://www.cnblogs.com/l75790/articles/9191753.html
ES6语法：class类，从了解到使用
前期提要: JavaScript 语言中,在使用类之前,生成实例对象的传统方法是通过使用构造函数. 一.构造函数: 定义:通过 new 函数名来实例化对象的函数叫构造函数. 主要功能:为初 ...
DX关联VS
// Windows API: #include <windows.h> // C 运行时头文件,测试可能会用到 #include <stdlib.h> //standa ...
Mybatis 动态sql if 判读条件等于一个数字
在Mybatis中 mapper中 boolean updateRegisterCompanyFlag(@Param(value = "companyId") String com ...
在wildfly 21中搭建cluster集群
目录简介下载软件和相关组件配置domain 创建应用程序部署应用程序集群配置总结简介 wildfly是一个非常强大的工具,我们可以轻松的使用wildfly部署应用程序,更为强大的是,wi ...
GC算法与回收策略
算法: 标记-清理 :首先标记出需要回收的对象 ,然后统一回收待标记的对象. 缺点:易产生大量空间碎片,空间碎片太多导致程序在运行过程中产生大对象时因为空间不足导致容易导致另一个垃圾收集动作标记 ...
log4j2文件结构
标签结构 Configuration properties Appenders Console PatternLayout File RollingRandomAccessFile Filters T ...
一、linux安装mysql
一.下载mysql免编译包: wget http://cdn.mysql.com/archives/mysql-5.6/mysql-5.6.33-linux-glibc2.5-x86_64.tar.g ...

scrapy的大文件下载（基于一种形式的管道类实现）

scrapy的大文件下载（基于一种形式的管道类实现）

scrapy的大文件下载（基于一种形式的管道类实现）的更多相关文章

随机推荐

热门专题