scrapy的大文件下载（基于一种形式的管道类实现）

爬虫类中将解析到的图片地址存储到item，将item提交给指定的管道
在管道文件中导包：from scrapy.pipelines.images import ImagesPipeline

基于ImagesPipeline父类，自定义一个管道类

重写管道类中的如下三个方法：

from scrapy.pipelines.images import ImagesPipeline

import scrapy

class ImgporPipeline(ImagesPipeline):

    #指定文件存储的目录（文件名）

    def file_path(self,request,response=None,info=None):

        #接受mate

        item = request.meta['item']

        return item['img_name']

    #对指定资源进行请求发送

    def get_media_requests(self,item,info):

        #meta可以传递给file_path

        yield scrapy.Request(item['img_src'],meta={'item':item})

    #用于返回item，将item传递给下一个即将被执行的管道类

    def item_completed(self,request,item,info):

        return item

settings.py文件中

#指定文件存储的目录

IMAGES_STORE = './imgs'

爬虫文件

import scrapy

from imgPor.items import ImgporItem

class ImgSpider(scrapy.Spider):

    name = 'img'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['http://www.521609.com/daxuemeinv/']

    def parse(self, response):

        li_list = response.xpath('//*[@id="content"]/div[2]/div[2]/ul/li')

        for li in li_list:

            img_src = 'http://www.521609.com' + li.xpath('./a[1]/img/@src').extract_first()

            img_name = li.xpath('./a[2]/b/text() | ./a[2]/text()').extract_first() + '.jpg'

            print(img_name)

            item = ImgporItem()

            item['img_src'] = img_src

            item['img_name'] = img_name

            yield item

scrapy的大文件下载（基于一种形式的管道类实现）的更多相关文章

基于 Scrapy-redis 两种形式的分布式爬虫
基于 Scrapy-redis 两种形式的分布式爬虫 .caret, .dropup > .btn > .caret { border-top-color: #000 !important ...
17，基于scrapy-redis两种形式的分布式爬虫
redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以.原因有二. 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls ...
C++：一般情况下，设计函数的形参只需要两种形式
C++:一般情况下,设计函数的形参只需要两种形式.一,是引用形参,例如 void function (int &p_para):二,是常量引用形参,例如 void function(const ...
javascript面向对象系列第三篇——实现继承的3种形式
× 目录 [1]原型继承 [2]伪类继承 [3]组合继承前面的话学习如何创建对象是理解面向对象编程的第一步,第二步是理解继承.本文是javascript面向对象系列第三篇——实现继承的3种形式 [ ...
IOS NSURLConnection（大文件下载）
NSURL:请求地址 NSURLRequest:一个NSURLRequest对象就代表一个请求,它包含的信息有一个NSURL对象请求方法.请求头.请求体请求超时 … … NSMutableURL ...
es6 Object.assign ECMAScript 6 笔记（六） ECMAScript 6 笔记（一） react入门——慕课网笔记 jquery中动态新增的元素节点无法触发事件解决办法响应式图像弹窗细节微信浏览器——返回操作 Float 的那些事 Flex布局 HTML5 data-* 自定义属性参数传递的四种形式
es6 Object.assign 目录一.基本用法二.用途 1. 为对象添加属性 2. 为对象添加方法 3. 克隆对象 4. 合并多个对象 5. 为属性指定默认值三.浏览器支持 ES6 O ...
ASP.NET 大文件下载的实现思路及代码
文件下载是一个网站最基本的功能,ASP.NET网站的文件下载功能实现也很简单,但是如果遇到大文件的下载而不做特殊处理的话,那将会出现不可预料的后果.本文就基于ASP.NET提供大文件下载的实现思路及代 ...
流式大数据处理的三种框架：Storm，Spark和Samza
许多分布式计算系统都可以实时或接近实时地处理大数据流.本文将对三种Apache框架分别进行简单介绍,然后尝试快速.高度概述其异同. Apache Storm 在Storm中,先要设计一个用于实时计算的 ...
Django 大文件下载
django提供文件下载时,若果文件较小,解决办法是先将要传送的内容全生成在内存中,然后再一次性传入Response对象中: def simple_file_download(request): # ...

随机推荐

个人微信公众号搭建Python实现 -接收和发送消息-基本说明与实现（14.2.1)
@ 目录 1.原理 2.接收普通消息 3.接收代码普通消息代码实现 1.原理 2.接收普通消息其他消息类似参考官方文档 3.接收代码普通消息代码实现 from flask import Flask, ...
SQL注入fuzz字典
length Length + handler likeLiKe selectSeleCT sleepSLEEp databaseDATABASe delete having oroR asAs -~ ...
maven 报错 Failed to execute goal on project ...: Could not resolve dependencies for project ...
昨天在研究项目遇到这样一个问题可以看到上面有三个模块 jeecg-boot-base-common .jeecg-boot-module-system .jeecg-boot-modules ...
MySQL_CRUD_In_Terminal
MySQL的CRUD操作从Terminal中,可以对数据库进行链接,无需GUI界面就可以对数据库进行相关操作.对于Linux.Windows.MacOS,也可以使用可视化软件Navicat.MySQ ...
设计模式——责任链（结合Tomcat中Filter机制）
设计模式:责任链模式说责任链之前,先引入一个场景,假如规定学生请假小于或等于 2 天,班主任可以批准:小于或等于 7 天,系主任可以批准:小于或等于 10 天,院长可以批准:其他情况不予批准:以此为 ...
图解Python中深浅拷贝
在工作中,常涉及到数据的传递,在数据传递使用过程中,可能会发生数据被修改的问题.为了防止数据被修改,就需要在传递一个副本,即使副本被修改,也不会影响原数据的使用.为了生成这个副本,就产生了拷贝.今天就 ...
（十一）、head--查看文件前若干部分，tail--查看文件后若干部分
一.命令描述与格式 head用于查看文件前面部分,tail用于查看文件的末尾部分格式:head/tail [-选项] 文件 head选项: -c:处理文件若干字节数,加b.k.m -n:前 ...
6.mysql存储过程
存储过程 1.命令创建及调用定义分隔符 DELIMITER $ 创建存储过程 delimiter $$ create procedure 名称() begin 语句 end$$ delimiter ...
【原创】Linux PCI驱动框架分析（二）
背景 Read the fucking source code! --By 鲁迅 A picture is worth a thousand words. --By 高尔基说明: Kernel版本 ...
如何解决Visual Studio 首次调试 docker 的 vs2017u5 exists, deleting Opening stream failed, trying again with proxy settings
前言因为之前我电脑安装的是windows10家庭版,然而windows10家庭没有Hyper-v功能. 搜索了几篇windows10家庭版安装docker相关的博客,了解一些前辈们走过的坑. 很多人 ...

scrapy的大文件下载（基于一种形式的管道类实现）

scrapy的大文件下载（基于一种形式的管道类实现）

scrapy的大文件下载（基于一种形式的管道类实现）的更多相关文章

随机推荐

热门专题