Image Pipeline

Scrapy 提供了专门下载文件或者图片的Pipeline，下载图片与文件的原理同抓取网页的原理是一样的，所以他们的下载过程支持多线程与异步，十分的高效

Image Pipeline的工作流程

itemPipeline从item中获取需要下载的数据，通过Request重新放入到项目队列等待调度器调度下载
当图片下载完成，另一个组(images)将被更新到结构中,其中包括下载图片的信息,比如下载路径,源抓取地址(从image_urls组获得)和图片的校验码. images列表中的图片顺序将和源image_urls组保持一致.如果某个图片下载失败,将会记录下错误信息,图片也不会出现在images组中

案例

首先在settings中配置图片存放路径
```
IMAGES_STORE = './images'
```

在item中定义需要的数据结构

class Images360Item(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    collection = table = "images"

    id = scrapy.Field()

    title = scrapy.Field()

    url = scrapy.Field()

    thumb = scrapy.Field()

定义spider与parse

import scrapy

from urllib.parse import urlencode

from scrapy import Request

from images360.images360.items import Images360Item

class ImagesSpider(scrapy.Spider):

    name = 'images'

    allowed_domains = ['images.so.com']

    start_urls = ['http://images.so.com/']

    def start_requests(self):

        data = {'ch': 'photography',

                'listtype': 'hot', }

        base_url = 'http://images.so.com/zj?'

        for page in range(1, self.settings.get('MAX_PAGE_SIZE') + 1):

            sn = page * 30

            data['sn'] = sn

            params = urlencode(data)

            url = base_url + params

            print(url)

            yield Request(url, self.parse)

    def parse(self, response):

        html = json.loads(response.text)

        datas = html.get('list', '')

        if datas:

            for data in datas:

                images_item = Images360Item()

                images_item['id'] = data.get('imageid', '')

                images_item['title'] = data.get('group_title', '')

                images_item['url'] = data.get('qhimg_url', '')

                images_item['thumb'] = data.get('qhimg_thumb_url', '')

                yield images_item

定义项目管道

from scrapy import Request

from scrapy.exceptions import DropItem

from scrapy.pipelines.images import ImagesPipeline

class ImagesPipeline(ImagesPipeline):

    # 将item中的url取出来 通过Request继续放入到调度器中执行

    def get_media_requests(self, item, info):

        yield Request(item['url'])

    # request对应的是当前下载对象，该函数用于放回 文件名

    def file_path(self, request, response=None, info=None):

        url = request.url

        print('url============', url)

        file_name = url.split('/')[-1]

        return file_name

    # 单个item完成下载时的处理方法

    def item_completed(self,results,item,info):

				# results为Item对应的下载结果

        # print(results)

        # [(True, {'url': 'http://p2.so.qhimgs1.com/t01b866193d9b2101de.jpg', 'path': 't01b866193d9b2101de.jpg',

        #          'checksum': 'e074b5cbacd22ac38480d84506fedf02'})]

        image_path = [x['path'] for ok,x in results if ok]

        if image_path:

            return item

        else:

            raise DropItem('image download failed')

注：ImagePipeline的优先级别应该比存入数据库的级别高

Image Pipeline的更多相关文章

redis大幅性能提升之使用管道（PipeLine）和批量（Batch）操作
前段时间在做用户画像的时候,遇到了这样的一个问题,记录某一个商品的用户购买群,刚好这种需求就可以用到Redis中的Set,key作为productID,value 就是具体的customerid集合, ...
Building the Testing Pipeline
This essay is a part of my knowledge sharing session slides which are shared for development and qua ...
Scrapy:为spider指定pipeline
当一个Scrapy项目中有多个spider去爬取多个网站时,往往需要多个pipeline,这时就需要为每个spider指定其对应的pipeline. [通过程序来运行spider],可以通过修改配置s ...
图解Netty之Pipeline、channel、Context之间的数据流向。
声明:本文为原创博文,禁止转载. 以下所绘制图形均基于Netty4.0.28版本. 一.connect(outbound类型事件) 当用户调用channel的connect时,会发起一个 ...
初识pipeline
1.pipeline的产生从一个现象说起,有一家咖啡吧生意特别好,每天来的客人络绎不绝,客人A来到柜台,客人B紧随其后,客人C排在客人B后面,客人D排在客人C后面,客人E排在客人D后面,一直排到店面 ...
MongoDB 聚合管道（Aggregation Pipeline）
管道概念 POSIX多线程的使用方式中, 有一种很重要的方式-----流水线(亦称为"管道")方式,"数据元素"流串行地被一组线程按顺序执行.它的使用架构可参考 ...
SSIS Data Flow 的 Execution Tree 和 Data Pipeline
一,Execution Tree 执行树是数据流组件(转换和适配器)基于同步关系所建立的逻辑分组,每一个分组都是一个执行树的开始和结束,也可以将执行树理解为一个缓冲区的开始和结束,即缓冲区的整个生命周 ...
Kafka到Hdfs的数据Pipeline整理
作者:Syn良子出处:http://www.cnblogs.com/cssdongl 转载请注明出处找时间总结整理了下数据从Kafka到Hdfs的一些pipeline,如下 1> Kafka ...
SQL Queries from Transactional Plugin Pipeline
Sometimes the LINQ, Query Expressions or Fetch just doesn't give you the ability to quickly query yo ...
One EEG preprocessing pipeline - EEG-fMRI paradigm
The preprocessing pipeline of EEG data from EEG-fMRI paradigm differs from that of regular EEG data, ...

随机推荐

响应式用法rem,需要加入这段JS
<script type="text/javascript"> $(function(){ function size() { winWidth = $(window) ...
Fiddle Proxy
1.抓包原理 Fiddler是类似代理服务器的形式工作,它能够记录所有你的电脑和互联网之间的http(S)通讯,可以查看.修改所有的“进出”的数据.使用代理地址:127.0.0.1, 默认端口:888 ...
maven使用中的问题
1.修改maven的settings.xml后,idea中配置文件指向发生了变化,指向了默认.如果maven配置文件中不是默认的,则需要根据配置文件进行修改.最好在File-Other Setting ...
关于vue移动端的适配
http://blog.csdn.net/z1712636234/article/details/77881685
SaltStack说明文档
SaltStack说明文档 master安装 # 安装 yum -y install salt-master salt-minion salt-ssh # 启动 systemctl start sal ...
关于python深浅拷贝的个人浅见
起初,关于python的深浅拷贝,总是习惯去用传值传址的方式去考虑,发现总是get不到规律,容易记混. python有着高度自治的内存管理,而不可变对象的内存分配,则是能省则省,就是说,无论用什么拷贝 ...
数位DP::SoSDP
数位DP:: SoSDP 学习博客(待补) 下面做一些例题: SPECIAL PAIRS 题意给n个数字,求这些数字有多少对的$AND$ 结果是0.数字不大于1e6.顺序反相反视为不同的对. 思 ...
JMeter 下载
测试文件下载接口,jmeter返回的是字节流,所以jmeter本身是不支持将文件保存到本地的怎么判断服务器有没有完全返回?response header头里面有一个content-lenth,添加断 ...
windows类似grep的命令——findstr
windows类似grep的命令——findstr 使用Chrome发现访问google总是向香港那边跳转,估计配置文件中google网站映射的地址是www.google.com.hk,便想着改配 ...
sk-learn 决策树的超参数
一.参数criterion:特征选择标准,[entropy, gini].默认gini,即CART算法. splitter:特征划分标准,[best, random].best在特征的所有划分点中找出 ...

Image Pipeline

Image Pipeline

Image Pipeline的工作流程

案例

Image Pipeline的更多相关文章

随机推荐

热门专题