scrapy 下载图片 from cuiqingcai

import scrapy

class MzituScrapyItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    name = scrapy.Field()

    image_urls = scrapy.Field()

    url = scrapy.Field()

    pass

官方的：

https://doc.scrapy.org/en/latest/topics/media-pipeline.html?highlight=item_complete#scrapy.pipelines.images.ImagesPipeline.item_completed

https://doc.scrapy.org/en/latest/topics/media-pipeline.html?highlight=item_complete

没有分类，很难看，再重写一下ImagesPipeline中的file_path方法！

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

from scrapy import Request

from scrapy.pipelines.images import ImagesPipeline

from scrapy.exceptions import DropItem

import re

class MzituScrapyPipeline(ImagesPipeline):

    def file_path(self, request, response=None, info=None):

        """

        :param request: 每一个图片下载管道请求

        :param response:

        :param info:

        :param strip :清洗Windows系统的文件夹非法字符，避免无法创建目录

        :return: 每套图的分类目录

        """

        item = request.meta['item']

        folder = item['name']

        folder_strip = strip(folder)

        image_guid = request.url.split('/')[-1]

        filename = u'full/{0}/{1}'.format(folder_strip, image_guid)

        return filename

    def get_media_requests(self, item, info):

        """

        :param item: spider.py中返回的item

        :param info:

        :return:

        """

        for img_url in item['image_urls']:

            referer = item['url']

            yield Request(img_url, meta={'item': item,

                                         'referer': referer})

    def item_completed(self, results, item, info):

        image_paths = [x['path'] for ok, x in results if ok]

        if not image_paths:

            raise DropItem("Item contains no images")

        return item

    # def process_item(self, item, spider):

    #     return item

def strip(path):

    """

    :param path: 需要清洗的文件夹名字

    :return: 清洗掉Windows系统非法文件夹名字的字符串

    """

    path = re.sub(r'[？\\*|“<>:/]', '', str(path))

    return path

if __name__ == "__main__":

    a = '我是一个？\*|“<>:/错误的字符串'

    print(strip(a))

写一个中间件来处理图片下载的防盗链：

class MeiZiTu(object):

    def process_request(self, request, spider):

        '''设置headers和切换请求头

        :param request: 请求体

        :param spider: spider对象

        :return: None

        '''

        referer = request.meta.get('referer', None)

        if referer:

            request.headers['referer'] = referer

最后一步设置ImagesPipeline的存储目录！

在settings.py中写入：

IMAGES_STORE = 'F:\mzitu\\'

在settings.py中写入以下配置。

# 30 days of delay for images expiration

IMAGES_EXPIRES = 30

ITEM_PIPELINES = {

'mzitu_scrapy.pipelines.MzituScrapyPipeline': 300,

}

DOWNLOADER_MIDDLEWARES = {

'mzitu_scrapy.middlewares.MeiZiTu': 543,

}

scrapy 下载图片 from cuiqingcai的更多相关文章

scrapy下载图片到自己的目录，创建缩略图，存储入库
环境和工具:python2.7,scrapy 实验网站:http://www.27270.com/tag/333.html 爬去所有兔女郎图片,下面的推荐需要过滤逻辑:分析网站信息,下载图片和入库 ...
Scrapy下载图片及自定义分类下载路径
配置下载图片的流程如下在items中定义两个属性,image_urls 和images .image_urls是用来存储需要下载的图片url链接,列表类型: 当文件下载完成后会把相关下载信息存入im ...
利用scrapy下载图片保存到本地
1.先声明一下,起始位置已经是将所有的图片链接都能到pipelines.py中 2.创建一个类,继承于ImagesPipeline,因此也就需要导入ImagesPipeline from scrapy ...
[转]解决scrapy下载图片时相对路径转绝对路径的问题
专注自:http://blog.csdn.net/hjy_six/article/details/6862648 这段时间一直在研究利用scrapy抓取图片的问题,我发觉,用官网的http://doc ...
Scrapy 下载图片时 ModuleNotFoundError: No module named'PIL'
使用scrapy的下载模块需要PIL(python图像处理模块)的支持,使用pip安装即可
Scrapy 下载图片
参考 : https://www.jianshu.com/p/6c8d2730d088 https://docs.scrapy.org/en/latest/topics/item-pipeline.h ...
scrapy下载图片报[scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt:错误
本文转自:http://blog.csdn.net/zzk1995/article/details/51628205 先说结论,关闭scrapy自带的ROBOTSTXT_OBEY功能,在setting ...
Day3-scrapy爬虫下载图片自定义名称
学习Scrapy过程中发现用Scrapy下载图片时,总是以他们的URL的SHA1 hash值为文件名,如: 图片URL:http://www.example.com/image.jpg 它的SHA1 ...
用Scrapy爬虫下载图片(豆瓣电影图片)
用Scrapy爬虫的安装和入门教程,这里有,这篇链接的博客也是我这篇博客的基础. 其实我完全可以直接在上面那篇博客中的代码中直接加入我要下载图片的部分代码的,但是由于上述博客中的代码已运行,已爬到快九 ...

随机推荐

[js]顶部导航和内容区布局
自己实现顶部导航布局--内容显示 <!DOCTYPE html> <html lang="en"> <head> <meta charse ...
Centos7上安装及配置Apache
Apache HTTP服务器是世界上最流行的Web服务器. 它是一款免费的开源和跨平台的HTTP服务器,提供强大的功能,可以通过各种模块进行扩展. 以下说明介绍如何在CentOS 7机器上安装和管理A ...
实践： Ubuntu 上 Testlink 部署
1.安装apache sudo apt-get install apache2 2. sudo /etc/init.d/apache2 restart 测试: Http:\localhost or I ...
cocos2dx JS 清除缓存重新编译打包安卓apk
复制他人工程时打包出错,无法进行.或者是资源缓存问题需要重新编译删除 proj.android 工程下的三个文件夹 frameworks -> runtime-src -> proj.an ...
24.form表单提交的六种方式
form表单提交方式 1.无刷新页面提交表单表单可实现无刷新页面提交,无需页面跳转,如下,通过一个隐藏的iframe实现,form表单的target设置为iframe的name名称,form提交目标 ...
FileFilter文件过滤器
引入:将E:\java目录下的所有.java文件复制到E:\jad目录下,并将原来的文件的扩展名从.java改为.jad package com_2; import java.io.File; imp ...
Openstack CentOS6.5 ALL IN ONE 安装
本文档以RDO的方式安装单节点.单网卡的Openstack. RDO是可在Red Hat Enterprise Linux.Fedora及其变体上运行的社区支持OpenStack版本.部署简单方便,R ...
【转】win中IDLE选择virtualenv的启动方法
从dos命令行运行.(virtualenv dir)\Scripts\activate.bat脚本激活环境,然后执行: python -m idlelib.idle 摘录:https://blog.c ...
uva 11354 Bond
题意: 邦德在逃命!他在一个有N个城市,由M条边连接的道路网中.一条路的危险度被定义为这条路上危险度最大的边的危险度. 现在给出若干个询问,s,t,问从s到t的最小的危险度是多少. 思路: 首先可以证 ...
【Redis学习之十一】Java客户端实现redis集群操作
客户端:jedis-2.7.2.jar 配置文件两种方式: properties: redis.cluster.nodes1=192.168.1.117 redis.cluster.port1=700 ...

scrapy 下载图片 from cuiqingcai

scrapy 下载图片 from cuiqingcai的更多相关文章

随机推荐

热门专题