scrapy 下载图片 from cuiqingcai

import scrapy

class MzituScrapyItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    name = scrapy.Field()

    image_urls = scrapy.Field()

    url = scrapy.Field()

    pass

官方的：

https://doc.scrapy.org/en/latest/topics/media-pipeline.html?highlight=item_complete#scrapy.pipelines.images.ImagesPipeline.item_completed

https://doc.scrapy.org/en/latest/topics/media-pipeline.html?highlight=item_complete

没有分类，很难看，再重写一下ImagesPipeline中的file_path方法！

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

from scrapy import Request

from scrapy.pipelines.images import ImagesPipeline

from scrapy.exceptions import DropItem

import re

class MzituScrapyPipeline(ImagesPipeline):

    def file_path(self, request, response=None, info=None):

        """

        :param request: 每一个图片下载管道请求

        :param response:

        :param info:

        :param strip :清洗Windows系统的文件夹非法字符，避免无法创建目录

        :return: 每套图的分类目录

        """

        item = request.meta['item']

        folder = item['name']

        folder_strip = strip(folder)

        image_guid = request.url.split('/')[-1]

        filename = u'full/{0}/{1}'.format(folder_strip, image_guid)

        return filename

    def get_media_requests(self, item, info):

        """

        :param item: spider.py中返回的item

        :param info:

        :return:

        """

        for img_url in item['image_urls']:

            referer = item['url']

            yield Request(img_url, meta={'item': item,

                                         'referer': referer})

    def item_completed(self, results, item, info):

        image_paths = [x['path'] for ok, x in results if ok]

        if not image_paths:

            raise DropItem("Item contains no images")

        return item

    # def process_item(self, item, spider):

    #     return item

def strip(path):

    """

    :param path: 需要清洗的文件夹名字

    :return: 清洗掉Windows系统非法文件夹名字的字符串

    """

    path = re.sub(r'[？\\*|“<>:/]', '', str(path))

    return path

if __name__ == "__main__":

    a = '我是一个？\*|“<>:/错误的字符串'

    print(strip(a))

写一个中间件来处理图片下载的防盗链：

class MeiZiTu(object):

    def process_request(self, request, spider):

        '''设置headers和切换请求头

        :param request: 请求体

        :param spider: spider对象

        :return: None

        '''

        referer = request.meta.get('referer', None)

        if referer:

            request.headers['referer'] = referer

最后一步设置ImagesPipeline的存储目录！

在settings.py中写入：

IMAGES_STORE = 'F:\mzitu\\'

在settings.py中写入以下配置。

# 30 days of delay for images expiration

IMAGES_EXPIRES = 30

ITEM_PIPELINES = {

'mzitu_scrapy.pipelines.MzituScrapyPipeline': 300,

}

DOWNLOADER_MIDDLEWARES = {

'mzitu_scrapy.middlewares.MeiZiTu': 543,

}

scrapy 下载图片 from cuiqingcai的更多相关文章

scrapy下载图片到自己的目录，创建缩略图，存储入库
环境和工具:python2.7,scrapy 实验网站:http://www.27270.com/tag/333.html 爬去所有兔女郎图片,下面的推荐需要过滤逻辑:分析网站信息,下载图片和入库 ...
Scrapy下载图片及自定义分类下载路径
配置下载图片的流程如下在items中定义两个属性,image_urls 和images .image_urls是用来存储需要下载的图片url链接,列表类型: 当文件下载完成后会把相关下载信息存入im ...
利用scrapy下载图片保存到本地
1.先声明一下,起始位置已经是将所有的图片链接都能到pipelines.py中 2.创建一个类,继承于ImagesPipeline,因此也就需要导入ImagesPipeline from scrapy ...
[转]解决scrapy下载图片时相对路径转绝对路径的问题
专注自:http://blog.csdn.net/hjy_six/article/details/6862648 这段时间一直在研究利用scrapy抓取图片的问题,我发觉,用官网的http://doc ...
Scrapy 下载图片时 ModuleNotFoundError: No module named'PIL'
使用scrapy的下载模块需要PIL(python图像处理模块)的支持,使用pip安装即可
Scrapy 下载图片
参考 : https://www.jianshu.com/p/6c8d2730d088 https://docs.scrapy.org/en/latest/topics/item-pipeline.h ...
scrapy下载图片报[scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt:错误
本文转自:http://blog.csdn.net/zzk1995/article/details/51628205 先说结论,关闭scrapy自带的ROBOTSTXT_OBEY功能,在setting ...
Day3-scrapy爬虫下载图片自定义名称
学习Scrapy过程中发现用Scrapy下载图片时,总是以他们的URL的SHA1 hash值为文件名,如: 图片URL:http://www.example.com/image.jpg 它的SHA1 ...
用Scrapy爬虫下载图片(豆瓣电影图片)
用Scrapy爬虫的安装和入门教程,这里有,这篇链接的博客也是我这篇博客的基础. 其实我完全可以直接在上面那篇博客中的代码中直接加入我要下载图片的部分代码的,但是由于上述博客中的代码已运行,已爬到快九 ...

随机推荐

二叉树df
二叉树最有搜索算法打印偶节点不要用递归
QT linux
一. 如果你是服务器版的CentOS,我建议你安装一下图形界面 1. 首先安装X window: yum groupinstall 'X WindowSystem'2. 然后安装GNOME: yum ...
从零开始一起学习SLAM | 三维空间刚体的旋转
刚体,顾名思义,是指本身不会在运动过程中产生形变的物体,如相机的运动就是刚体运动,运动过程中同一个向量的长度和夹角都不会发生变化.刚体变换也称为欧式变换. 视觉SLAM中使用的相机就是典型的刚体,相机 ...
cocos2dx JS 清除缓存重新编译打包安卓apk
复制他人工程时打包出错,无法进行.或者是资源缓存问题需要重新编译删除 proj.android 工程下的三个文件夹 frameworks -> runtime-src -> proj.an ...
Unity中HideInInspector和SerializeField以及Serializable
首先,Unity会自动为Public变量做序列化,序列化的意思是说再次读取Unity时序列化的变量是有值的,不需要你再次去赋值,因为它已经被保存下来. 然后是,什么样的值会被显示在面板上? 已经被序列 ...
用URLRewriter重写url
用url重新一般都是使用URLRewriter库,基本上都是一些配置,在webconfig中首先配置configuration节点 <configSections> <sectio ...
DataGridView控件用法二：常用属性
通常会设置的DataGridView的属性如下: AllowUserToAddRows - False指示是否向用户显示用于添加行的选项,列标题下面的一行空行将消失.一般让其消失.AllowUserT ...
Ajax的重构
Ajax的重构方法: (1)创建一个单独的JS文件,命名为AjaxRequest.js,并且在该文件中编写重构Ajax所需要的代码. var net = new Object(); //创建一个全局变 ...
sqlserver恢复数据库被挂起
已测试过,直接执行此句后,数据库恢复原状态.数据不会丢失.具体是什么意思,暂时没来得及搞明白 RESTORE database dbname with norecovery
取n的第k位
实例二:取n的第k位方法:a>> k & 1 某值a右移K位后与整数“1”进行与运算.即把需要第几位就右移几位. 例子: 0000 1000 ------8右移3位 0000 0 ...

scrapy 下载图片 from cuiqingcai

scrapy 下载图片 from cuiqingcai的更多相关文章

随机推荐

热门专题