[Python_scrapy图片爬取下载]

welcome to myblog

爬取某个车站的图片

item.py 中

1、申明item 的fields

class PhotoItem(scrapy.Item):

     # define the fields for your item here like:

     # name = scrapy.Field()

     image_urls = scrapy.Field()

     images = scrapy.Field()

     pass

spider 的image.py

导入头文件

from Photo.items import PhotoItem

from scrapy import Spider

from scrapy import Selector

from scrapy.http import Request

爬取代码

注：

只需要爬取图片对应的url

翻页爬取时加上爬取范围url

class imageSpider(Spider):

      name = 'car'

      allowed_domains = ['car.autohome.com.cn']

      start_urls = [

          "https://car.autohome.com.cn/jingxuan/list-0-p1.html",

      ]

def parse(self, response):

    item = PhotoItem()

    sel = Selector(response)

    item['image_urls'] = sel.xpath('//ul[@class="content"]/li/a/img/@src').extract()

    print item['image_urls'], '..image_urls..'

    yield item

    # 翻页

    new_urls = response.xpath('//div[@class="pageindex"]/a[9]/@href').extract_first()

    new_url = "https://car.autohome.com.cn" + new_urls

    print new_url, '..new_url...'

    if new_url:

       yield Request(new_url, callback=self.parse)

settings.py 中

大专栏 [Python_scrapy图片爬取下载]Configure item pipelines

ITEM_PIPELINES = {

    'Photo.pipelines.jandanPipeline': 200,

    # 'Photo.pipelines.PhotoPipeline': 300,

 }

存储下载图片所在位置

IMAGES_STORE = '/Users/sansi/Desktop/Scrapy/Photo/Image'

DOWNLOAD_DELAY = 0.25

缩略图大小

IMAGES_THUMBS = {

   'small': (50, 50),

   'big': (200, 200),

}

图片的失效期限

IMAGES_EXPIRES = 90

pipelines.py 中

导入头文件

import os

import urllib

import scrapy

from scrapy.exceptions import DropItem

from scrapy.pipelines.images import ImagesPipeline

from Photo import settings

编写爬取下载

class PhotoPipeline(object):

 def process_item(self, item, spider):

     return item

重写ImagesPipeline，对各个url返回Request

class jandanPipeline(ImagesPipeline):

    def get_media_requests(self, item, info):

        for image_url in item['image_urls']:

            yield scrapy.Request(image_url)

当一个项目所有的请求完成时调用

def item_completed(self, results, item, info):

    image_paths = [x['path'] for ok, x in results if ok]

    if not image_paths:

        raise DropItem("Item contains no images")

    item['images'] = image_paths

    return item

[Python_scrapy图片爬取下载]的更多相关文章

Python爬虫入门教程 26-100 知乎文章图片爬取器之二
1. 知乎文章图片爬取器之二博客背景昨天写了知乎文章图片爬取器的一部分代码,针对知乎问题的答案json进行了数据抓取,博客中出现了部分写死的内容,今天把那部分信息调整完毕,并且将图片下载完善到代码中 ...
4k图片爬取+中文乱码
4k图片爬取+中文乱码此案例有三种乱码解决方法,推荐第一种 4k图片爬取其实和普通图片爬取的过程是没有本质区别的 import requests import os from lxml import ...
爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...
scrapy之360图片爬取
#今日目标 **scrapy之360图片爬取** 今天要爬取的是360美女图片,首先分析页面得知网页是动态加载,故需要先找到网页链接规律, 然后调用ImagesPipeline类实现图片爬取 *代码实 ...
Python爬虫入门教程 25-100 知乎文章图片爬取器之一
1. 知乎文章图片写在前面今天开始尝试爬取一下知乎,看一下这个网站都有什么好玩的内容可以爬取到,可能断断续续会写几篇文章,今天首先爬取最简单的,单一文章的所有回答,爬取这个没有什么难度. 找到我们要 ...
Python爬虫入门教程 8-100 蜂鸟网图片爬取之三
蜂鸟网图片--啰嗦两句前几天的教程内容量都比较大,今天写一个相对简单的,爬取的还是蜂鸟,依旧采用aiohttp 希望你喜欢爬取页面https://tu.fengniao.com/15/ 本篇教程还 ...
Python爬虫入门教程 7-100 蜂鸟网图片爬取之二
蜂鸟网图片--简介今天玩点新鲜的,使用一个新库 aiohttp ,利用它提高咱爬虫的爬取速度. 安装模块常规套路 pip install aiohttp 运行之后等待,安装完毕,想要深造,那么官方文 ...
Python爬虫入门教程 6-100 蜂鸟网图片爬取之一
1. 蜂鸟网图片--简介国庆假日结束了,新的工作又开始了,今天我们继续爬取一个网站,这个网站为 http://image.fengniao.com/ ,蜂鸟一个摄影大牛聚集的地方,本教程请用来学习, ...
Python爬虫入门教程 5-100 27270图片爬取
27270图片----获取待爬取页面今天继续爬取一个网站,http://www.27270.com/ent/meinvtupian/ 这个网站具备反爬,so我们下载的代码有些地方处理的也不是很到位, ...

随机推荐

ubuntu下安裝程序的三個方式
引言在ubuntu当中,安装应用程序我所知道的有三种方法,分别是apt-get,dpkg安装deb和make install安装源码包三种.下面针对每一种方法各举例来说明. apt-get方法使用 ...
吴裕雄--天生自然 pythonTensorFlow自然语言处理：Attention模型--训练
import tensorflow as tf # 1.参数设置. # 假设输入数据已经转换成了单词编号的格式. SRC_TRAIN_DATA = "F:\\TensorFlowGoogle ...
IDEA中的常用插件安装以及使用的介绍
IDEA中的lombok插件安装以及各注解的详细介绍 Grep Console 当你密密麻麻一大片的日志,去查看起来,很容易看花眼:这个工具正好解决了这个痛点,可以说它就是 IDEA 自带 Conso ...
mybatis 自定义类型转换器 (后台日期类型插入数据库)
后台日期类型插入数据库有以下几种发法: 1 调用数据库日期字符串转日期函数 str_to_date("日期","yyyy-MM-dd HH:mm:ss") ...
SOA,ROA 比较
1.SOA 面向服务架构业务被抽象成服务 SOA架构中的对外服务一般都由web service来暴露 SOA架构中的内部服务一般由某种高效的RPC调用来暴露,当然了也可以用web service来 ...
C++ for循环遍历几种写法
最近写for循环,发现以前用过的方法都忘记了,这里整理下几种方法,欢迎大佬补充: 1. for(itnt n =1;n<5;n++) { } 2. for (auto it = list.beg ...
Flink（三） —— 运行架构
Flink运行时组件 JobManager 作业管理器 TaskManager 任务管理器 ResourceManager 资源管理器 Dispatcher 分发器任务提交流程任务调度原理 Job ...
vue中axios的post请求使用form表单格式发送数据
vue使用插件qs实现 (qs 是一个增加了一些安全性的查询字符串解析和序列化字符串的库.) 在jquery中的ajax的方法已将此封装,所以不需要再次序列化 1. 安装在项目中使用命令行工具输 ...
http跳转http
server {listen 80;server_name 123.com;root /var/www/web/123;index index.html index.htm index.php;rew ...
<< 和>> 的计算公式
在java中,一个数左移n位,就是将这个数乘以2的n次方,右移就是将这个数除以2的n次方. 如: 8>>2 = 2 (8/2^2) 15 << 3 = 120 (15*(2 ...

[Python_scrapy图片爬取下载]

爬取某个车站的图片

item.py 中

spider 的image.py

settings.py 中

大专栏 [Python_scrapy图片爬取下载]Configure item pipelines

存储下载图片所在位置

缩略图大小

图片的失效期限

pipelines.py 中

重写ImagesPipeline，对各个url返回Request

当一个项目所有的请求完成时调用

[Python_scrapy图片爬取下载]的更多相关文章

随机推荐

热门专题