Scrapy实战篇（六）之爬取360图片数据和图片

　　本篇文章我们以360图片为例，介绍scrapy框架的使用以及图片数据的下载。

　　目标网站：http://images.so.com/z?ch=photography

　　思路：分析目标网站为ajax加载方式，通过构造目标url从而请求数据，将图片数据存储在本地，将图片的属性存储在mongodb中。

　　1、首先定义我们需要抓取的字段

class ImageItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    collection = 'images'  #代表mongodb的的集合名称

    #下面四个字段分别是图片id，链接，标题，缩率图

    id = Field()

    url = Field()

    title = Field()

    thumb = Field()

　　2、构造我们要爬取的url；由于目标网站时ajax加载的，展示的数据在http://images.so.com/zj?ch=photography&sn=30&listtype=new&temp=1中以json的形式存储，不断的下拉页面之后，每次变化的参数只有sn，并且每次以30的增量增加，第一页sn=30，第二页为60，则sn和页码的关系为sn*30，所以我们可以构造出url

#定义起始需要爬取的url列表，首先从spider中发送给调度引擎

    def start_requests(self):

        data = {'ch':'photography','listtype':'new','temp':1}

        base_url = 'http://images.so.com/zj?'

        for page in range(1,self.settings.get('MAX_PAGE') + 1):   #MAX_PAGE以参数的形式在settings文件中配置

            data['sn'] = page * 30

            url = base_url + urlencode(data)

            yield Request(url,self.parse)

　　3、编写解析函数，返回的数据是json格式

#解析函数

    def parse(self, response):

        result = json.loads(response.text)   #将JSON文本字符串转为JSON对象

        for image in result.get('list'):

            item = ImageItem()

            item['id'] = image.get('imageid')

            item['url'] = image.get('qhimg_url')

            item['title'] = image.get('group_title')

            item['thumb'] = image.get('qhimg_thumb_url')

            yield item

　　4、编写pipeline文件，将图片属性数据存入mongo，将图片存储到本地

import pymongofrom scrapy import Request

from scrapy.exceptions import DropItem

from scrapy.pipelines.images import ImagesPipeline

#定义了两个个Pipeline，分别为数据存储到mongodb，图片下载到本地

#在settings中定义Pipeline的执行顺序

class MongoPipeline(object):

    def __init__(self,mongo_url,mongo_db):

        self.mongo_url = mongo_url

        self.mongo_db = mongo_db

    @classmethod

    def from_crawler(cls,crawler):

        return cls(

            mongo_url=crawler.settings.get('MONGO_URL'),

            mongo_db=crawler.settings.get('MONGO_DB')

        )

    def open_spider(self,spider):

        self.client = pymongo.MongoClient(self.mongo_url)

        self.db = self.client[self.mongo_db]

    def process_item(self, item, spider):

        self.db[item.collection].insert(dict(item))

        return item

    def close(self,spider):

        self.client.close()

class ImagesPipeline(ImagesPipeline):

    def file_path(self,request,response=None,info=None):

        url = request.url

        file_name = url.split('/')[-1]

        return file_name

    def item_completed(self,results,item,info):

        image_paths=[x['path'] for ok,x in results if ok]

        if not image_paths:

            raise DropItem('Image Download Failed')

        return item

    def get_media_requests(self,item,info):

        yield Request(item['url'])

第一个为MongoPipeline，通过类方法from_crawler从settings文件中获取mongodb的配置信息，将蜘蛛文件中返回的item存入mongo数据库。

第二个为ImagesPipeline，scrapy提供了专门处理下载的Pipeline，包括文件下载和图片下载，下载过程支持异步和多线程，效率极高。

首先定义存储文件的路径，需要定义一个IMAGES_STORE变量，在settings文件中添加一行

IMAGES_STORE = './images

我们将路径定义在当前路径下的images中，即下载的图片都会存储在这个文件夹中。

　　内置的ImagesPipeline会默认读取Item对象的image_urls字段，并认为该变量是一个列表，会遍历这个字段，然后取出url进行图片下载。

　　但是我们上面定义的模型可以看出，Item对象的图片连接并不是image_url，也不是列表形式的，而是单个url，所以为了实现下载，需要重写ImagePipeline，继承内置的ImagePileline，再次我们重写了三个方法，分别是

　　1）get_media_requests()：它的第一个参数item就是爬取生成的Item对象，我们将它的url取出来，直接生成Request对象返回，从而加入调度队列，等待被调度，执行下载。

　　2）file_path()：它的第一个参数request就是当前下载的Request对象，这个方法用来返回保存的文件名称，直接将图片链接的最后一部分当做文件名称即可。

　　3）item_completed()：它是当单个Item完成下载时的处理方法，因为并不是每张图片都会下载成功，所以需要分析下载结果并剔除下载失败的图片，该方法的第一个参数results就是该item对象的下载结果，它是一个列表的形式，列表的每一个元素都是一个元组，其中包含了下载成功或者失败的信息。

　　5、在settings中激活pipeline，并配置需要的配置项

ITEM_PIPELINES = {

   'images360.pipelines.ImagesPipeline': 300,

   'images360.pipelines.MongoPipeline': 301,

}

　　6、执行爬虫，获取数据即可。

　　scrapy crawl images

　　项目完整代码：https://gitee.com/liangxinbin/Scrpay/tree/master/images360

Scrapy实战篇（六）之爬取360图片数据和图片的更多相关文章

Scrapy 通过登录的方式爬取豆瓣影评数据
Scrapy 通过登录的方式爬取豆瓣影评数据爬虫 Scrapy 豆瓣 Fly 由于需要爬取影评数据在来做分析,就选择了豆瓣影评来抓取数据,工具使用的是Scrapy工具来实现.scrapy工具使用起来 ...
(3)分布式下的爬虫Scrapy应该如何做-递归爬取方式，数据输出方式以及数据库链接
放假这段时间好好的思考了一下关于Scrapy的一些常用操作,主要解决了三个问题: 1.如何连续爬取 2.数据输出方式 3.数据库链接一,如何连续爬取: 思考:要达到连续爬取,逻辑上无非从以下的方向着 ...
爬虫(十七)：Scrapy框架(四) 对接selenium爬取京东商品数据
1. Scrapy对接Selenium Scrapy抓取页面的方式和requests库类似,都是直接模拟HTTP请求,而Scrapy也不能抓取JavaScript动态谊染的页面.在前面的博客中抓取Ja ...
Scrapy实战篇（七）之爬取爱基金网站基金业绩数据
本篇我们以scrapy+selelum的方式来爬取爱基金网站(http://fund.10jqka.com.cn/datacenter/jz/)的基金业绩数据. 思路:我们以http://fund.1 ...
Scrapy框架学习（四）爬取360摄影美图
我们要爬取的网站为http://image.so.com/z?ch=photography,打开开发者工具,页面往下拉,观察到出现了如图所示Ajax请求, 其中list就是图片的详细信息,接着观察到每 ...
python框架Scrapy中crawlSpider的使用——爬取内容写进MySQL
一.先在MySQL中创建test数据库,和相应的site数据表二.创建Scrapy工程 #scrapy startproject 工程名 scrapy startproject demo4 三.进入 ...
爬虫学习（二）--爬取360应用市场app信息
欢迎加入python学习交流群 667279387 爬虫学习爬虫学习(一)-爬取电影天堂下载链接爬虫学习(二)–爬取360应用市场app信息代码环境:windows10, python 3.5 ...
【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...
item pipeline 实例：爬取360摄像图片
生成项目 scrapy startproject image360 cd Image360 && scrapy genspider images images.so.com 一. 构 ...
scrapy之盗墓笔记三级页面爬取
#今日目标 **scrapy之盗墓笔记三级页面爬取** 今天要爬取的是盗墓笔记小说,由分析该小说的主要内容在三级页面里,故需要我们一一解析 *代码实现* daomu.py ``` import sc ...

随机推荐

搭建、访问ftp
FTP是文件传输协议,是在网络上进行文件传输的协议,使用的是C/S模式,属于网络传输协议的应用层.FTP是讲文件从一台计算机传送到另一台计算机上,不受操作系统的限制,TCP端口号是21,数据库端口号是 ...
搭建SSM（Spring+SpringMVC+Mybatis）
1.SpringMVC和Spring不需要什么特殊配置就可以结合 2.Mybatis和Spring (1)需要引入额外的jar包:mybatis-spring-1.2.2.jar (2)配置数据源 ( ...
Django REST framewor
4.1 RESTfull 4.1.1.前后端不分离前端看到什么效果,由后端决定,前端页面看到的效果是有后端控制的前后端耦合度很高比较适合纯网页设计,如果有APP,还需要开发APP后端借口 4 ...
shell 之扫描ip段
#!/bin/sh domain=`echo $1|awk -F"." '{print $1"."$2"."$3"."} ...
invalid context 0x0.
在展示图片或者做二维码的时候,若是宽或者高有一个为零的情况就会报错:CGBitmapContextCreateImage: invalid context 0x0. If you want to se ...
TP5对数据库操作的事物作用
假如: 你写好了一段完整的代码,模型对数据库的操作,增删改查什么的,都没有问题,当然运行速度也是最快的,完全不用担心会出错, 前提肯定是已经写好的一整段代码, 但是,万一服务器中断了呢,执行一半,后面 ...
Oracle数据仓库套件
OBIEE RPD:定义不同分析的主题角度,确定相应的事实表和维度表报表层:选取需要的维度和度量,根据筛选器选取需要的数据可视化:用图形展示数据,支持常见的图形:如折线图,饼图,堆叠图等. ODI ...
complex类的设计实现
#include <iostream> #include <cmath> using namespace std; class Complex{ ,); Complex(Com ...
webstorm 2018 LICENSE SERVER 最新激活网址
2018年8月更新:https://s.tuzhihao.com:666 (亲测)
4th week——grid-layout

Scrapy实战篇（六）之爬取360图片数据和图片

Scrapy实战篇（六）之爬取360图片数据和图片的更多相关文章

随机推荐

热门专题