Scrapy实战篇(六)之爬取360图片数据和图片
本篇文章我们以360图片为例,介绍scrapy框架的使用以及图片数据的下载。
目标网站:http://images.so.com/z?ch=photography
思路:分析目标网站为ajax加载方式,通过构造目标url从而请求数据,将图片数据存储在本地,将图片的属性存储在mongodb中。
1、首先定义我们需要抓取的字段
class ImageItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
collection = 'images' #代表mongodb的的集合名称
#下面四个字段分别是图片id,链接,标题,缩率图
id = Field()
url = Field()
title = Field()
thumb = Field()
2、构造我们要爬取的url;由于目标网站时ajax加载的,展示的数据在http://images.so.com/zj?ch=photography&sn=30&listtype=new&temp=1中以json的形式存储,不断的下拉页面之后,每次变化的参数只有sn,并且每次以30的增量增加,第一页sn=30,第二页为60,则sn和页码的关系为sn*30,所以我们可以构造出url
#定义起始需要爬取的url列表,首先从spider中发送给调度引擎
def start_requests(self):
data = {'ch':'photography','listtype':'new','temp':1}
base_url = 'http://images.so.com/zj?'
for page in range(1,self.settings.get('MAX_PAGE') + 1): #MAX_PAGE以参数的形式在settings文件中配置
data['sn'] = page * 30
url = base_url + urlencode(data)
yield Request(url,self.parse)
3、编写解析函数,返回的数据是json格式
#解析函数
def parse(self, response):
result = json.loads(response.text) #将JSON文本字符串转为JSON对象
for image in result.get('list'):
item = ImageItem()
item['id'] = image.get('imageid')
item['url'] = image.get('qhimg_url')
item['title'] = image.get('group_title')
item['thumb'] = image.get('qhimg_thumb_url')
yield item
4、编写pipeline文件,将图片属性数据存入mongo,将图片存储到本地
import pymongofrom scrapy import Request
from scrapy.exceptions import DropItem
from scrapy.pipelines.images import ImagesPipeline #定义了两个个Pipeline,分别为数据存储到mongodb,图片下载到本地
#在settings中定义Pipeline的执行顺序
class MongoPipeline(object):
def __init__(self,mongo_url,mongo_db):
self.mongo_url = mongo_url
self.mongo_db = mongo_db @classmethod
def from_crawler(cls,crawler):
return cls(
mongo_url=crawler.settings.get('MONGO_URL'),
mongo_db=crawler.settings.get('MONGO_DB')
) def open_spider(self,spider):
self.client = pymongo.MongoClient(self.mongo_url)
self.db = self.client[self.mongo_db] def process_item(self, item, spider):
self.db[item.collection].insert(dict(item))
return item def close(self,spider):
self.client.close() class ImagesPipeline(ImagesPipeline):
def file_path(self,request,response=None,info=None):
url = request.url
file_name = url.split('/')[-1]
return file_name def item_completed(self,results,item,info):
image_paths=[x['path'] for ok,x in results if ok]
if not image_paths:
raise DropItem('Image Download Failed')
return item def get_media_requests(self,item,info):
yield Request(item['url'])
第一个为MongoPipeline,通过类方法from_crawler从settings文件中获取mongodb的配置信息,将蜘蛛文件中返回的item存入mongo数据库。
第二个为ImagesPipeline,scrapy提供了专门处理下载的Pipeline,包括文件下载和图片下载,下载过程支持异步和多线程,效率极高。
首先定义存储文件的路径,需要定义一个IMAGES_STORE变量,在settings文件中添加一行
IMAGES_STORE = './images
我们将路径定义在当前路径下的images中,即下载的图片都会存储在这个文件夹中。
内置的ImagesPipeline会默认读取Item对象的image_urls字段,并认为该变量是一个列表,会遍历这个字段,然后取出url进行图片下载。
但是我们上面定义的模型可以看出,Item对象的图片连接并不是image_url,也不是列表形式的,而是单个url,所以为了实现下载,需要重写ImagePipeline,继承内置的ImagePileline,再次我们重写了三个方法,分别是
1)get_media_requests():它的第一个参数item就是爬取生成的Item对象,我们将它的url取出来,直接生成Request对象返回,从而加入调度队列,等待被调度,执行下载。
2)file_path():它的第一个参数request就是当前下载的Request对象,这个方法用来返回保存的文件名称,直接将图片链接的最后一部分当做文件名称即可。
3)item_completed():它是当单个Item完成下载时的处理方法,因为并不是每张图片都会下载成功,所以需要分析下载结果并剔除下载失败的图片,该方法的第一个参数results就是该item对象的下载结果,它是一个列表的形式,列表的每一个元素都是一个元组,其中包含了下载成功或者失败的信息。
5、在settings中激活pipeline,并配置需要的配置项
ITEM_PIPELINES = {
'images360.pipelines.ImagesPipeline': 300,
'images360.pipelines.MongoPipeline': 301,
}
6、执行爬虫,获取数据即可。
scrapy crawl images
项目完整代码:https://gitee.com/liangxinbin/Scrpay/tree/master/images360
Scrapy实战篇(六)之爬取360图片数据和图片的更多相关文章
- Scrapy 通过登录的方式爬取豆瓣影评数据
Scrapy 通过登录的方式爬取豆瓣影评数据 爬虫 Scrapy 豆瓣 Fly 由于需要爬取影评数据在来做分析,就选择了豆瓣影评来抓取数据,工具使用的是Scrapy工具来实现.scrapy工具使用起来 ...
- (3)分布式下的爬虫Scrapy应该如何做-递归爬取方式,数据输出方式以及数据库链接
放假这段时间好好的思考了一下关于Scrapy的一些常用操作,主要解决了三个问题: 1.如何连续爬取 2.数据输出方式 3.数据库链接 一,如何连续爬取: 思考:要达到连续爬取,逻辑上无非从以下的方向着 ...
- 爬虫(十七):Scrapy框架(四) 对接selenium爬取京东商品数据
1. Scrapy对接Selenium Scrapy抓取页面的方式和requests库类似,都是直接模拟HTTP请求,而Scrapy也不能抓取JavaScript动态谊染的页面.在前面的博客中抓取Ja ...
- Scrapy实战篇(七)之爬取爱基金网站基金业绩数据
本篇我们以scrapy+selelum的方式来爬取爱基金网站(http://fund.10jqka.com.cn/datacenter/jz/)的基金业绩数据. 思路:我们以http://fund.1 ...
- Scrapy框架学习(四)爬取360摄影美图
我们要爬取的网站为http://image.so.com/z?ch=photography,打开开发者工具,页面往下拉,观察到出现了如图所示Ajax请求, 其中list就是图片的详细信息,接着观察到每 ...
- python框架Scrapy中crawlSpider的使用——爬取内容写进MySQL
一.先在MySQL中创建test数据库,和相应的site数据表 二.创建Scrapy工程 #scrapy startproject 工程名 scrapy startproject demo4 三.进入 ...
- 爬虫学习(二)--爬取360应用市场app信息
欢迎加入python学习交流群 667279387 爬虫学习 爬虫学习(一)-爬取电影天堂下载链接 爬虫学习(二)–爬取360应用市场app信息 代码环境:windows10, python 3.5 ...
- 【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息(2)
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...
- item pipeline 实例:爬取360摄像图片
生成项目 scrapy startproject image360 cd Image360 && scrapy genspider images images.so.com 一. 构 ...
- scrapy之盗墓笔记三级页面爬取
#今日目标 **scrapy之盗墓笔记三级页面爬取** 今天要爬取的是盗墓笔记小说,由分析该小说的主要内容在三级页面里,故需要我们 一一解析 *代码实现* daomu.py ``` import sc ...
随机推荐
- dom树渲染对性能的影响
这样写会访问两次dom节点树,一次读取innerHTML,一次重写innerHTML. 当然,加载速度也是很惊人的. 用一个变量把a存起来,只读取和重写innerHTML一次. 可以看到加载时间大幅度 ...
- ADO.Net中DataSet的应用
一.知识点描述 1.DataSet是ADO.NET的中心概念.可以把DataSet当成内存中的数据库,DataSet是不依赖于数据库的独立数据集合.也就是说,即使断开数据链路,或者关闭数据库,Data ...
- 2018-软工机试-E-热河路(TLE只拿了90分,待思考)
单点时限: 2.0 sec 内存限制: 256 MB 没有人在热河路谈恋爱, 总有人在天亮时伤感 如果年轻时你没来过热河路, 那你现在的生活是不是很幸福 ——李志<热河> 奔跑.跌倒.奔跑 ...
- ionic3/4 使用NavController 返回两层的方式
ionic3/4 使用NavController 返回两层的方式: this.navCtrl.popTo(this.navCtrl.length() - 3);
- JavaScript语言里判断一个整数,属于哪个范围:大于0;小于0;等于0
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
- java方法 throws exception 事务回滚机制
使用spring难免要用到spring的事务管理,要用事务管理又会很自然的选择声明式的事务管理,在spring的文档中说道,spring声明式事务管理默认对非检查型异常和运行时异常进行事务回滚,而对检 ...
- MySQL 8.0.13 下载安装教程
MySQL是使用最多的数据库,自己电脑上肯定要装一个来多加学习,自己搞不懂的一些东西要多写一些 sql 语句练习. 首先去 mysql 官网下载,地址:https://dev.mysql.com/do ...
- int与integer的区别
int 是基本类型,直接存数值 integer是对象,用一个引用指向这个对象 1.Java 中的数据类型分为基本数据类型和复杂数据类型 int 是前者>>integer 是后者(也就是一个 ...
- PHP数据库连接mysql与mysqli的区别与用法
一.mysql与mysqli的概念相关: 1.mysql与mysqli都是php方面的函数集,与mysql数据库关联不大. 2.在php5版本之前,一般是用php的mysql函数去驱动mysql数据库 ...
- 解题报告 『机器翻译(vector)』
原题地址 本想练习一下模拟,不过用vector貌似可以轻松水过?(虽然还是模拟) 但突然发现貌似我并不会判断单词是否在内存中出现过? 最后还是靠度娘解决了. 代码如下: #include <bi ...