item pipeline 实例：爬取360摄像图片

生成项目

scrapy startproject image360

cd Image360 && scrapy genspider images images.so.com

一. 构造请求

1. 在setting.py中增加MAX_PAGE=5，表示爬取5页

2. 在images.py中定义start_requests()方法，用来生成5次请求

二. 提取信息

1. 在item.py中定义ImageItem，用于存放需要的数据

2. 在images.py中定义parse函数来提取信息

三. 存储信息

在pipelines.py中定义三个类，来分别实现图片在本地目录，mongodb和mysql中的存储

四. 各文件完整代码如下

1. setting.py文件

# -*- coding: utf- -*-

BOT_NAME = 'images360'

SPIDER_MODULES = ['images360.spiders']

NEWSPIDER_MODULE = 'images360.spiders'

# 设为False才能爬取网站后台数据

ROBOTSTXT_OBEY = False

#使pipeline.py中设置生效

ITEM_PIPELINES = {

    'images360.pipelines.ImagePipeline': ,

    'images360.pipelines.MongoPipeline': ,

    'images360.pipelines.MysqlPipeline': ,

}

#下载图片后本地存放位置

IMAGES_STORE = './images'

#爬5页

MAX_PAGE = 

#mongodb变量

MONGO_URI = 'localhost'

MONGO_DB = 'images360'

#mysql变量

MYSQL_HOST = 'localhost'

MYSQL_DATABASE = 'images360'

MYSQL_USER = 'root'

MYSQL_PASSWORD = ''

MYSQL_PORT =

2. items.py

# -*- coding: utf- -*-

# Define here the models for your scraped items

#

# See documentation in:

# http://doc.scrapy.org/en/latest/topics/items.html

from scrapy import Item, Field

class ImageItem(Item):

    #定义mongodb存储的collection名称和mysql存储的表名称，都定义为images字符串

    collection = table = 'images'

    #定义图片的ID,链接，标题，缩略图

    id = Field()

    url = Field()

    title = Field()

    thumb = Field()

3. images.py

# -*- coding: utf- -*-

from scrapy import Spider, Request

from urllib.parse import urlencode

import json

from images360.items import ImageItem

class ImagesSpider(Spider):

    name = 'images'

    allowed_domains = ['images.so.com']

    start_urls = ['http://images.so.com/']

    def start_requests(self):

        data = {'ch': 'photography', 'listtype': 'new'}

        base_url = 'https://image.so.com/zj?'  #网站后台地址

        for page in range(, self.settings.get('MAX_PAGE') + ):

            data['sn'] = page *

            params = urlencode(data)

            url = base_url + params

            yield Request(url, self.parse)

    def parse(self, response):

        result = json.loads(response.text)

        for image in result.get('list'):

            item = ImageItem()

            item['id'] = image.get('imageid')

            item['url'] = image.get('qhimg_url')

            item['title'] = image.get('group_title')

            item['thumb'] = image.get('qhimg_thumb_url')

            yield item

4. . pipelines.py

# -*- coding: utf- -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

import pymongo

import pymysql

from scrapy import Request

from scrapy.exceptions import DropItem

from scrapy.pipelines.images import ImagesPipeline

class MongoPipeline(object):

    def __init__(self, mongo_uri, mongo_db):

        self.mongo_uri = mongo_uri

        self.mongo_db = mongo_db

    @classmethod

    def from_crawler(cls, crawler):

        return cls(

            mongo_uri=crawler.settings.get('MONGO_URI'),

            mongo_db=crawler.settings.get('MONGO_DB')

        )

    def open_spider(self, spider):

        self.client = pymongo.MongoClient(self.mongo_uri)

        self.db = self.client[self.mongo_db]

    def process_item(self, item, spider):

        name = item.collection

        self.db[name].insert(dict(item))

        return item

    def close_spider(self, spider):

        self.client.close()

class MysqlPipeline():

    def __init__(self, host, database, user, password, port):

        self.host = host

        self.database = database

        self.user = user

        self.password = password

        self.port = port

    @classmethod

    def from_crawler(cls, crawler):

        return cls(

            host=crawler.settings.get('MYSQL_HOST'),

            database=crawler.settings.get('MYSQL_DATABASE'),

            user=crawler.settings.get('MYSQL_USER'),

            password=crawler.settings.get('MYSQL_PASSWORD'),

            port=crawler.settings.get('MYSQL_PORT'),

        )

    def open_spider(self, spider):

        self.db = pymysql.connect(self.host, self.user, self.password, self.database, charset='utf8',

                                  port=self.port)

        self.cursor = self.db.cursor()

    def close_spider(self, spider):

        self.db.close()

    def process_item(self, item, spider):

        print(item['title'])

        data = dict(item)

        keys = ', '.join(data.keys())

        values = ', '.join(['%s'] * len(data))

        sql = 'insert into %s (%s) values (%s)' % (item.table, keys, values)

        self.cursor.execute(sql, tuple(data.values()))

        self.db.commit()

        return item

class ImagePipeline(ImagesPipeline):

    def file_path(self, request, response=None, info=None):

        url = request.url

        file_name = url.split('/')[-]

        return file_name

    def item_completed(self, results, item, info):

        image_paths = [x['path'] for ok, x in results if ok]

        if not image_paths:

            raise DropItem('Image Downloaded Failed')

        return item

    def get_media_requests(self, item, info):

        yield Request(item['url'])

item pipeline 实例：爬取360摄像图片的更多相关文章

scrapy爬虫爬取小姐姐图片（不羞涩）
这个爬虫主要学习scrapy的item Pipeline 是时候搬出这张图了: 当我们要使用item Pipeline的时候,要现在settings里面取消这几行的注释我们可以自定义Item Pip ...
第一个nodejs爬虫：爬取豆瓣电影图片
第一个nodejs爬虫:爬取豆瓣电影图片存入本地: 首先在命令行下 npm install request cheerio express -save; 代码: var http = require( ...
用scrapy爬取搜狗Lofter图片
用scrapy爬取搜狗Lofter图片 # -*- coding: utf-8 -*- import json import scrapy from scrapy.http import Reques ...
用WebCollector爬取站点的图片
用WebCollector爬取整站图片,仅仅须要遍历整站页面.然后将URL为.jpg.gif的页面(文件)保存到本地就可以. 比如我们爬取一个美食站点,获取里面全部的图片: import cn.edu ...
python 爬虫入门----案例爬取上海租房图片
前言对于一个net开发这爬虫真真的以前没有写过.这段时间学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup. ...
Python-王者荣耀自动刷金币+爬取英雄信息+图片
前提:本文主要功能是 1.用python代刷王者荣耀金币 2.爬取英雄信息 3.爬取王者荣耀图片之类的. (全部免费附加源代码) 思路:第一个功能是在基于去年自动刷跳一跳python代码上面弄的,思路 ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
爬虫学习（二）--爬取360应用市场app信息
欢迎加入python学习交流群 667279387 爬虫学习爬虫学习(一)-爬取电影天堂下载链接爬虫学习(二)–爬取360应用市场app信息代码环境:windows10, python 3.5 ...
Scrapy实战篇（六）之爬取360图片数据和图片
本篇文章我们以360图片为例,介绍scrapy框架的使用以及图片数据的下载. 目标网站:http://images.so.com/z?ch=photography 思路:分析目标网站为ajax加载方式 ...

随机推荐

transform.rotation和GetComponent<Rigidbody>().MoveRotation
同时在UPDATE和FIXED UPDATE中调整旋转并未出现闪,而是一直以UPDATE中的为准,可认为MoveRotation调用后在UPDATE中生效 using System.Collect ...
php之trait 个人笔记
自从 php 5.4 起实现了一种代码复用的方式(tarit) 类似 class 但是用tarit 写的类不能被实例化和继承.现在来看看他的用法 <?php trait A{ publi ...
<<高级计算机网络>>（Advaned Computer Networks）徐恪徐明伟陈文龙马东超
目录第1章计算机网络与Internet1 1.1 引言1 1.2 Internet发展历史2 1.2.1 互联网发展的主要阶段4 1.2.2 互联网在中国的发展5 1.2.3 互联网主要创新5 1 ...
【记录】CentOS7安装NODEBB
NodeBB介绍: NodeBB 是一个更好的论坛平台,专门为现代网络打造.它是免费的,易于使用. NodeBB 论坛软件是基于 Node.js开发,支持 Redis 或 MongoDB 的数据库.它 ...
解决root@localhost's password:localhost:permission denied,please try again
背景:在装完Hadoop及jdk之后,在执行start-all.sh的时候出现 root@localhost's password:localhost:permission denied,please ...
jdbc和Java中的日期问题
JDBC中的日期Java.sql.Date 是继承自Java中的Java.util.Date,在实现插入的时候可以将Java.util.Date类型的时间转换成毫秒数,date.getTime(), ...
现在有很多第三方的SDK来做直播，那么我们改选择哪一种？
现在大部分的都会借助第三方的直播技术,这样可以保证直播的质量,趣拍直播就很不错,SDK很好集成,芒果直播也在用.下面来分析一下趣拍直播的一些心得. 如何快速搭建一个完整的手机直播系统在这个直播如火如 ...
我的border能自定义四角之border-radius : 左上角，右上角，左下角，右下角。
1 边框:border: 1px solid #0081df; 2 想要单独加上四个圆角: border-bottom-left-radius: 5px; border-top-left-radius ...
百度地图 Javascript API 笔记
因为最近的一个项目用到,所以自己整理了一下遇到的一些坑自己写了一个类库来二次封装用于调起常用的功能:https://github.com/iRuxu/iBMap 快速文档链接 Javascript ...
有關更新Java 至UPDATE 45 後出現沒法進入ORACLE EBS
近日部份使用者在更新Java 至UPDATE 45 後出現沒法進入ORACLE. 解決方法如下. 在開始 => 程式集 => JAVA => Configure Java中 (Ja ...

item pipeline 实例：爬取360摄像图片

item pipeline 实例：爬取360摄像图片的更多相关文章

随机推荐

热门专题