Scrapy Item用法示例（保存item到MySQL数据库，MongoDB数据库，使用官方组件下载图片）

需要学习的地方：

保存item到MySQL数据库，MongoDB数据库，下载图片

1.爬虫文件images.py

# -*- coding: utf-8 -*-

from scrapy import Spider, Request

from urllib.parse import urlencode

import json

from images360.items import ImageItem

class ImagesSpider(Spider):

    name = 'images'

    allowed_domains = ['images.so.com']

    start_urls = ['http://images.so.com/']

    def start_requests(self):

        data = {'ch': 'photography', 'listtype': 'new'}

        base_url = 'https://image.so.com/zj?'

        for page in range(1, self.settings.get('MAX_PAGE') + 1):

            data['sn'] = page * 30

            params = urlencode(data)

            url = base_url + params

            yield Request(url, self.parse)

    def parse(self, response):

        result = json.loads(response.text)

        for image in result.get('list'):

            item = ImageItem()

            item['id'] = image.get('imageid')

            item['url'] = image.get('qhimg_url')

            item['title'] = image.get('group_title')

            item['thumb'] = image.get('qhimg_thumb_url')

            yield item

2.items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# http://doc.scrapy.org/en/latest/topics/items.html

from scrapy import Item, Field

class ImageItem(Item):

    collection = table = 'images'

    id = Field()

    url = Field()

    title = Field()

    thumb = Field()

3.pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

import pymongo

import pymysql

from scrapy import Request

from scrapy.exceptions import DropItem

from scrapy.pipelines.images import ImagesPipeline

class MongoPipeline(object):

    def __init__(self, mongo_uri, mongo_db):

        self.mongo_uri = mongo_uri

        self.mongo_db = mongo_db

    @classmethod

    def from_crawler(cls, crawler):

        return cls(

            mongo_uri=crawler.settings.get('MONGO_URI'),

            mongo_db=crawler.settings.get('MONGO_DB')

        )

    def open_spider(self, spider):

        self.client = pymongo.MongoClient(self.mongo_uri)

        self.db = self.client[self.mongo_db]

    def process_item(self, item, spider):

        name = item.collection

        self.db[name].insert(dict(item))

        return item

    def close_spider(self, spider):

        self.client.close()

class MysqlPipeline():

    def __init__(self, host, database, user, password, port):

        self.host = host

        self.database = database

        self.user = user

        self.password = password

        self.port = port

    @classmethod

    def from_crawler(cls, crawler):

        return cls(

            host=crawler.settings.get('MYSQL_HOST'),

            database=crawler.settings.get('MYSQL_DATABASE'),

            user=crawler.settings.get('MYSQL_USER'),

            password=crawler.settings.get('MYSQL_PASSWORD'),

            port=crawler.settings.get('MYSQL_PORT'),

        )

    def open_spider(self, spider):

        self.db = pymysql.connect(self.host, self.user, self.password, self.database, charset='utf8',

                                  port=self.port)

        self.cursor = self.db.cursor()

    def close_spider(self, spider):

        self.db.close()

    def process_item(self, item, spider):

        print(item['title'])

        data = dict(item)

        keys = ', '.join(data.keys())

        values = ', '.join(['%s'] * len(data))

        sql = 'insert into %s (%s) values (%s)' % (item.table, keys, values)

        self.cursor.execute(sql, tuple(data.values()))

        self.db.commit()

        return item

class ImagePipeline(ImagesPipeline):

    def file_path(self, request, response=None, info=None):

        url = request.url

        file_name = url.split('/')[-1]

        return file_name

    def item_completed(self, results, item, info):

        image_paths = [x['path'] for ok, x in results if ok]

        if not image_paths:

            raise DropItem('Image Downloaded Failed')

        return item

    def get_media_requests(self, item, info):

        yield Request(item['url'])

4.settings.py

配置文件中增加如下内容

ITEM_PIPELINES = {

    'images360.pipelines.ImagePipeline': 300,

    'images360.pipelines.MongoPipeline': 301,

    'images360.pipelines.MysqlPipeline': 302,

}

IMAGES_STORE = './images'

MAX_PAGE = 50

MONGO_URI = 'localhost'

MONGO_DB = 'images360'

MYSQL_HOST = 'localhost'

MYSQL_DATABASE = 'images360'

MYSQL_USER = 'root'

MYSQL_PASSWORD = ''

MYSQL_PORT = 3306

代码下载地址：https://files.cnblogs.com/files/sanduzxcvbnm/Images360-master.7z

Scrapy Item用法示例（保存item到MySQL数据库，MongoDB数据库，使用官方组件下载图片）的更多相关文章

使用官方组件下载图片，保存到MySQL数据库，保存到MongoDB数据库
需要学习的地方,使用官方组件下载图片的用法,保存item到MySQL数据库需要提前创建好MySQL数据库,根据item.py文件中的字段信息创建相应的数据表 1.items.py文件 from sc ...
scrapy爬取数据保存csv、mysql、mongodb、json
目录前言 Items Pipelines 前言用Scrapy进行数据的保存进行一个常用的方法进行解析 Items item 是我们保存数据的容器,其类似于 python 中的字典.使用 item ...
<day001>存储到Mysql、mongoDB数据库+简单的Ajax请求+os模块+进程池+MD5
任务1:记住如何存储到Mysql.mongoDB数据库 ''' 存储到Mysql ''' import pymysql.cursors class QuotePipeline(object): def ...
Python Json分别存入Mysql、MongoDB数据库，使用Xlwings库转成Excel表格
将电影数据 data.json 数据通过xlwings库转换成excel表格,存入mysql,mongodb数据库中.python基础语法.xlwings库.mysql库.pymongo库.mongo ...
scrapy基础知识之将item 通过pipeline保存数据到mysql mongoDB：
pipelines.py class xxPipeline(object): def process_item(self, item, spider): con=pymysql.connect(hos ...
redis数据库到mysql或mongodb数据库
# -*- coding:utf-8 -*-# item_mongodb.py import redis import pymongo import json def main(): redis_co ...
Scrapy爬去哪儿~上海一日游门票并存入MongoDB数据库
aaarticlea/png;base64,iVBORw0KGgoAAAANSUhEUgAAAZwAAAGGCAYAAABPDDfEAAAgAElEQVR4nOy9C3Rb1Z3/+z1Hkm35mT
Python学习笔记（五）之Python操作Redis、mysql、mongodb数据库
操作数据库一.数据库数据库类型主要有关系型数据库和菲关系型数据库. 数据库:用来存储和管理数的仓库,数据库是通过依据“数据结构”将数据格式化,以记录->表->库的关系存储.因此数据查询 ...
Redis/Mysql/SQLite/MongoDB 数据库对比
一.Redis: redis是一个key-value存储系统.和Memcached类似,它支持存储的value类型相对更多,包括string(字符串).list(链表).set(集合).zset(so ...

随机推荐

LeetCode 705. Design HashSet (设计哈希集合)
题目标签:HashMap 题目让我们设计一个 hashset,有add,contains,remove 功能. 建立一个boolean array,index 是数字的值,具体看code. Java ...
WebView与JavaScript交互--Android
转载请注明出处: http://blog.csdn.net/forwardyzk/article/details/46819925 在工作中,有一个这种需求,须要用到WebView与javascri ...
UVA 1640（DFS）
题意:给你a,b两个数问你a b区间中0 9出现的次数其实就是求1-n中0-9出现的次数 ans[n] 答案就是ans[b]-ans[a-1] 怎么求的话看代码吧 #include<io ...
bzoj2648
http://www.lydsy.com/JudgeOnline/problem.php?id=2648 kdtree裸题... 抄板子一边抄对了... 挺好理解的,就是说我们先找出中间的元素,然后小 ...
Ansi2Utf8 小工具
将GB2312编码的文件转成Unity使用的UTF8无bom格式主要用批处理执行 Ansi2Utf8.exe XXXXX.txt 源代码 using System; using System.Co ...
CF 351A - Jeff and Rounding DP
http://codeforces.com/problemset/problem/351/C 题意:有2*n个浮点数a1,a2,a3...a2*n,把他们分成n队,对于每对<A,B>,对A ...
ACM_最值差（线段树区间查询最值）
最值差 Time Limit: 2000/1000ms (Java/Others) Problem Description: 给定N个数A1A2A3A4...AN.求任意区间Ai到Aj中的最大数与最小 ...
[转]android 获取 imei号码
核心代码: Imei = ((TelephonyManager) getSystemService(TELEPHONY_SERVICE)) .getDeviceId(); 1.加入权限在manife ...
<assert.h>
Diagnostics 定义宏: void assert (scalar-expression); 若expression为0,则打印出错信息(类似Assertion failed: expressi ...
服务器端 CentOS 下配置 JDK 和 Tonmcat 踩坑合集
一.配置 JDK 时,在 /etc/profile 文件下配置环境变量,添加 #java environment export JAVA_HOME=/usr/java/jdk- export CL ...

Scrapy Item用法示例（保存item到MySQL数据库，MongoDB数据库，使用官方组件下载图片）

Scrapy Item用法示例（保存item到MySQL数据库，MongoDB数据库，使用官方组件下载图片）的更多相关文章

随机推荐

热门专题