Scrapy连接到各类数据库(SQLite,Mysql,Mongodb,Redis)

如何使用scrapy连接到(SQLite,Mysql,Mongodb,Redis)数据库，并把爬取的数据存储到相应的数据库中。

一、SQLite

1.修改pipelines.py文件加入如下代码

# 爬取到的数据写入到SQLite数据库

import sqlite3

class SQLitePipeline(object):

    #打开数据库

    def open_spider(self, spider):

        db_name = spider.settings.get('SQLITE_DB_NAME', 'scrapy.db')

        self.db_conn = sqlite3.connect(db_name)

        self.db_cur = self.db_conn.cursor()

    #关闭数据库

    def close_spider(self, spider):

        self.db_conn.commit()

        self.db_conn.close()

    #对数据进行处理

    def process_item(self, item, spider):

        self.insert_db(item)

        return item

    #插入数据

    def insert_db(self, item):

        values = (

            item['upc'],

            item['name'],

            item['price'],

            item['review_rating'],

            item['review_num'],

            item['stock'],

        )

        sql = 'INSERT INTO books VALUES(?,?,?,?,?,?)'

        self.db_cur.execute(sql, values)

2.修改settings.py文件，加入如下代码

# sqlite 配置

SQLITE_DB_NAME = 'scrapy.db'

在settings启动管道文件

ITEM_PIPELINES = {

   'toscrape_book.pipelines.SQLitePipeline': 400,

}

二、mysql

1.修改pipelines.py文件加入如下代码

# 爬取到的数据写入到MySQL数据库

import pymysql

class MySQLPipeline(object):

    # 打开数据库

    def open_spider(self, spider):

        db = spider.settings.get('MYSQL_DB_NAME','scrapy_db')

        host = spider.settings.get('MYSQL_HOST', 'localhost')

        port = spider.settings.get('MYSQL_PORT', 3306)

        user = spider.settings.get('MYSQL_USER', 'root')

        passwd = spider.settings.get('MYSQL_PASSWORD', '123456')

        self.db_conn =pymysql.connect(host=host, port=port, db=db, user=user, passwd=passwd, charset='utf8')

        self.db_cur = self.db_conn.cursor()

    # 关闭数据库

    def close_spider(self, spider):

        self.db_conn.commit()

        self.db_conn.close()

    # 对数据进行处理

    def process_item(self, item, spider):

        self.insert_db(item)

        return item

    #插入数据

    def insert_db(self, item):

        values = (

            item['upc'],

            item['name'],

            item['price'],

            item['review_rating'],

            item['review_num'],

            item['stock'],

        )

        sql = 'INSERT INTO books VALUES(%s,%s,%s,%s,%s,%s)'

        self.db_cur.execute(sql, values)

2.修改settings.py文件，加入如下代码

# mysql 配置

MYSQL_DB_NAME = 'scrapy_db'

MYSQL_HOST = '127.0.0.1'

MYSQL_USER = 'root'

MYSQL_PASSWORD = '123456'

在settings启动管道文件

ITEM_PIPELINES = {

   'toscrape_book.pipelines.MySQLPipeline': 401,

}

三、mongodb

1.修改pipelines.py文件加入如下代码

# 爬取到的数据写入到Mongodb数据库

from pymongo import MongoClient

from scrapy import Item

class MongoDBPipeline(object):

    # 打开数据库

    def open_spider(self, spider):

        db_uri = spider.settings.get('MONGODB_URI', 'mongodb://localhost:27017')

        db_name = spider.settings.get('MONOGDB_DB_NAME', 'scrapy_db')

        self.db_client = MongoClient(db_uri)

        self.db = self.db_client[db_name]

    # 关闭数据库

    def close_spider(self, spider):

        self.db_client.close()

    # 对数据进行处理

    def process_item(self, item, spider):

        self.insert_db(item)

        return item

    # 插入数据

    def insert_db(self, item):

        if isinstance(item, Item):

            item = dict(item)

        self.db.books.insert(item)

2.修改settings.py文件，加入如下代码

# mongodb 配置

MONGODB_URI = 'mongodb://127.0.0.1:27017'

MONGODB_DB_NAME = 'scrapy_db'

在settings启动管道文件

ITEM_PIPELINES = {

   'toscrape_book.pipelines.MongoDBPipeline': 403,

}

四、redis

1.修改pipelines.py文件加入如下代码

# 爬取到的数据写入到redis数据库

import redis

from scrapy import Item

class RedisPipeline(object):

    # 打开数据库

    def open_spider(self, spider):

        db_host = spider.settings.get('REDIS_HOST', 'localhost')

        db_port = spider.settings.get('REDIS_PORT', 6379)

        db_index = spider.settings.get('REDIS_DB_INDEX', 0)

        self.db_conn = redis.StrictRedis(host=db_host, port=db_port, db=db_index)

        self.item_i = 0

    # 关闭数据库

    def close_spider(self, spider):

        self.db_conn.connection_pool.disconnect()

    # 处理数据

    def process_item(self, item, spider):

        self.insert_db(item)

        return item

    # 插入数据

    def insert_db(self, item):

        if isinstance(item, Item):

            item = dict(item)

        self.item_i += 1

        self.db_conn.hmset('book:{}'.format(self.item_i), item)

2.修改settings.py文件，加入如下代码

# redis 配置

REDIS_HOST = '127.0.0.1'

REDIS_PORT = 6379

REDIS_DB_INDEX = 0

在settings启动管道文件

ITEM_PIPELINES = {

   'toscrape_book.pipelines.RedisPipeline': 404,

}

scrapy 连接各数据的设置并不复杂，首先在pipelines文件中建立管道，建立个数据的连接，然后处理数据，关闭连接。接下来我们在settings文件中定义各类数据库的基本配置，然后在item_pipelines中启动相应的管道

Scrapy连接到各类数据库(SQLite,Mysql,Mongodb,Redis)的更多相关文章

数据库们~MySQL~MongoDB~Redis
mysql基础 mysql进阶 python操作mysql MongoDB Redis
Python交互数据库（Mysql | Mongodb | Redis）
数据库 Mysql Mysql MySQL是一个关系型数据库管理系统,由瑞典MySQL AB公司开发,后来被Sun公司收购,Sun公司后来又被Oracle公司收购,目前属于Oracle旗下产品 MyS ...
通过ssh管道连接内网数据库（mysql）
公网连接内网数据库(如云数据库)时,通常需要白名单:如果不是白名单IP,通常需要一个跳板机(类似代理)来连接内网数据库, 下方以mysql为例(其他数据库基本一致): import pymysql a ...
云服务器配置 docker java mysql mongodb redis nginx 环境
磁盘挂载 fdisk -l #查看磁盘列表 mkfs.ext4 /dev/vdb #格式化磁盘 mount /dev/vdb /data #挂载磁盘在/data echo '/dev/vdb /dat ...
python 连接操作各类数据库
转载自MySQL Loners 一,python 操作 MySQL:详情见:这里 #!/bin/env python # -*- encoding: utf-8 -*- #-------------- ...
Python学习笔记使用数据库SQlite Mysql
SQLite是一种嵌入式数据库,它的数据库就是一个文件.由于SQLite本身是C写的,而且体积很小,所以,经常被集成到各种应用当中, 甚至在IOS和Android的APP中都可以集成 Python就内 ...
Java使用JDBC连接随意类型数据库（mysql oracle。。）
package cn.liz.test; import java.io.InputStream; import java.sql.Connection; import java.sql.Driver; ...
linux中mysql,mongodb,redis,hbase数据库操作
.实验内容与完成情况:(实验具体步骤和实验截图说明) (一) MySQL 数据库操作学生表 Student Name English Math Computer zhangsan lisi 根据上面 ...
Springboot整合Mybatis，连接多个数据库（Mysql+Oracle）
maven依赖,需要注意的是mysql使用的版本 1 <dependencies> 2 <dependency> 3 <groupId>com.oracle.dat ...

随机推荐

联系我们地图坐标展示js
<script type="text/javascript" src="http://api.map.baidu.com/api?v=2.0&ak=6d88 ...
Centos7.4 Storm2.0.0 + Zookeeper3.5.5 高可用集群搭建
想了下还是把kafka集群和storm集群分开比较好集群规划: Nimbus Supervisor storm01 √ √ storm02 √(备份) √ storm03 √ 准备工作老样子复制三 ...
Hive 数据类型 + Hive sql
Hive 数据类型 + Hive sql 基本类型整型 int tinyint (byte) smallint(short) bigint(long) 浮点型 float double 布尔 boo ...
opencv.js双边滤波磨皮处理
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <meta http ...
逆向-PE重定位表
重定位表当链接器生成一个PE文件时,会假设这个文件在执行时被装载到默认的基地址处(基地址+RVA就是VA).并把code和data的相关地址写入PE文件.如果像EXE一样首先加载就是它image ...
Python MySQL 创建表
章节 Python MySQL 入门 Python MySQL 创建数据库 Python MySQL 创建表 Python MySQL 插入表 Python MySQL Select Python M ...
个人vim简单配置
精简.vimrc配置,简约不简单该配置没有花里胡哨的插件,只是用ctags和cscope然后配合vim提供的基础功能就可以完成常见的代码编辑,浏览,查找等工作. "************ ...
Codeforces Round #616 (Div. 2)
地址:http://codeforces.com/contest/1291 A题就不写解析了,就是给一个数,是不是本身满足这个条件或者删除某些数字来达到这个条件:奇数,各个位上的数字加起来是偶数. # ...
js 琐碎
1.setTimeout() .setInterval() setTimeout() 方法用于在指定的毫秒数后调用函数或计算表达式.(即n毫秒后执行一次) setTimeout(code,n) set ...
css常用技巧1
css绘制三角形 <style> .triangle-box{ margin: 50px auto; height: 300px; width: 500px; box-shadow: 1p ...

Scrapy连接到各类数据库(SQLite,Mysql,Mongodb,Redis)

Scrapy连接到各类数据库(SQLite,Mysql,Mongodb,Redis)的更多相关文章

随机推荐

热门专题