方式一

使用 item Pipeline 有三个步骤

文件 pipelines.py 中，编写 Sqlite3Pipeline 类
文件 settings.py 中，添加 ITEM_PIPELINES
开始运行爬虫: scrapy crawl example

1. 文件 pipelines.py

说明：

参考了官网文档的 MongoDB 的例子

要求：

表格 SQLITE_TABLE 要在爬虫运行之前先创建好。否则会报错，原因不详。

代码：

import sqlite3

class Sqlite3Pipeline(object):

    def __init__(self, sqlite_file, sqlite_table):

        self.sqlite_file = sqlite_file

        self.sqlite_table = sqlite_table

    @classmethod

    def from_crawler(cls, crawler):

        return cls(

            sqlite_file = crawler.settings.get('SQLITE_FILE'), # 从 settings.py 提取

            sqlite_table = crawler.settings.get('SQLITE_TABLE', 'items')

        )

    def open_spider(self, spider):

        self.conn = sqlite3.connect(self.sqlite_file)

        self.cur = self.conn.cursor()

    def close_spider(self, spider):

        self.conn.close()

    def process_item(self, item, spider):

        insert_sql = "insert into {0}({1}) values ({2})".format(self.sqlite_table,

                                                                ', '.join(item.fields.keys()),

                                                                ', '.join(['?'] * len(item.fields.keys())))

        self.cur.execute(insert_sql, item.fields.values())

        self.conn.commit()

        return item

补充：

Github 有一个使用 twisted 操作 sqlite3 的例子，见这里。请自行对比。

2. 文件 settings.py

激活前面的 Sqlite3Pipeline 类，需要

添加：

SQLITE_FILE = 'example.db'

SQLITE_TABLE = 'dmoz'

ITEM_PIPELINES = {

    'myproject.pipelines.Sqlite3Pipeline': 300,

}

3. 运行爬虫

$ scrapy crawl example

运行效果图：

方式二

使用 Feed Exporter 有三个步骤

文件 exporters.py 中，编写 Sqlite3ItemExporter 类
文件 settings.py 中，添加 FEED_EXPORTERS
开始运行爬虫: scrapy crawl example -o example.db -t sqlite3

1. 文件 exporters.py

说明：

参考了Github的例子，基本没变

代码：

from scrapy.exporters import BaseItemExporter

import sqlite3

class Sqlite3ItemExporter(BaseItemExporter):

    def __init__(self, file, **kwargs):

        self._configure(kwargs)

        self.conn = sqlite3.connect(file.name)

        self.conn.text_factory = str

    	self.created_tables = []

    def export_item(self, item):

    	item_class_name = type(item).__name__

    	if item_class_name not in self.created_tables:

    		keys = None

    		if hasattr(item.__class__, 'keys'):

    			sqlite_keys = item.__class__.sqlite_keys

    		self._create_table(item_class_name, item.fields.iterkeys(), sqlite_keys)

    		self.created_tables.append(item_class_name)

    	field_list = []

    	value_list = []

    	for field_name in item.iterkeys():

    		field_list.append('[%s]' % field_name)

    		field = item.fields[field_name]

    		value_list.append(self.serialize_field(field, field_name, item[field_name]))

    	sql = 'insert or ignore into [%s] (%s) values (%s)' % (item_class_name, ', '.join(field_list), ', '.join(['?' for f in field_list]))

    	self.conn.execute(sql, value_list)

    	self.conn.commit()

    def _create_table(self, table_name, columns, keys = None):

		sql = 'create table if not exists [%s] ' % table_name

		column_define = ['[%s] text' % column for column in columns]

		print('type: %s' % type(keys))

		if keys:

			if len(keys) > 0:

				primary_key = 'primary key (%s)' % ', '.join(keys[0])

				column_define.append(primary_key)

			for key in keys[1:]:

				column_define.append('unique (%s)' % ', '.join(key))

		sql += '(%s)' % ', '.join(column_define)

		print('sql: %s' % sql)

		self.conn.execute(sql)

		self.conn.commit()

    def __del__(self):

        self.conn.close()

2. 文件 settings.py

激活前面的 Sqlite3ItemExporter 类，需要

添加：



FEED_EXPORTERS = {

    'sqlite3': 'myproject.exporters.Sqlite3ItemExporter',

}

3. 运行爬虫

$ scrapy crawl example -o example.db -t sqlite3

说明：

第二种方式未测试！

scrapy 保存到 sqlite3的更多相关文章

Python scrapy爬虫数据保存到MySQL数据库
除将爬取到的信息写入文件中之外,程序也可通过修改 Pipeline 文件将数据保存到数据库中.为了使用数据库来保存爬取到的信息,在 MySQL 的 python 数据库中执行如下 SQL 语句来创建 ...
python scrapy实战糗事百科保存到json文件里
编写qsbk_spider.py爬虫文件 # -*- coding: utf-8 -*- import scrapy from qsbk.items import QsbkItem from scra ...
1.scrapy爬取的数据保存到es中
先建立es的mapping,也就是建立在es中建立一个空的Index,代码如下:执行后就会在es建lagou 这个index. from datetime import datetime fr ...
Scrapy——將數據保存到MySQL數據庫
Scrapy--將數據保存到MySQL數據庫 1. 在MySQL中創建數據庫表job_inf: 1 Create table job_inf( 2 id int(11) not null auto_i ...
使用scrapy爬取的数据保存到CSV文件中，不使用命令
pipelines.py文件中 import codecs import csv # 保存到CSV文件中 class CsvPipeline(object): def __init__(self): ...
爬取伯乐在线文章（四）将爬取结果保存到MySQL
Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item. 每个Item Pipeline ...
将爬取的数据保存到mysql中
为了把数据保存到mysql费了很多周折,早上再来折腾,终于折腾好了安装数据库 1.pip install pymysql(根据版本来装) 2.创建数据打开终端键入mysql -u root -p ...
使用官方组件下载图片，保存到MySQL数据库，保存到MongoDB数据库
需要学习的地方,使用官方组件下载图片的用法,保存item到MySQL数据库需要提前创建好MySQL数据库,根据item.py文件中的字段信息创建相应的数据表 1.items.py文件 from sc ...
jQuery切换网页皮肤保存到Cookie实例
效果体验:http://keleyi.com/keleyi/phtml/jqtexiao/25.htm 以下是源代码: <!DOCTYPE html PUBLIC "-//W3C//D ...

随机推荐

AngularJS 简介
AngularJS 是一个 JavaScript 框架. 它可通过 <script> 标签添加到 HTML 页面. <script src="http://apps.bdi ...
4、界面前端设计师要阅读的书籍 - IT软件人员书籍系列文章
前端工程师原来的职位是美工,原来只负责项目的一些简单网页制作,因为项目的需要,升级为前端工程师,这就涉及到JS等代码的编写了.前端工程师这个职位在目前来说算是新兴职位,在未来的几年里也是挺吃香的一个职 ...
Asp.net MVC验证哪些事（3）-- Remote验证及其改进(附源码)
表单中的输入项,有些是固定的,不变的验证规则,比如字符长度,必填等.但有些是动态的,比如注册用户名是否存在这样的检查,这个需要访问服务器后台才能解决.这篇文章将会介绍MVC中如何使用[RemoteAt ...
用java的jdk 生成android 的jni接口文档
1 检查系统是否安装了jdk,并将javac的路径配置到PATH中 cmd窗口,输入 java -version 查看输出项 2 创建需要so的接口类package com.ndk.test; p ...
mysql数据校验之字符集问题
场景:主库DB:utf8字符集备库DB:gbk字符集需求:校验主备数据是否一致,并且修复校验过程:设置主库连接为utf8,设置备库连接为gbk,分别进行查询,将返回的的结果集按记录逐字段比较. 显 ...
表单和iframe的使用
图片热点: 规划出图片上的一个区域,可以做出超链接,直接点击图片区域就可以完成跳转的效果.示例: 网页划区: 在一个网页里,规划出一个区域用来展示另一个网页的内容.示例: 网页的拼接: 在一个网络页面 ...
RTP、RTCP协议学习-2015.04.15
最近做视频编解码部分,传输采用RTP协议.对学习做个记录 1.简介实时传输协议(Real-time Transport Protocol或简写RTP)是一个网络传输协议,它是由IETF的多媒体传输工 ...
SQL Server调优系列基础篇（并行运算总结篇二）
前言上一篇文章我们介绍了查看查询计划的并行运行方式. 本篇我们接着分析SQL Server的并行运算. 闲言少叙,直接进入本篇的正题. 技术准备同前几篇一样,基于SQL Server2008R2版 ...
jqGrid 最常用的属性和事件，供平时参考（转）
[html] <html> ... <table id="list1"></table> <div id="pager1&quo ...
烂泥：ubuntu下配置msmtp+mutt发送邮件
本文由ilanniweb提供友情赞助,首发于烂泥行天下想要获得更多的文章,可以关注我的微信ilanniweb. 本文主要介绍如何在Linux下使用msmtp+mutt发送邮件,当然Linux下发送邮 ...

scrapy 保存到 sqlite3

方式一

1. 文件 pipelines.py

2. 文件 settings.py

3. 运行爬虫

方式二

1. 文件 exporters.py

2. 文件 settings.py

3. 运行爬虫

scrapy 保存到 sqlite3的更多相关文章

随机推荐

热门专题