scrapy学习笔记(三)：使用item与pipeline保存数据

scrapy下使用item才是正经方法。
在item中定义需要保存的内容，然后在pipeline处理item，爬虫流程就成了这样：

抓取 --> 按item规则收集需要数据 -->使用pipeline处理（存储等）

定义item,在items.py中定义抓取内容

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class GetquotesItem(scrapy.Item):

    # define the fields for your item here like:

    # 定义我们需要抓取的内容：

    # 1.名言内容

    # 2.作者

    # 3.标签

    content = scrapy.Field()

    author = scrapy.Field()

    tags = scrapy.Field()

我们将数据库的配置信息保存在setting.py文件中，方便调用

MONGODB_HOST = 'localhost'

MONGODB_PORT = 27017

MONGODB_DBNAME = 'store_quotes2'

MONGODB_TABLE = 'quotes2'

另外，在setting.py文件中一点要将pipeline注释去掉，要不然pipeline不会起作用：

#ITEM_PIPELINES = {

#    'getquotes.pipelines.SomePipeline': 300,

#}

改成

ITEM_PIPELINES = {

    'getquotes.pipelines.GetquotesPipeline': 300,

}

现在在pipeline.py中定义处理item方法：

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

# 将setting导入，以使用定义内容

from scrapy.conf import settings

import pymongo

class GetquotesPipeline(object):

    # 连接数据库

    def __init__(self):

        # 获取数据库连接信息

        host = settings['MONGODB_HOST']

        port = settings['MONGODB_PORT']

        dbname = settings['MONGODB_DBNAME']

        client = pymongo.MongoClient(host=host, port=port)

        # 定义数据库

        db = client[dbname]

        self.table = db[settings['MONGODB_TABLE']]

    # 处理item

    def process_item(self, item, spider):

            # 使用dict转换item，然后插入数据库

            quote_info = dict(item)

            self.table.insert(quote_info)

            return item

相应的，myspider.py中的代码变化一下

import scrapy

import pymongo

# 别忘了导入定义的item

from getquotes.items import GetquotesItem

class myspider(scrapy.Spider):

    # 设置爬虫名称

    name = "get_quotes"

    # 设置起始网址

    start_urls = ['http://quotes.toscrape.com']

    '''

        # 配置client，默认地址localhost，端口27017

        client = pymongo.MongoClient('localhost',27017)

        # 创建一个数据库，名称store_quote

        db_name = client['store_quotes']

        # 创建一个表

        quotes_list = db_name['quotes']

    '''

    def parse(self, response):

        #使用 css 选择要素进行抓取，如果喜欢用BeautifulSoup之类的也可以

        #先定位一整块的quote，在这个网页块下进行作者、名言,标签的抓取

        for quote in response.css('.quote'):

            '''

            # 将页面抓取的数据存入mongodb,使用insert

            yield self.quotes_list.insert({

                'author' : quote.css('small.author::text').extract_first(),

                'tags' : quote.css('div.tags a.tag::text').extract(),

                'content' : quote.css('span.text::text').extract_first()

            })

            '''

            item = GetquotesItem()

            item['author'] = quote.css('small.author::text').extract_first()

            item['content'] = quote.css('span.text::text').extract_first()

            item['tags'] = quote.css('div.tags a.tag::text').extract()

            yield item

        # 使用xpath获取next按钮的href属性值

        next_href = response.xpath('//li[@class="next"]/a/@href').extract_first()

        # 判断next_page的值是否存在

        if next_href is not None:

            # 如果下一页属性值存在，则通过urljoin函数组合下一页的url:

            # www.quotes.toscrape.com/page/2

            next_page = response.urljoin(next_href)

            #回调parse处理下一页的url

            yield scrapy.Request(next_page,callback=self.parse)

scrapy学习笔记(三)：使用item与pipeline保存数据的更多相关文章

scrapy基础知识之将item 通过pipeline保存数据到mysql mongoDB：
pipelines.py class xxPipeline(object): def process_item(self, item, spider): con=pymysql.connect(hos ...
tensorflow学习笔记(三十四)：Saver(保存与加载模型)
Savertensorflow 中的 Saver 对象是用于参数保存和恢复的.如何使用呢? 这里介绍了一些基本的用法. 官网中给出了这么一个例子: v1 = tf.Variable(..., nam ...
Scrapy:学习笔记(2)——Scrapy项目
Scrapy:学习笔记(2)——Scrapy项目 1.创建项目创建一个Scrapy项目,并将其命名为“demo” scrapy startproject demo cd demo 稍等片刻后,Scr ...
iView学习笔记(三)：表格搜索，过滤及隐藏列操作
iView学习笔记(三):表格搜索,过滤及隐藏某列操作 1.后端准备工作环境说明 python版本:3.6.6 Django版本:1.11.8 数据库:MariaDB 5.5.60 新建Django ...
openresty 学习笔记三:连接redis和进行相关操作
openresty 学习笔记三:连接redis和进行相关操作 openresty 因其非阻塞的调用,令服务器拥有高性能高并发,当涉及到数据库操作时,更应该选择有高速读写速度的redis进行数据处理.避 ...
Oracle学习笔记三 SQL命令
SQL简介 SQL 支持下列类别的命令: 1.数据定义语言(DDL) 2.数据操纵语言(DML) 3.事务控制语言(TCL) 4.数据控制语言(DCL)
[Firefly引擎][学习笔记三][已完结]所需模块封装
原地址:http://www.9miao.com/question-15-54671.html 学习笔记一传送门学习笔记二传送门学习笔记三导读: 笔记三主要就是各个模块的封装了,这里贴 ...
JSP学习笔记(三):简单的Tomcat Web服务器
注意:每次对Tomcat配置文件进行修改后,必须重启Tomcat 在E盘的DATA文件夹中创建TomcatDemo文件夹,并将Tomcat安装路径下的webapps/ROOT中的WEB-INF文件夹复 ...
java之jvm学习笔记三(Class文件检验器)
java之jvm学习笔记三(Class文件检验器) 前面的学习我们知道了class文件被类装载器所装载,但是在装载class文件之前或之后,class文件实际上还需要被校验,这就是今天的学习主题,cl ...

随机推荐

【mysql】排序方法
查询各科成绩前三名的记录,不考虑并列的情况: select a.course_id as 课程ID, a.score as 成绩, count(a.course_id) as 排名 from scor ...
3931: [CQOI2015]网络吞吐量
3931: [CQOI2015]网络吞吐量链接分析: 跑一遍dijkstra,加入可以存在于最短路中的点,拆点最大流. 代码: #include<cstdio> #include< ...
JAVAWEB dbutils执行sql命令并遍历结果集时不能查到内容的原因
遍历结果集时只遍历bean对象才会只输出第一行那种内容(第一行是输出了UserEntity类实例化的对象),所以这里需要 re.getRepoTableName() 才能通过对象调用相对应的内容这样 ...
STM8S——watchdog(IWDG)
IWDG工作原理: 1.当键值寄存器(IWDG_KR)中写入数值0xCC后,独立看门狗就会被启动,计数器开始从它的复位值0xFF开始递减计数,当计数减到0x00时就会产生一个复位信号. 2.使用IWD ...
systemctl start nginx timeout
昨儿个研究docker ,搭建私有仓库.想着用nginx代理一下仓库地址.方式使用80端口,于是愉快的下载,编辑,安装nginx.创建nginx.service作为系统启动服务. 结果......,多 ...
Web开发框架趋势
Node.js增长很快,已经冒尖了 ASP.NET MVC 发展平稳(平稳很重要) Spring MVC沾着Spring的光,渐渐超越了Struts 2 Struts作为一个整体(Struts 1 和 ...
Unity 几何着色器
Unity 几何着色器 shaderGeometry Shader几何着色器 Unity 几何着色器如果学习不能带来价值,那将毫无意义简介在顶点和片段着色器之间有一个可选的着色器,叫做几 ...
表格 - bootStrap4常用CSS笔记
[表格标签] <table> 定义一个表格 <thead> 表格表头 <tbody> 表格主体内容 <tr> 行 <th> 表头列 &l ...
python函数式编程，性能，测试，编码规范
这篇文章主要是对我收集的一些文章的摘要.因为已经有很多比我有才华的人写出了大量关于如何成为优秀Python程序员的好文章. 我的总结主要集中在四个基本题目上:函数式编程,性能,测试,编码规范.如果一个 ...
java基础---JDK、JRE、JVM的区别和联系
当我们学习java语言时,首先需要安装到我们电脑上的就是jdk.jdk是java语言的开发环境,只有安装了jdk,我们才能使用java语言开发程序. JDK=JRE+开发工具包 JRE=JVM+核心类 ...

scrapy学习笔记(三)：使用item与pipeline保存数据

抓取 --> 按item规则收集需要数据 -->使用pipeline处理（存储等）

scrapy学习笔记(三)：使用item与pipeline保存数据的更多相关文章

随机推荐

热门专题