scrapy中对于item的把控

其实很简单，就是想要存储的位置发生改变。直接看例子，然后触类旁通。

以大众点评评论的内容为例，位置:http://www.dianping.com/shop/77489519/review_more?pageno=1

数据存储形式由A 变成B

展开的话这样子:

本质上看，就是多个相同类型的item可以合并，不需要那么多，分别来看下各自的代码:

class GengduopinglunSpider(scrapy.Spider):

    name = 'gengduopinglun'

    start_urls = ['http://www.dianping.com/shop/77489519/review_more?pageno=1']

    def parse(self, response):

        item=PinglunItem()

        comment = item['comment'] if "comment" in item else []

        for i in response.xpath('//div[@class="content"]'):

            for j in i.xpath('.//div[@class="J_brief-cont"]/text()').extract():

                comment.append(j.strip())

        item['comment']=comment

        next_page = response.xpath(

            '//div[@class="Pages"]/div[@class="Pages"]/a[@class="NextPage"]/@href').extract_first()

        item['_id']=next_page

        # item['_id']='onlyone'

        if next_page != None:

            next_page = response.urljoin(next_page)

            # yield Request(next_page, callback=self.shop_comment,meta={'item': item})

            yield Request(next_page, callback=self.parse,)

        yield item

class GengduopinglunSpider(scrapy.Spider):

    name = 'gengduopinglun'

    start_urls = ['http://www.dianping.com/shop/77489519/review_more?pageno=1']

    def parse(self, response):

        item=PinglunItem()

        comment = item['comment'] if "comment" in item else []

        for i in response.xpath('//div[@class="content"]'):

            for j in i.xpath('.//div[@class="J_brief-cont"]/text()').extract():

                comment.append(j.strip())

        item['comment']=comment

        next_page = response.xpath(

            '//div[@class="Pages"]/div[@class="Pages"]/a[@class="NextPage"]/@href').extract_first()

        # item['_id']=next_page

        item['_id']='onlyone'

        if next_page != None:

            next_page = response.urljoin(next_page)

            yield Request(next_page, callback=self.shop_comment,meta={'item': item})

            # yield Request(next_page, callback=self.parse,)

        # yield item

    def shop_comment(self, response):

        item = response.meta['item']

        comment = item['comment'] if "comment" in item else []

        for i in response.xpath('//div[@class="content"]'):

            for j in i.xpath('.//div[@class="J_brief-cont"]/text()').extract():

                comment.append(j.strip())

        item['comment']=comment

        next_page = response.xpath(

            '//div[@class="Pages"]/div[@class="Pages"]/a[@class="NextPage"]/@href').extract_first()

        if next_page != None:

            next_page = response.urljoin(next_page)

            yield Request(next_page, callback=self.shop_comment,meta={'item': item})

        yield item

B里面是有重复代码的，这个无关紧要，只是演示，注意看两个yield 的区别

以上只是演示scrapy中yield的用法，用来控制item，其余pipline，setting未展示.

scrapy中对于item的把控的更多相关文章

Scrapy中的item是什么
这两天看Scrapy,看到item这个东西,觉得有点抽象,查了一下,有点明白了. Item 是保存爬取到的数据的容器:其使用方法和python字典类似, 并且提供了额外保护机制来避免拼写错误导致的未定 ...
关于ListView中item与子控件抢夺焦点的解决方法
1.在开发中,listview可以说是我们使用最频繁的控件之一了,但是关于listview的各种问题也是很多.当我们使用自定义布局的Listview的时候,如果在item的布局文件里面存在Button ...
手把手教你进行Scrapy中item类的实例化操作
接下来我们将在爬虫主体文件中对Item的值进行填充. 1.首先在爬虫主体文件中将Item模块导入进来,如下图所示. 2.第一步的意思是说将items.py中的ArticleItem类导入到爬虫主体文件 ...
第十七节：Scrapy爬虫框架之item.py文件以及spider中使用item
Scrapy原理图: item位于原理图的最左边 item.py文件是报存爬取数据的容器,他使用的方法和字典很相似,但是相比字典item多了额外的保护机制,可以避免拼写错误或者定义错误. 1.创建it ...
Scrapy中使用cookie免于验证登录和模拟登录
Scrapy中使用cookie免于验证登录和模拟登录引言 python爬虫我认为最困难的问题一个是ip代理,另外一个就是模拟登录了,更操蛋的就是模拟登录了之后还有验证码,真的是不让人省心,不过既然有 ...
scrapy中的request
scrapy中的request 初始化参数 class scrapy.http.Request( url [ , callback, method='GET', headers, body, cook ...
[转]scrapy中的request.meta
作者:知乎用户链接:https://www.zhihu.com/question/54773510/answer/146971644 meta属性是字典,字典格式即{'key':'value'},字典 ...
论Scrapy中的数据持久化
引入 Scrapy的数据持久化,主要包括存储到数据库.文件以及内置数据存储. 那我们今天就来讲讲如何把Scrapy中的数据存储到数据库和文件当中. 终端指令存储保证爬虫文件的parse方法中有可迭代 ...
使用scrapy中xpath选择器的一个坑点
情景如下: 一个网页下有一个ul,这个ur下有125个li标签,每个li标签下有我们想要的 url 字段(每个 url 是唯一的)和 price 字段,我们现在要访问每个li下的url并在生成的请求中 ...

随机推荐

OpenStack 认证服务 KeyStone连接和用户管理（四）
连接keystone两种方式: 一种使用命令一种使用环境变量 1.通过环境变量方式连接keystone(适合在初始化场景使用) 配置认证令牌环境变量 export OS_TOKEN=07081849 ...
T48566 【zzy】yyy点餐
T48566 [zzy]yyy点餐题目描述 yyy去麦肯士吃垃圾食品. 麦肯士有n种单点餐品(汉堡薯条鸡翅之类的).每次选择一种或者以上的餐点,且每种餐点不多于一个的话,可以认为是购买套餐.购买一个 ...
Java基础-IO流对象之随机访问文件（RandomAccessFile）
Java基础-IO流对象之随机访问文件(RandomAccessFile) 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.RandomAccessFile简介此类的实例支持对 ...
c# 的一些基本操作或属性
http下载文件,不保存到服务器,直接使用浏览器下载 /// <summary> /// 根据url下载文件 /// </summary> /// <param name ...
stl第二级空间配置器详解(1)
SGI STL考虑到小型内存区块的碎片问题,设计了双层级配置器,第一级配置直接使用malloc()和free():第二级配置器则视情况采用不同的策略,当配置区大于128bytes时,直接调用第一级配置 ...
<转>Android APP字体大小，不随系统的字体大小变化而变化的方法
从android4.0起系统设置的”显示“提供设置字体大小的选项.这个设置直接会影响到所有sp为单位的字体适配,所以很多app在设置了系统字体后瞬间变得面目全非.下面是解决方案 Resources r ...
Druid.io通过NiFi摄取流数据
NiFi是一个易于使用,功能强大且可靠的系统来处理和分发数据. 本文讲述如何用NiFi将Http的Json数据传到Druid.国外的一篇文章讲到如何用NiFi将推文传到Druid,https://co ...
搭建zookeeper单机版以及简单命令的使用
1:创建目录 #数据目录dataDir=/opt/hadoop/zookeeper-3.3.5-cdh3u5/data#日志目录dataLogDir=/opt/hadoop/zookeeper-3.3 ...
WeX5入门之欢乐捕鱼打包
一.下载欢乐捕鱼的素材包 https://files.cnblogs.com/files/wordblog/%E7%B4%A0%E6%9D%90.zip 二.把欢乐捕鱼素材放入项目中并启动tomca ...
Maven仓库国内镜像站
感谢阿里巴巴,搭建并公开了Maven仓库的国内镜像站.话外:使用Maven的官方仓库真的是太slow了! 在<Maven Root>/conf/settings.xml中的<mirr ...

scrapy中对于item的把控

scrapy中对于item的把控的更多相关文章

随机推荐

热门专题