scrapy中XMLFeedSpider

爬取案例：

目标网站：

url = 'http://www.chinanews.com/rss/scroll-news.xml'

页面特点：

先创建爬虫项目：

也可以查看爬虫类：

创建xmlFeed 爬虫可以用：

scrapy genspider -t xmlfeed cnew  chinanews.com

2. 或可以先创建普通爬虫，再将普通的scrapy爬虫类改为XMLFeedSpider 爬虫类

该爬虫代码：

# -*- coding: utf-8 -*-

import scrapy

from scrapy.spiders import XMLFeedSpider

from ..items import FeedItem

class NewsSpider(XMLFeedSpider):

    name = 'news'

    #allowed_domains = ['www.chinanews.com']

    start_urls = ['http://www.chinanews.com/rss/scroll-news.xml']

    #iterator = 'itetnodes'

    #itertag = 'item'

    def parse_node(self, response, node):

        # item = FeedItem()

        item ={}

        item['title'] = node.xpath('title/text()').extract_first()

        item['link'] = node.xpath('link/text()').extract_first()

        item['desc'] =node.xpath('description/text()').extract_first()

        item['pub_date'] = node.xpath('pubDate/text()').extract_first()

        print(item)

        yield item

3. 将settings中的配置

# Obey robots.txt rules

ROBOTSTXT_OBEY = False

4. 启动爬虫

scrapy crawl news --nolog

5.爬取效果

scrapy中XMLFeedSpider的更多相关文章

Scrapy中使用Django的Model访问数据库
Scrapy中使用Django的Model进行数据库访问当已存在Django项目的时候,直接引入Django的Model来使用比较简单 # 使用以下语句添加Django项目的目录到path impo ...
scrapy中的下载器中间件
scrapy中的下载器中间件下载中间件下载器中间件是介于Scrapy的request/response处理的钩子框架. 是用于全局修改Scrapy request和response的一个轻量.底层 ...
Scrapy中使用cookie免于验证登录和模拟登录
Scrapy中使用cookie免于验证登录和模拟登录引言 python爬虫我认为最困难的问题一个是ip代理,另外一个就是模拟登录了,更操蛋的就是模拟登录了之后还有验证码,真的是不让人省心,不过既然有 ...
scrapy 中日志的使用
我在后台调试在后台调试scrapy spider的时候,总是觉得后台命令窗口打印的东西太多了不便于观察日志,因此需要一个日志文件记录信息,这样以后会方便查找问题. 分两种方法吧. 1.简单粗暴. ...
scrapy中response.body 与 response.text区别
scrapy中response.body 与 response.text区别 body http响应正文, byte类型 text 文本形式的http正文,str类型,它是response.body经 ...
scrapy中的request
scrapy中的request 初始化参数 class scrapy.http.Request( url [ , callback, method='GET', headers, body, cook ...
[转]scrapy中的logging
logging模块是Python提供的自己的程序日志记录模块. 在大型软件使用过程中,出现的错误有时候很难进行重现,因此需要通过分析日志来确认错误位置,这也是写程序时要使用日志的最重要的原因. scr ...
论Scrapy中的数据持久化
引入 Scrapy的数据持久化,主要包括存储到数据库.文件以及内置数据存储. 那我们今天就来讲讲如何把Scrapy中的数据存储到数据库和文件当中. 终端指令存储保证爬虫文件的parse方法中有可迭代 ...
selenium在scrapy中的使用、UA池、IP池的构建
selenium在scrapy中的使用流程重写爬虫文件的构造方法__init__,在该方法中使用selenium实例化一个浏览器对象(因为浏览器对象只需要被实例化一次). 重写爬虫文件的closed ...

随机推荐

Intro to Mongoid
Mongoid: object-document-mapper(ODM) Mongoid Configuration: rails g mongoid:config Document: Documen ...
javaScript放在head和body的区别
JavaScript写在哪里? 内部:Html网页的<body></body>中: 内部:Html网页的<head></head>中: 外部:外部js文 ...
js的字符串代码库及讲解
1.字符串操作 1.1去除字符串空格元字符 : \s:空格或者空白等 ^ : 限定开始位置 => 本身不占位置 $ : 限定结束位置 => 本身不占位置 | : 或者 () : 分组代表 ...
17.2-uC/OS-III消息管理（任务消息队列）
1.任务的消息队列 uC/OS-III在任务中内建了一个消息队列.用户可以直接发送消息给任务而不通过外部消息队列. 这个特性不仅简化了代码, 还提供了效率.每个任务都内建一个消息队列. uC/OS-I ...
Centos7.1环境下搭建BugFree
环境准备: 系统配置 IP Centos7.1 1核2G+60GB硬盘 10.10.28.204 1. 安装apache yum install httpd 2. 安装mysql yum inst ...
Apache 2.4.27外网访问403(Forbidden)错误
httpd.conf <Directory /> AllowOverride none #Require all denied 注释这句 Allow from all Require al ...
IdentityServer4授权和认证对接数据库
接着上一篇讲:https://www.cnblogs.com/nsky/p/10352678.html 我们之前都是用in-men的方式把数据添加到内存了,目的是为了测试方便, 现在我们把所有配置都添 ...
学习使用scrapy itemspipeline过程
开始非常不理解from https://www.jianshu.com/p/18ec820fe706 找到了一个比较完整的借鉴,然后编写自己的煎蛋pipeline 首先在items里创建 image_ ...
0001-20180421-自动化第一章-python基础学习笔记
======================学习python==================介绍: python种类: cpython(*),jpython,ironpython,rubypyth ...
org.codehaus.plexus.archiver.jar.Manifest.write(java.io.PrintWriter)
通过start.spring.io下载maven工程导入eclipse后,出现pom文件错误: org.codehaus.plexus.archiver.jar.Manifest.write(java ...

scrapy中XMLFeedSpider

scrapy中XMLFeedSpider的更多相关文章

随机推荐

热门专题