【Spider】学习使用XMLFeedSpider

前面写了学习CrawlSpider遇到的问题后，今天学XMLFeedSpider又出现了启动后没爬取到数据，但又不报错的情况

经过排查，发现又是一个粗心大意的错误：

class SpiderUserXMLFeedSpider(XMLFeedSpider):

   name = 'xmlspider'
   allowed_domains=['cnblogs.com']#这里敲少了一个s
   start_urls=['http://feed.cnblogs.com/blog/u/269038/rss']
   iterator = 'html'
   itertag = 'entry'

另外记录一下，这种结构：

<entry>

<id>http://www.cnblogs.com/qiyeboy/p/9296038.html</id>

<title type="text">基于HTTPS的中间人攻击-BaseProxy - 七夜的故事</title>

前言在上一篇文章 "BaseProxy:异步http/https代理" 中,我介绍了自己的开源项目BaseProxy，这个项目的初衷其实是为了渗透测试，抓包改包。在知识星球中，有很多朋友问我这个项目的原理及实现代码，本篇文章就讲解一下和这个项目相关的HTTPS的中间人攻击。 HTTPS隧道代理

</summary>

<name>七夜的故事</name>

<uri>http://www.cnblogs.com/qiyeboy/</uri>

</author>

【摘要】前言在上一篇文章 "BaseProxy:异步http/https代理" 中,我介绍了自己的开源项目BaseProxy，这个项目的初衷其实是为了渗透测试，抓包改包。在知识星球中，有很多朋友问我这个项目的原理及实现代码，本篇文章就讲解一下和这个项目相关的HTTPS的中间人攻击。 HTTPS隧道代理 <a href="http://www.cnblogs.com/qiyeboy/p/9296038.html" target="_blank">阅读全文</a>

</content>

</entry>

在匹配数据时，因为设置了起始标签是itertag = 'entry'所以xpath匹配只需这样写：

node.xpath('id/text()').extract()[0]

node.xpath('title/text()').extract()[0]

node.xpath('summary/text()').extract()[0]

不需要在id,title ,summary前面加/

还有在我查这个爬不到数据的问题时，还找到一篇不错的文章：https://blog.csdn.net/lw_power/article/details/77919533
这里讲了使用模板来生成spider的代码，用模板的话就不用所有代码都敲一遍，就设置一下items.py,然后去Spider.py里修改一下allowed_domains ，start_urls的链接，
并补充关键代码（其实自动生成的代码注释有提示你应该怎么写代码）

【Spider】学习使用XMLFeedSpider的更多相关文章

七月在线爬虫班学习笔记（五）——scrapy spider的几种爬取方式
第五课主要内容有: Scrapy框架结构,组件及工作方式单页爬取-julyedu.com 拼URL爬取-博客园循环下页方式爬取-toscrape.com Scrapy项目相关命令-QQ新闻 1.S ...
python学习之-用scrapy框架来创建爬虫(spider)
scrapy简单说明 scrapy 为一个框架框架和第三方库的区别: 库可以直接拿来就用, 框架是用来运行,自动帮助开发人员做很多的事,我们只需要填写逻辑就好命令: 创建一个项目 : cd 到需 ...
[Todo] Nodejs学习及Spider实验（包括php入门学习、React入门学习）
/Users/baidu/Documents/Data/Interview/Web-Server开发深入浅出Node.js-f46c http://blog.csdn.net/u012273376/ ...
Scrapy框架学习（三）Spider、Downloader Middleware、Spider Middleware、Item Pipeline的用法
Spider有以下属性: Spider属性 name 爬虫名称,定义Spider名字的字符串,必须是唯一的.常见的命名方法是以爬取网站的域名来命名,比如爬取baidu.com,那就将Spider的名字 ...
Nodejs全站开发学习系列 & 深入浅出Node学习笔记 & Spider抓取
https://course.tianmaying.com/node 这个系列的文章看起来很不错,值得学习一下. /Users/baidu/Documents/Data/Interview/Web-S ...
Scrapy学习-25-Scrapyd部署spider
Scrapyd部署爬虫项目 github项目 https://github.com/scrapy/scrapyd 官方文档 http://scrapyd.readthedocs.org/ ...
学习Spider 了解 Scrapy的流程
Scrapy 先创建项目在windows下 scrapy startproject myproject #myproject是你的项目名称 cd 项目名称 scrapy g ...
scrapy 4 学习 crawl spider
前情提要: 一:图片懒加载(面对图片懒加载怎么办) ---用selenium设置图片加载的位置 --- 分析懒加载的属性,直接获取二: 如何提高scrapy的爬取效率增加并发:默认scrapy开启 ...
Scrapy学习篇（五）之Spiders
Spiders Spider类定义了如何爬取某个网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item).简而言之,Spider就是你定义爬取的动作及分析某个网 ...

随机推荐

这个开挂一般的工具，承包你所有的PPT
本文转自知乎作者:挖数 ----------------------------------------------------- 俗话说,办公有三宝,PPT.Word 和 Excel.后边两个大家 ...
centos官网下载旧版本办法
https://blog.csdn.net/yu0_zhang0/article/details/78503439 在 /etc/yum.conf 的 [main] 后面添加以下配置即可! exclu ...
5. MYSQL问题：Access denied for user 'root'@'localhost' (using password:YES)
开发Web项目时,连接MYSQL数据库,出现问题:Access denied for user 'root'@'localhost' (using password:YES). 解决方案: ...
正则表达式——WPF输入控件TextBox 限定输入特定字符
概念: 正则表达式是对字符串操作的一种逻辑公式, 就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个“规则字符串”, 这个“规则字符串”用来表达对字符串的一种过滤逻辑. 目的: 给定一个正 ...
在Ubuntu下利用Eclipse调试FFmpeg《转》
参考原贴,其中编译命令有略微改动. 第一步:准备编译环境 #sudoapt-get update #-dev libspeex-dev libtheora-dev libtool libva-dev ...
spark 集成elasticsearch
pyspark读写elasticsearch依赖elasticsearch-hadoop包,需要首先在这里下载,版本号可以通过自行修改url解决. """ write d ...
服务发现 - consul 的介绍、部署和使用(转)
什么是服务发现相关源码: spring cloud demo 微服务的框架体系中,服务发现是不能不提的一个模块.我相信了解或者熟悉微服务的童鞋应该都知道它的重要性.这里我只是简单的提一下,毕竟这不是 ...
C++复习：C++的类型转换
C++的类型转换 1 类型转换名称和语法 C风格的强制类型转换(Type Cast)很简单,不管什么类型的转换统统是: TYPE b = (TYPE)a C++风格的类型转换提供了4种类型转换操作符来 ...
Bash:精华
# 声明索引数组(以从0开始的整数做索引的数组).以下三种等效. declare -a array declare array=(this is numeric array ) array=(this ...
Linux学习笔记--vim
Vim是从 vi 发展出来的一个文本编辑器.代码补完.编译及错误跳转等方便编程的功能特别丰富,在程序员中被广泛使用. vim的三种模式命令模式(Command mode),输入模式(Insert m ...

【Spider】学习使用XMLFeedSpider

【Spider】学习使用XMLFeedSpider的更多相关文章

随机推荐

热门专题