Python之scrapy linkextractors使用错误

1.环境及版本

python3.7.1+scrapy1.5.1

2.问题及错误代码详情

优先贴上问题代码，如下：

import scrapy

from scrapy.linkextractors import LinkExtractor

class MatExamplesSpider(scrapy.Spider):

    name = 'mat_examples'

    # allowed_domains = ['matplotlib.org']

    start_urls = ['https://matplotlib.org/gallery/index.html']

    def parse(self, response):

        le = LinkExtractor(restrict_xpaths='//a[contains(@class, "reference internal")]/@href')

        links = le.extract_links(response)

        print(response.url)

        print(type(links))

        print(links)

运行代码后报错如下：

Traceback (most recent call last):

  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/site-packages/twisted/internet/defer.py", line 654, in _runCallbacks

    current.result = callback(current.result, *args, **kw)

  File "/Users/eric.luo/Desktop/Python/matplotlib_examples/matplotlib_examples/spiders/mat_examples.py", line 14, in parse

    links = le.extract_links(response)

  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/site-packages/scrapy/linkextractors/lxmlhtml.py", line 128, in extract_links

    links = self._extract_links(doc, response.url, response.encoding, base_url)

  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/site-packages/scrapy/linkextractors/__init__.py", line 109, in _extract_links

    return self.link_extractor._extract_links(*args, **kwargs)

  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/site-packages/scrapy/linkextractors/lxmlhtml.py", line 58, in _extract_links

    for el, attr, attr_val in self._iter_links(selector.root):

  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/site-packages/scrapy/linkextractors/lxmlhtml.py", line 46, in _iter_links

    for el in document.iter(etree.Element):

AttributeError: 'str' object has no attribute 'iter'

出现错误后自检代码并未发现问题，上网查找也未发现相关的问题；于是将代码改成（restrict_css）去抓取数据，发现是能正常获取到数据的，于是改回xpath；但这次先不使用linkextractor，采用scrapy自带的response.xpath()方法去获取对应链接所在标签的href属性值；发现这样是可以获取到正常的数据的：

即将：

le = LinkExtractor(restrict_xpaths='//a[contains(@class, "reference internal")]/@href')

links = le.extract_links(response)

改成：

links = respon.xpath(‘//a[contains(@class, "reference internal")]/@href').extract()

然后又发现报错是： 'str' object has no attribute 'iter'

而正常返回的links数据类型应该是list才对，不应该是str，所以猜测可能是由于规则写错了导致获取的数据不是list而变成了一个不知道的str；这样针对性的去修改restrict_xpaths中的规则，最后发现去掉／@href后能够获取我所需要的正常的数据；

即将：

le = LinkExtractor(restrict_xpaths='//a[contains(@class, "reference internal")]/@href')

改成：

le = LinkExtractor(restrict_xpaths='//a[contains(@class, "reference internal")]')

重新运行代码，发现成功获取数据，输出结果如下截图所示：

*****爬虫初学者，不喜勿喷*****

Python之scrapy linkextractors使用错误的更多相关文章

Python之Scrapy爬虫框架安装及简单使用
题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提 ...
[Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更 ...
python爬虫scrapy框架
Scrapy 框架关注公众号"轻松学编程"了解更多. 一.简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量 ...
python之scrapy框架基础搭建
一.创建工程 #在命令行输入scrapy startproject xxx #创建项目二.写item文件 #写需要爬取的字段名称 name = scrapy.Field() #例三.进入spide ...
Python：Scrapy（三）进阶：额外的一些类ItemLoader与CrawlSpider，使用原理及总结
学习自:Python Scrapy 爬虫框架实例(一) - Blue·Sky - 博客园这一节是对前两节内容的补充,涉及内容为一些额外的类与方法,来对原代码进行改进原代码:这里并没有用前两节的代码 ...
Python爬虫Scrapy框架入门（0）
想学习爬虫,又想了解python语言,有个python高手推荐我看看scrapy. scrapy是一个python爬虫框架,据说很灵活,网上介绍该框架的信息很多,此处不再赘述.专心记录我自己遇到的问题 ...
dota玩家与英雄契合度的计算器，python语言scrapy爬虫的使用
首发:个人博客,更新&纠错&回复演示地址在这里,代码在这里. 一个dota玩家与英雄契合度的计算器(查看效果),包括两部分代码: 1.python的scrapy爬虫,总体思路是pag ...
python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)
操作环境:python3 在上一文中python爬虫scrapy框架--人工识别知乎登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前 ...
python爬虫Scrapy(一)-我爬了boss数据
一.概述学习python有一段时间了,最近了解了下Python的入门爬虫框架Scrapy,参考了文章Python爬虫框架Scrapy入门.本篇文章属于初学经验记录,比较简单,适合刚学习爬虫的小伙伴. ...

随机推荐

在CentOS 6 中安装 Apache,Mysql, PHP
1.安装Apache 在终端中输入以下的命令就能够安装Apache了: sudo yum install httpd sudo的意思是用root用户做什么操作.要点击y就确认下载安装了,非常方便. 然 ...
一些求数据库对象的SQL语句
use [mydb] go --存储过程 SELECT * FROM INFORMATION_SCHEMA.ROUTINES WHERE routine_type='PROCEDURE' AND SP ...
luogu1514 引水入城
题目大意在一个遥远的国度,一侧是风景秀美的湖泊,另一侧则是漫无边际的沙漠.该国的行政区划十分特殊,刚好构成一个NN 行\times M×M 列的矩形,如上图所示,其中每个格子都代表一座城市,每座城市 ...
oc46--nonatomic, retain
// // Person.h #import <Foundation/Foundation.h> #import "Room.h" #import "Car. ...
Android EditText得到和失去焦点时，自定义处理内容
当android的Edittext得到/失去焦点时,需要自定义一些处理内容时,需要对EditText对象的Focus进行监听处理. 在Activity中,做以下处理: 1.取得EditText对象. ...
C# textbox中输入时加限制条件 // C#Winform下限制TextBox只能输入数字 // 才疏学浅（TextBox 小数点不能在首位+只能输入数字）
textbox中输入时加限制条件分类: C# winform2008-08-26 08:30 306人阅读评论(0) 收藏举报 textbox正则表达式object 1.用正则表达式! 2.使用 ...
hdoj--5625--Clarke and chemistry（枚举）
Clarke and chemistry Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Oth ...
stack 栈
其实今天我们主要讲的是搜索,但是留作业不知道怎么就突然全变成栈了. 其实栈和队列没什么区别,只是一个先进先出,一个先进后出.基本操作也是一样的. 栈(stack)又名堆栈,它是一种运算受限的线性表.其 ...
数据预处理之Minkowski距离计算
template <class T1, class T2> double Minkowski(const std::vector<T1> &inst1, const s ...
Spark深入之RDD
目录 Part III. Low-Level APIs Resilient Distributed Datasets (RDDs) 1.介绍 2.RDD代码 3.KV RDD 4.RDD Join A ...

Python之scrapy linkextractors使用错误

Python之scrapy linkextractors使用错误的更多相关文章

随机推荐

热门专题