scrapy xpath选择器多级选择错误

在学习scrapy中用xpath提取网页内容时，有时要先提取出一整个行标签内容，再从行标签里寻找目标内容。出现一个错误。

错误代码：

def parse(self, response):

    sel = scrapy.Selector(response)

    sel_li = sel.xpath('/html/body/div[2]/div[5]/div[1]/ul/li')

    for i in sel_li:

        print(i.xpath('//h5/a/text()').extract()[0])

结果：

大嘴巴第二季

大嘴巴第二季

大嘴巴第二季

大嘴巴第二季

大嘴巴第二季

大嘴巴第二季
...

提取到的内容都是第一个下的后续内容

修稿后代码：

def parse(self, response):

    sel = scrapy.Selector(response)

    sel_li = sel.xpath('/html/body/div[2]/div[5]/div[1]/ul/li')

    for i in sel_li:

        print(i.xpath('.//h5/a/text()').extract()[0])

结果：

大嘴巴第二季

新百战天龙第三季

丹麦淫妖第一季

糟糕历史第七季

无耻之徒第九季

...

在子xpath内路径前加 . 表示从当前查找，之后后续内容正常得到

其他方法：

def parse(self, response):

    sel = scrapy.Selector(response)

    sel_li = sel.xpath('/html/body/div[2]/div[5]/div[1]/ul/li')

    for i in sel_li.extract():

        print(scrapy.Selector(text=i).xpath('//h5/a/text()').extract()[0])

        print(scrapy.Selector(text=i).xpath('.//h5/a/text()').extract()[0])

scrapy xpath选择器多级选择错误的更多相关文章

在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式）
前一阵子我们介绍了如何启动Scrapy项目以及关于Scrapy爬虫的一些小技巧介绍,没来得及上车的小伙伴可以戳这些文章: 手把手教你如何新建scrapy爬虫框架的第一个项目(上) 手把手教你如何新建s ...
使用scrapy中xpath选择器的一个坑点
情景如下: 一个网页下有一个ul,这个ur下有125个li标签,每个li标签下有我们想要的 url 字段(每个 url 是唯一的)和 price 字段,我们现在要访问每个li下的url并在生成的请求中 ...
scrapy xpath、正则表达式、css选择器
scrapy xpath XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言.XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力. 学习 ...
Python爬虫与数据分析之爬虫技能：urlib库、xpath选择器、正则表达式
专栏目录: Python爬虫与数据分析之python教学视频.python源码分享,python Python爬虫与数据分析之基础教程:Python的语法.字典.元组.列表 Python爬虫与数据分析 ...
xpath选择器简介及如何使用
xpath选择器简介及如何使用一.总结一句话总结:XPath 的全称是 XML Path Language,即 XML 路径语言,它是一种在结构化文档(比如 XML 和 HTML 文档)中定位信息 ...
Selenium(九)：Xpath选择器
1. Xpath选择器 1.1 Xpath语法简介前面我们学习了CSS选择元素. 大家可以发现非常灵活.强大. 还有一种灵活.强大的选择元素的方式,就是使用Xpath表达式. XPath (XML ...
Scrapy Selectors 选择器
0. 1.参考 <用Python写网络爬虫>——2.2 三种网页抓取方法 re / lxml / BeautifulSoup 需要注意的是,lxml在内部实现中,实际上是将CSS选择器转 ...
常用xpath选择器和css选择器总结
xpath选择器表达式说明 article 选取所有article元素的所有子节点 /article 选取根元素article article/a 选取所有属于article的子元素的a元素 // ...
下面有关css选择器的说法错误的是？
下面有关css选择器的说法错误的是? .intro --- 选择 class="intro" 的所有元素. #firstname --- 选择 id="firstname ...

随机推荐

HD-ACM算法专攻系列（8）——排序
题目描述: 源码: #include"iostream" #include"string" using namespace std; void Order(in ...
Calling convention-调用约定
In computer science, a calling convention is an implementation-level (low-level) scheme for how subr ...
tomcat更改日志路径
共有2个地方需要更改. 1. tomcat/conf/logging.properties 步骤1--查找:grep logs logging.properties 步骤2--替换:sed -i ...
iptables 简单介绍及应用 Linux防火墙
iptables 即 Linux防火墙的简单介绍及使用 iptables生效位置如下图: 其中, 网络防火墙也可以使用一台启用了iptables的Linux主机代替; 路由器或集线器等设施在拓扑中省 ...
C语言基础 (2) linux命令
01.课程回顾链接 ln 1.txt aaa.txt 硬链接 (两个相互独立删除一个另外一个还在) ln -s 1.txt aaa.txt软连接 (后面的是快捷方式) 硬链接只能是文件,软连接可 ...
Innodb中的事务隔离级别和锁的关系（转载）
nodb中的事务隔离级别和锁的关系原文:https://tech.meituan.com/innodb-lock.html ameng ·2014-08-20 15:50 前言: 我们都知道事务的几 ...
Springboot错误问题总结
进行springboot+swagger2测试的时候,启动项目发现出现这个问题把所有的类,配置类都注释掉,不管用,百度搜索之后发现一个解决办法, 半信半疑的加到启动类SpringBootApplic ...
python 工具包安装
(1)wxPython是python的常用gui yum install wxPython (2)numpy, scipy是常用的数学处理工具包 yum install scipy
Crytek的幕后花絮
无论是哪种公司规模和状态.Xsolla都能够为其提供定制化的服务.我们提供定制化的技术集成,而不是提供一系列的解决方式.由于我们致力于满足每个合作伙伴的需求.整套的解决方式还存在着一系列的潜在隐患,我 ...
iOS开发实践之GET和POST请求
GET和POST请求是HTTP请求方式中最最为常见的. 在说请求方式之前先熟悉HTTP的通信过程: 请求 1.请求行 : 请求方法.请求路径.HTTP协议的版本号 GET /MJServer/reso ...

scrapy xpath选择器多级选择错误

scrapy xpath选择器多级选择错误的更多相关文章

随机推荐

热门专题