scrapy xpath选择器多级选择错误

在学习scrapy中用xpath提取网页内容时，有时要先提取出一整个行标签内容，再从行标签里寻找目标内容。出现一个错误。

错误代码：

def parse(self, response):

    sel = scrapy.Selector(response)

    sel_li = sel.xpath('/html/body/div[2]/div[5]/div[1]/ul/li')

    for i in sel_li:

        print(i.xpath('//h5/a/text()').extract()[0])

结果：

大嘴巴第二季

大嘴巴第二季

大嘴巴第二季

大嘴巴第二季

大嘴巴第二季

大嘴巴第二季
...

提取到的内容都是第一个下的后续内容

修稿后代码：

def parse(self, response):

    sel = scrapy.Selector(response)

    sel_li = sel.xpath('/html/body/div[2]/div[5]/div[1]/ul/li')

    for i in sel_li:

        print(i.xpath('.//h5/a/text()').extract()[0])

结果：

大嘴巴第二季

新百战天龙第三季

丹麦淫妖第一季

糟糕历史第七季

无耻之徒第九季

...

在子xpath内路径前加 . 表示从当前查找，之后后续内容正常得到

其他方法：

def parse(self, response):

    sel = scrapy.Selector(response)

    sel_li = sel.xpath('/html/body/div[2]/div[5]/div[1]/ul/li')

    for i in sel_li.extract():

        print(scrapy.Selector(text=i).xpath('//h5/a/text()').extract()[0])

        print(scrapy.Selector(text=i).xpath('.//h5/a/text()').extract()[0])

scrapy xpath选择器多级选择错误的更多相关文章

在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式）
前一阵子我们介绍了如何启动Scrapy项目以及关于Scrapy爬虫的一些小技巧介绍,没来得及上车的小伙伴可以戳这些文章: 手把手教你如何新建scrapy爬虫框架的第一个项目(上) 手把手教你如何新建s ...
使用scrapy中xpath选择器的一个坑点
情景如下: 一个网页下有一个ul,这个ur下有125个li标签,每个li标签下有我们想要的 url 字段(每个 url 是唯一的)和 price 字段,我们现在要访问每个li下的url并在生成的请求中 ...
scrapy xpath、正则表达式、css选择器
scrapy xpath XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言.XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力. 学习 ...
Python爬虫与数据分析之爬虫技能：urlib库、xpath选择器、正则表达式
专栏目录: Python爬虫与数据分析之python教学视频.python源码分享,python Python爬虫与数据分析之基础教程:Python的语法.字典.元组.列表 Python爬虫与数据分析 ...
xpath选择器简介及如何使用
xpath选择器简介及如何使用一.总结一句话总结:XPath 的全称是 XML Path Language,即 XML 路径语言,它是一种在结构化文档(比如 XML 和 HTML 文档)中定位信息 ...
Selenium(九)：Xpath选择器
1. Xpath选择器 1.1 Xpath语法简介前面我们学习了CSS选择元素. 大家可以发现非常灵活.强大. 还有一种灵活.强大的选择元素的方式,就是使用Xpath表达式. XPath (XML ...
Scrapy Selectors 选择器
0. 1.参考 <用Python写网络爬虫>——2.2 三种网页抓取方法 re / lxml / BeautifulSoup 需要注意的是,lxml在内部实现中,实际上是将CSS选择器转 ...
常用xpath选择器和css选择器总结
xpath选择器表达式说明 article 选取所有article元素的所有子节点 /article 选取根元素article article/a 选取所有属于article的子元素的a元素 // ...
下面有关css选择器的说法错误的是？
下面有关css选择器的说法错误的是? .intro --- 选择 class="intro" 的所有元素. #firstname --- 选择 id="firstname ...

随机推荐

配置NTP集群时间同步(二)
[root@hadoop1 bin]# rpm -qa|grep ntp 没有的话用yum -y install ntp安装(要记着每台机器上都要安装) [root@hadoop1 bin]# vi ...
ZOJ 3321 Circle【并查集】
解题思路:给定n个点,m条边,判断是否构成一个环注意到构成一个环,所有点的度数为2,即一个点只有两条边与之相连,再有就是判断合并之后这n个点是否在同一个连通块 Circle Time Limit: ...
XShell与虚拟机连接的IP问题
这几天在Xshell连接虚拟机这个问题上头疼了好长时间,原因是我在虚拟机内的eth0网卡没有分配IP地址,从而导致无法连接XShell,今天解决了这个问题,做一下记录. 首先我使用的是微软的Hyper ...
TP框架传值
/*TP框架传值*/ location.href = "../add/add/department/"+department+"/username/"+user ...
【BZOJ1014】【JSOI2008】火星人prefix
题意: Description 火星人最近研究了一种操作:求一个字串两个后缀的公共前缀.比方说,有这样一个字符串:madamimadam,我们将这个字符串的各个字符予以标号:序号: 1 2 3 4 5 ...
luogu P4430 小猴打架(prufer编码与Cayley定理）
题意 n个点问有多少种有顺序的连接方法把这些点连成一棵树. (n<=106) 题解了解有关prufer编码与Cayley定理的知识. 可知带标号的无根树有nn-2种.然后n-1条边有(n-1) ...
【BZOJ 1257】[CQOI2007]余数之和
[链接] 我是链接,点我呀:) [题意] 在这里输入题意 [题解] k%i=k-(k/i)i 则∑k%i = nk-∑(k/i)*i 因为k/i是整除运算. 所以会有某一段连续的i,它们的k/i的值都 ...
【codeforces 196B】Infinite Maze
[题目链接]:http://codeforces.com/problemset/problem/196/B [题意] 给你一个n*m的棋盘; 然后你能够无限复制这个棋盘; 在这个棋盘上你有一个起点s; ...
ASP.NET-缓存基本知识点
asp.net cache是一种缓存技术,然而,我们在asp.net程序中还可以使用其他的缓存技术,这些不同的缓存也各有所长.由于asp.net cache不能提供对外访问能力,因此,它不可能取代以m ...
黑马day14 踢人小案例
本案例介绍: 使用监听器来实现踢人小案例,仅仅有管理员才有踢人的功能. 1.搭建开发环境,导入本案例须要的jar包.以及一个准备好的数据库工具类:提供数据源的方法...当中我已经在数据库中加入了三个用 ...

scrapy xpath选择器多级选择错误

scrapy xpath选择器多级选择错误的更多相关文章

随机推荐

热门专题